Franco S. Benítez
Resumen
El siglo XXI ha producido distintos hitos en las ciencias —y, en particular, en la ciencia psicológica— que han llamado la atención sobre la validez de sus hallazgos. Desde fraudes flagrantes hasta estudios genuinos que no pudieron ser replicados, han obligado al sistema científico a revisar sus prácticas. Como consecuencia, el movimiento por la ciencia abierta fue una respuesta a muchos de los problemas existentes. Sin embargo, todavía resta mucho trabajo por hacer en relación a la difusión y enseñanza de estas nuevas prácticas. Este trabajo es un intento de aportar a la divulgación y discusión sobre lo que ha sucedido recientemente en la ciencia psicológica.
Crisis de replicabilidad y ciencia abierta
Mucho ha sido discutido sobre crisis de replicabilidad y prácticas de ciencia abierta durante lo que va del siglo XXI. Tempranamente, Ioannidis (2005) publicará un artículo titulado Por qué la mayoría de los hallazgos de investigación publicados son falsos. Sucintamente, Charris (2018) clasifica sus críticas en torno a las siguientes cuestiones: (a) tamaños de efecto pequeños, (b) sesgo de publicación, (c) manipulación de resultados y (d) poco poder estadístico. Lo cierto es que estas cuestiones también aplican a la psicología.
En la última década han ocurrido algunos hitos que llamaron la atención sobre la validez de las investigaciones en este campo. Algunos de ellos son: (i) el fraude científico de Diederik Stapel, cuya manipulación de los datos significó un pobre funcionamiento de la crítica y el escrutinio científico debido a la ausencia de transparencia en la recolección de los mismos (Verfaellie & McGwin, 2011), (ii) los fallidos intentos de replicación de los estudios sobre percepción extrasensorial de Daryl Bem, quien reconoció haber usado sus datos como una herramienta de persuasión y nunca haberse preocupado acerca de si replicarían o no (Engber, 2017), (iii) los ocho estudios (de veintiuno de ellos) publicados en Nature y Science que no se pudieron replicar (Camerer et al., 2018), (iv) el Reproducibility Project: Psychology que pudo replicar sólo el 36% de los estudios y (v) los Many Labs: el Many Labs 1 replicó diez de trece; el Many Labs 2 replicó catorce de veintiocho; y, finalmente, el Many Labs 3 replicó sólo tres de los diez de ellos (Renkewitz & Heene, 2019; Stroebe, 2019; Yong, 2018). De este modo, llegó a ser claro que había un problema. Inclusive, se consultó a 1576 científicos de diferentes ciencias con el objetivo de saber si creían que había una crisis de reproducibilidad: el 52% creía en una crisis significativa y el 38% en una crisis leve, mientras que sólo el 7% respondió que no sabía y el 3% que no creía que hubiera tal crisis (Baker, 2016).
Algunas razones que se apuntan como causantes de este problema son las siguientes: En primer lugar, el sesgo de publicación, es decir el hecho de que los estudios que no muestran efectos estadísticamente significativos (o que sólo se limitan a reproducir el trabajo de otros) no son publicados (Fanelli (2010) encontró que de 2434 papers publicados en psicología y psiquiatría el 91% son resultados positivos) (Chambers, 2017). En segundo lugar, las llamadas prácticas de investigación cuestionables (PICs), definidas por Anvari & Lakens (2018) como el conjunto de prácticas impulsadas por su utilidad en producir resultados estadísticos más favorables y que no son transparentemente reportadas en las secciones de métodos, y las que Morling & Calin-Jageman (2020) dividen en (1) underreporting of null findings, cuando los investigadores no reportan los efectos no significativos en términos estadísticos, (2) p-hacking, cuando los investigadores buscan redondear el p-valor para lograr significación, y, (3) HARKing, cuando los investigadores agregan y/o remueven hipótesis después de que los resultados son conocidos (Hypothesizing After the Results are Known). En tercer lugar, los incentivos perversos de las revistas y organismos de subvención, los cuales influenciados por la llamada cultura del “publicar o perecer” (publish or perish) premian el número de publicaciones científicas antes que la calidad de las mismas. En cuarto y último lugar, los malos usos y malentendidos estadísticos, siendo el p-valor el más frecuentemente malentendido, aunque también lo son los intervalos de confianza y el poder estadístico (por añadidura, Cassidy et al. (2019) examinaron treinta libros de psicología introductorios y encontraron que el 89% de los mismos definió la significación estadística incorrectamente) (Chambers, 2017; Greenland et al., 2016; Reenkewitz & Heene, 2019).
Sin embargo, no todo fue perplejidad y contemplación. La más grande iniciativa que se propuso para paliar esta situación fue el movimiento por la ciencia abierta. Por “Ciencia abierta” se refiere al procedimiento de hacer el contenido y el proceso de producir afirmaciones y evidencia transparente y accesible para otros (Munafo et al., 2017). Así, el movimiento por la ciencia abierta considera la transparencia de la investigación como un método contra el error humano, el descuido, el sesgo de publicación y el fraude en la ciencia (Renkewitz & Heene, 2019). Inclusive, con la finalidad de dar cuenta de la organización que posee este movimiento, en 2015 se publicaron las Guías para la Promoción de la Transparencia y la Apertura (Transparency and Openness Promotion Guidelines), cuyo objetivo principal es que las revistas modifiquen los incentivos estructurales y, en consecuencia, dirijan a las acciones de los investigadores hacia una mayor apertura (Nosek et al., 2015). Estas guías TOP, por sus siglas en inglés, son un esquema de certificación en el cual las revistas y organizaciones de investigación declaran su nivel de adherencia a una serie de estándares modulares para capacitar la reproducibilidad y la transparencia de la investigación (Chambers, 2018).
Morling & Calin-Jageman (2020) dividen las nuevas prácticas que este movimiento promueve en dos ejes: 1) completa transparencia mediante materiales y datos abiertos y 2) reportes registrados y pre-registrados. El primer eje refiere a compartir i) cada variable dependiente y cada elección estadística (completa transparencia), ii) protocolos y estímulos experimentales completos (materiales abiertos) y iii) datos y script de análisis de manera que otros investigadores puedan independientemente analizar los resultados (datos abiertos). El segundo eje alude, por el lado del pre-registro, al proceso de subir públicamente los procedimientos, hipótesis específicas y análisis de datos planeados antes de la recolección de datos, mientras que, por el lado de los reportes registrados, alude tanto al proceso de revisión por pares del pre-registro como a la aceptación condicional del estudio por parte de una revista sin importar el resultado final. En otras palabras, estas nuevas prácticas intentan contrarrestar las causas y los efectos de la crisis de replicabilidad ya mencionados: el primer eje intenta prevenir el underreporting of null findings y el p-hacking, mientras que el segundo intenta prevenir el HARKing, el p-hacking y el sesgo de publicación; en este último caso, el segundo eje obliga a modificar los incentivos de publicación: las revistas se apartan de la práctica de publicar artículos científicos debido a sus resultados “novedosos” y positivos y pasan a colocar la importancia en la calidad de los métodos para responder a la pregunta de investigación (Blincoe & Bucher, 2019; Morlin & Calin-Jageman, 2020).
Finalmente, vale hacer una aclaración terminológica. Como mencionan Mede et al. (2020), con base en LeBel et al. (2018), algunos investigadores distinguen entre replicabilidad (1) y reproducibilidad: mientras que la primera alude a observar consistentemente ciertos resultados en nuevas muestras usando metodologías y condiciones similares a aquellas del estudio original, la segunda refiere a observar consistentemente ciertos resultados repitiendo los mismos procesamientos de datos y análisis estadísticos sobre los datos originales. Sin embargo, otros autores, tales como Anvari & Lakens (2018), quienes investigaron acerca de cómo saber sobre crisis de replicabilidad influye en la confianza del público general, y Chopik et al. (2018), quienes investigaron acerca de cómo saber sobre crisis de replicabilidad influye en la confianza de estudiantes de psicología, utilizan los términos intercambiablemente.
Conclusiones
La última década ha sido para la ciencia psicológica (y otras ciencias) un impulso radical para comenzar a poner manos a la obra e intentar erradicar muchas prácticas de investigación inadecuadas, las cuales han sido criticadas desde hace mucho tiempo. Los hitos que se han mencionado sirvieron como detonante para tomar conciencia de que, si no se modifican las prácticas vigentes, todo esfuerzo laborioso por producir nuevos hallazgos psicológicos sería en vano, dado que estaríamos comprometiendo seriamente un punto central de la investigación científica: la replicabilidad de los hallazgos (Janz, 2015). Por ello, tomar conciencia acerca de la crisis de replicabilidad, las nuevas prácticas de ciencia abierta que se proponen para solucionarla y la importancia de la replicación, debería ser uno de los principales objetivos de quienes enseñan a los futuros profesionales. Tal y como mencionan Cruwell et al. (2019), “Teaching open science and the replication crisis is a pedagogical challenge [Enseñar ciencia abierta y la crisis de replicación es un desafío pedagógico]”. Sin embargo, necesario, puesto que no sólo esta enseñanza beneficiará a aquellos estudiantes interesados en la investigación, en tanto podrán alinearse a las nuevas prácticas en ciencia que se están proponiendo actual e internacionalmente, sino que beneficiará a todo estudiante, dado que saber acerca de estos temas los convertirá en consumidores críticos de ciencia: por ejemplo, podrán distinguir qué estudios y revistas siguen los principios de transparencia (v. g., poseen datos abiertos y/o han sido pre-registrados), y cuáles no. Finalmente, es de suma relevancia que los hallazgos científicos sean reproducibles si lo que busca la ciencia es aportar el conocimiento más riguroso posible a la sociedad, ya que, de otro modo, hallazgos irreproducibles sólo alimentarán la desconfianza de estudiantes (Chopik et al., 2018), del público general (Wingen, Berkessel & Englich, 2019), y no sólo en la ciencia psicológica, sino que, a su vez, en la ciencia en general.
Bibliografía
Anvari, F., & Lakens, D. (2018). The replicability crisis and public trust in psychological science. Comprehensive Results in Social Psychology, 3(3), 266-286. https://doi.org/10.1080/23743603.2019.1684822
Blincoe, S., & Buchert, S. (2020). Research Preregistration as a Teaching and Learning Tool in Undergraduate Psychology Courses. Psychology Learning & Teaching, 19(1), 107-115. https://doi.org/10.1177/1475725719875844
Baker, M. (2016). Is there a reproducibility crisis? Nature, 452–454(26). doi: 10.1038/533452a
Camerer, C. F., Dreber, A., Holzmeister, F., Ho, T.-H., Huber, J., Johannesson, M., . . . Pfeiffer, T. (2018). Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015. Nature Human Behaviour, 2, 637–644. https://doi.org/10.1038/s41562-018-0399-z
Cassidy, S. A., Dimova, R., Giguère, B., Spence, J. R., & Stanley, D. J. (2019). Failing grade: 89% of introduction-to-psychology textbooks that define or explain statistical significance do so incorrectly. Advances in Methods and Practices in Psychological Science, 2(3), 233-239.
Chambers, C., (2017). The seven deadly sins of psychology: A manifesto for reforming the culture of scientific practice, Princeton, New Jersey: Princeton University Press.
Chambers, C. D. (2018). Introducing the transparency and openness promotion (TOP) guidelines and badges for open practices at Cortex. Cortex, 106, 316-318. https://doi.org/10.1016/j.cortex.2018.08.001
Charris Domínguez, R. A. (2018). Cómo evaluar una réplica en psicología (tesis de máster). Universidad de los Andes, Bogotá, Colombia.
Chopik, W. J., Bremner, R. H., Defever, A. M., & Keller, V. N. (2018). How (and whether) to teach undergraduates about the replication crisis in psychological science. Teaching of psychology, 45(2), 158-163. https://doi.org/10.1177/0098628318762900
Crüwell, S., van Doorn, J., Etz, A., Makel, M. C., Moshontz, H., Niebaum, J. C., Orben, A., Parsons, S., & Schulte-Mecklenbeck, M. (2019). Seven Easy Steps to Open Science: An Annotated Reading List. Zeitschrift Für Psychologie, 227(4), 237-248. https://doi.org/10.1027/2151-2604/a000387
Engber, D. (2017, 17 de mayo). Daryl Bem proved ESP is real: Which means science is broken. Slate. https://slate.com/health-and-science/2017/06/daryl-bem-proved-esp-is-real-showed-science-is-broken.html
Fanelli, D. (2010). “Positive” Results Increase Down the Hierarchy of the Sciences. PLOS ONE, 5(4), 1-10. https://doi.org/10.1371/journal.pone.0010068
Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8), 124. https://doi.org/10.1371/journal.pmed.0020124
Janz, N. (2015). Bringing the Gold Standard into the Classroom: Replication in University Teaching. International Studies Perspectives, 17(4), 392-407. https://doi.org/10.1111/insp.12104
LeBel, E. P., McCarthy, R. J., Earp, B. D., Elson, M., & Vanpaemel, W. (2018). A unified framework to quantify the credibility of scientific findings. Advances in Methods and Practices in Psychological Science, 1(3), 389-402.
Mede, N. G., Schäfer, M. S., Ziegler, R., & Weißkopf, M. (2020). The “replication crisis” in the public eye: Germans’ awareness and perceptions of the (ir)reproducibility of scientific research. Public Understanding of Science, 12.
Morling, B., & Calin-Jageman, R. J. (2020). What Psychology Teachers Should Know About Open Science and the New Statistics. Teaching of Psychology, 47(2), 169-179. https://doi.org/10.1177/0098628320901372
Munafò, M. R., Nosek, B. A., Bishop, D. V., Button, K. S., Chambers, C. D., Du Sert, N. P., Simonsohn, U., Wagenmakers, E., Ware, J. J., & Ioannidis, J. P. (2017). A manifesto for reproducible science. Nature human behaviour, 1(1), 1-9. https://doi.org/10.1038/s41562-016-0021
Nosek, B. A., Alter, G., Banks, G. C., Borsboom, D., Bowman, S. D., Breckler, S. J., ..., & Yarkoni, T. (2015). Promoting an open research culture. Science, 348, 1422–1425.
Renkewitz, F., & Heene, M. (2019). The Replication Crisis and Open Science in Psychology: Methodological Challenges and Developments. Zeitschrift Für Psychologie, 227(4), 233–236. https://doi.org/10.1027/2151-2604/a000389
Stroebe, W. (2019). What Can We Learn from Many Labs Replications? Basic and Applied Social Psychology, 41(2), 91-103. https://doi.org/10.1080/01973533.2019.1577736
Verfaellie, M., & McGwin, J. (2011, diciembre). The case of Diederik Stepel. Psychological Science Agenda. https://www.apa.org/science/about/psa/2011/12/diederik-stapel
Wingen, T., Berkessel, J. B., & Englich, B. (2020). No replication, no trust? How low replicability influences trust in psychology. Social Psychological and Personality Science, 11(4), 454-463. https://doi.org/10.1177/1948550619877412
Yong, E. (2018, 19 de noviembre). Psychology’s Replication Crisis Is Running Out of Excuses. The Atlantic. https://www.theatlantic.com/science/archive/2018/11/psychologys-replication-crisis-real/576223/
(1) Charris (2018) diferencia entre la replicación directa y la conceptual: mientras que la primera refiere a intentar reproducir el estudio original utilizando los mismos métodos, materiales y forma de presentación teniendo como única diferencia la muestra, la segunda alude a poner a poner a prueba la misma hipótesis del estudio original, pero con otros diseños. Según este autor, la interpretación de ambas réplicas se debe interpretar de manera distinta, puesto que en las réplicas directas existe mayor control. Las réplicas directas son las que se han llevado a cabo en proyectos ya mencionados tales como el Reproducibility Project: Psychology y los Many Labs.
Franco Sebastián Benítez
Estudiante de la Licenciatura en Psicología de la UBA.
Amante de nerdear sobre ciencia, filosofía y psicología. También fanático de la estadística y la programación. Odia cocinar.
Comentários