Durante los últimos años, un equipo internacional de casi 200 psicólogos ha tratado de repetir un conjunto de importantes experimentos publicados anteriormente en su campo, con el objetivo de saber si era posible obtener los mismos resultados. La replicabilidad es fundamental para confirmar la validez de un estudio científico: si haciéndolo de la misma forma no se obtienen los mismos resultados no tiene validez. Pero, a pesar de sus esfuerzos, el proyecto, bautizado como Many Labs 2, solo ha tenido éxito en 14 de los 28 casos.

En otro estudio reciente publicado en ‘Nature Human Behavior’ un equipo de reputados economistas y psicólogos realizaron de nuevo 21 experimentos de perfil alto. Muchas investigaciones no lograron replicarse, pero lo peor de todo es que los autores del estudio lograron predecir con anterioridad qué experimentos no iban a ser reales lo que indicaría que estaban mal planteados desde el principio. Los científicos tenían claro desde el principio que algunas investigaciones no resistirían un escrutinio real.

La crisis de reproductibilidad no es un problema nuevo, pero cada vez es más escandaloso. ¿Podemos fiarnos de los estudios en los que se basan las charlas TED, los libros de autoayuda y, lo que es peor, las políticas de recursos humanos?

La integridad de la investigación científica
Como apunta Ed Yong en ‘The Atlantic’, la psicología es el campo más afectado por esta crisis de replicabilidad: “Irónicamente, parece que uno de los hallazgos más confiables en psicología es que solo la mitad de los estudios psicológicos se pueden repetir con éxito”.

El experimento Many Labs 2 es especialmente preocupante porque ha escogido estudios que tuvieron un gran impacto en el momento de su publicación y han sido ampliamente citados. “Los psicólogos debemos admitir que no hemos estado produciendo resultados tan sólidos como esperábamos, o como los hemos compartido en los medios de comunicación o ante los responsables políticos”, explica a ‘The Atlantic’ Simine Vazire, psicóloga de la Universidad de California en Davis. “Corremos el riesgo de socavar nuestra credibilidad a corto plazo, pero negar este problema ante una evidencia tan fuerte hará más daño a largo plazo”.

¿Es un fallo de fondo o de forma?
No muchas críticas por no estar bien diseñados, pero Many Labs 2 se ha realizado con la idea de resistir cualquier duda. Con 15.305 participantes en total, los nuevos experimentos tuvieron, en promedio, 60 veces más voluntarios que los estudios que intentaban replicar. Los investigadores involucrados trabajaron con los científicos responsables de los estudios originales para examinar y revisar cada detalle de los experimentos de antemano. Y repitieron esos experimentos muchas veces, con voluntarios de 36 países diferentes, para ver si los estudios se podían repetir en algunas culturas y contextos, pero no en otros.

A pesar de los grandes tamaños de muestra y las bendiciones de los equipos originales, el equipo no pudo replicar la mitad de los estudios en los que se centró. Por ejemplo, se echaron por tierra muchos experimentos de esos que encantan a la prensa: no se pudo mostrar que las personas expuestas de manera subconsciente al calor tenían más probabilidades de creer en el calentamiento global, o que las transgresiones morales crean una necesidad de limpieza física al estilo de Lady Macbeth, o que las personas que crecen con más hermanos son más altruistas.

¿Qué está pasando?
La investigación solo arroja una buena noticia: si uno de los equipos participantes replicó con éxito un estudio, otros lo hicieron también. Si un estudio no logra replicarse, tiende a fallar en todas partes.

La práctica fundamental de la psicología –crear experimentos de laboratorio cuidadosos para estudiar un mundo complicado, resbaladizo y complicado de la mente humana– funciona bastante bien, el problema es que muchos equipos no utilizan el método científico como deberían.

Como apunta en una columna en ‘The New York Times’ el profesor de estadística y ciencias políticas de la Universidad de Columbia Andrew Gelman, “la crisis de replicación en la ciencia se presenta a menudo como un problema de integridad o procedimiento científico. Pero todo el procedimiento cuidadoso y toda la honestidad en el mundo no ayudarán si su señal (el patrón que está buscando) es pequeña, y la variación (todos los factores de confusión, las otras cosas que podrían explicar este patrón) es alta”.

El problema está íntimamente relacionado con el sistema laboral que rige la investigación científica: los méritos científicos se valoran en función de las publicaciones, por lo que es más valioso hacer muchas publicaciones malas que unas pocas buenas. Debido a esto, los estudios son de menor calidad. Es algo especialmente preocupante en el conjunto de las ciencias sociales, que dependen en mayor medida del tamaño de la muestra, pero también en todo lo que respecta a los ensayos clínicos, muchos de los cuales, apunta Gelman, también dependen enormemente de modelos estadísticos.

El problema, quizás, no sean los investigadores tramposos u oportunistas, que son una minoría, sino los investigadores honestos que han sido entrenados para pensar que cualquier resultado estadísticamente significativo tiene validez. Y esto no siempre es cierto en estudios con muestras muy pequeñas.

Gleman tiene un último consejo: “Cuando leas sobre la investigación en los medios de comunicación (y, como contribuyente, también eres indirectamente un financiador de la investigación), debes preguntarte qué se está midiendo exactamente y por qué”.

Publicidad