Una dura crítica al sistema actual y nuevas propuestas

¿Cómo hacer que las investigaciones publicadas sean más verdaderas?

En la actualidad, muchos resultados de las investigaciones publicadas son falsos o exagerados y se estima que 85% de los recursos de investigación se desperdician. Una polémica propuesta de superación.

Autor/a: John P. A. Ioannidis

Fuente: How to Make More Published Research True

Resumen de puntos principales

  • En la actualidad, muchos resultados de las investigaciones publicadas son falsos o exagerados, y se estima que 85% de los recursos de investigación se desperdician.
     
  • Para hacer que más investigación publicada sea cierta, las prácticas que han mejorado la credibilidad y la eficacia en sectores específicos pueden ser trasplantadas a otras áreas que se beneficiarían con ellos, las posibilidades incluyen: la adopción de la investigación en colaboración a gran escala, la cultura de la replicación, el registro, compartir, prácticas de reproducibilidad, mejores métodos estadísticos, normalización de las definiciones y análisis, umbrales estadísticos más apropiados y la mejora en los estándares de diseño de los estudios, revisión por pares, información y difusión de la investigación, y formación de la fuerza de trabajo científico.
     
  • La selección de intervenciones para mejorar las prácticas de investigación requiere un examen riguroso y pruebas experimentales siempre que sea posible.
     
  • Las intervenciones óptimas necesitan comprender y aprovechar las motivaciones de los distintos actores que operan en la investigación científica y que difieren en el grado en que están interesados en la promoción de resultados publicables, financiables, traducibles, o rentables.
     
  • Las modificaciones deben hacerse en el sistema de recompensas de la ciencia que afecta a los tipos de intercambio de bienes (por ejemplo, publicaciones y becas) y a los bienes académicos adquiridos (por ejemplo, de promoción o de otro beneficio académico o administrativo) y en la introducción de las valores de cambio que estén mejor alineados con la investigación reproducible y traducible.

Los logros de la investigación científica son increíbles. La ciencia ha crecido a partir de la ocupación de algunos diletantes en una industria global vibrante, con más de 15 millones de personas autores de más de 25 millones de artículos científicos solo entre 1996-2011. [1]. Sin embargo, los descubrimientos principales, verdaderos y de fácil aplicación son muchos menos. Muchas de las nuevas asociaciones y / o efectos propuestos son falsos o muy exagerados [2], [3], y la traducción del conocimiento en aplicaciones útiles es a menudo lenta y potencialmente ineficiente [4].

Dada la abundancia de datos, la investigación sobre la investigación (es decir, meta-investigación) puede derivar en estimaciones empíricas de la prevalencia de factores de riesgo de las altas tasas de falsos positivos (estudios de poca potencia, pequeños tamaños del efecto; baja probabilidad pre-estudio, flexibilidad en los diseños, definiciones, resultados, análisis, prejuicios y conflictos de intereses; y la falta de colaboración) [3]. Actualmente, se estima que el 85% de los recursos de investigación se desperdician [5].


Intervenciones efectivas

"Las soluciones, deben ser pragmáticas, aplicables e idealmente susceptibles de ser evaluadas de modo fiable acerca de su rendimiento"

Necesitamos intervenciones efectivas que mejoren la credibilidad y la eficiencia de la investigación científica. Algunos factores de riesgo de resultados falsos son inmutables como las muestras pequeñas, pero otros son modificables. Debemos disminuir los sesgos, los conflictos de interés y la fragmentación de los esfuerzos en favor de una investigación sin sesgos, transparente y colaborativa con una mayor estandarización.

Sin embargo también debemos considerar la posibilidad de que las intervenciones que mejoran la eficiencia científica puedan causar daños colaterales o desperdiciar recursos. Para dar un ejemplo extremo, podríamos eliminar todos los falsos positivos simplemente descartando todos los estudios con mínimos sesgos, haciendo las preguntas de investigación tan intrascendentes que a nadie le importen (o que nadie tenga conflictos de interés) con los resultados o esperando que todos los científicos de un campo unan fuerzas en un único protocolo estandarizado y plan de análisis: la tasa de error podría reducirse a cero simplemente porque ninguna investigación se haría jamás. Por lo tanto se propone que sean cuales sean las soluciones, deben ser pragmáticas, aplicables e idealmente susceptibles de ser evaluadas de modo fiable acerca de su rendimiento.

Actualmente, las mayores decisiones acerca de cómo se hacen las investigaciones se basan a menudo en convenciones o en la inercia en lugar de ser altamente imaginativas o basadas en la evidencia. [5]–[15]. Por ejemplo, existen pruebas de que los revisores de los subsidios tienen típicamente modestos curriculum vitae y la mayoría de los científicos más influyentes no revisan las aplicaciones para subsidios y no están financiados por el gobierno, incluso en los EE.UU.  [6], donde puede decirse que está el mayor impacto científico en este momento por encima de cualquier otro país (por ejemplo en acumulación de citaciones).

"Las prácticas no meritocráticas, incluido el nepotismo y un conservadurismo injustificable están probablemente generalizadas"

Las prácticas no meritocráticas, incluido el nepotismo y un conservadurismo injustificable están probablemente generalizadas [7]. La lealtad y la confirmación de sesgos son poderosos en los procesos científicos [8], [9]. En la asistencia sanitaria y en la práctica clínica, mientras que la medicina basada en la evidencia se ha fortalecido con el tiempo, algunos sostienen que se encuentra actualmente en crisis [10] y la terminología “basada en la evidencia” ha sido usurpada para promover las creencias basadas en los expertos y en las agendas de la industria. [11].

Tenemos poca evidencia experimental  acerca de la forma y el momento en los que el arbitraje debe ser hecho (por ejemplo, basado en el protocolo, basado en el manuscrito, después de la publicación) [5], [12], [13] o acerca de cómo deben asignarse los fondos [14],[15].

Muchas de las estructuras científicas dominantes datan de la Edad Media (como las jerarquías académicas) o del siglo XVII (sociedades científicas, publicaciones en journals), pero su idoneidad para el estado actual del crecimiento de la ciencia es incierta.

Al mismo tiempo, hay una evidente tensión en la esperanza de que las decisiones sean a la vez más imaginativas y más basadas en la evidencia; puede ser el caso de que la burocracia y la práctica de la ciencia requieran a diferentes personas con diferentes habilidades, e incluso puede ser que un sistema demasiado centrado en la eliminación de la discriminación injusta también elimine la discriminación razonable requerida para tomar decisiones sabias.

Mientras que sin duda podríamos introducir cambios que hicieran que la ciencia sea peor, también podríamos introducir deliberadamente otros para que sea mejor. Una opción sería trasplantar a las disciplinas científicas las prácticas de investigación que han resultado exitosas cuando se aplicaron en otros ámbitos. El recuadro muestra una lista de ejemplos.

Algunas prácticas de investigación que pueden colaborar para hacer más verdaderos los hallazgos

  • Investigaciones colaborativas de gran escala.
  • Adopción de la cultura de la replicación.
  • Registro (de estudios, códigos de análisis, sets de datos, datos en bruto y resultados).
  • Compartir (datos, protocolos, materiales, software y otras herramientas).
  • Prácticas de reproductibilidad.
  • Contención de conflictos de sponsors y autores.
  • Métodos estadísticos más apropiados.
  • Estandarización de las definiciones y análisis.
  • Umbrales más estrictos para afirmar que se tienen descubrimientos o ''éxitos''.
  • Mejorar los estándares de diseño de los estudios.
  • Mejoras en el sistema de revisión por pares y de diseminación de la investigación.
  • Mejor entrenamiento de la fuerza de trabajo científica en metodología y en alfabetización estadística.

La adopción de investigaciones colaborativas a gran escala con una fuerte cultura de la replicación [16] ha sido exitosa en muchos campos biomédicos, en particular en genética y epidemiología molecular. Estas técnicas han ayudado a transformar a la epidemiología genética desde un campo espurio [17] a uno creíble [18]. Estas prácticas pueden ser aplicadas a otros campos de la investigación observacional y más allá [19].

La replicación tiene diferentes connotaciones en los distintos diseños. Para los laboratorios básicos y la investigación preclínica, la replicación debe ser viable por defecto pero, incluso en esos casos, debe haber un entendimiento a priori de las características esenciales de un estudio que se necesitan paraque sea replicado y cuánta heterogeneidad es aceptable [20].

Para alguna investigación clínica, la replicación es difícil, especialmente para las que son muy grandes, a largo plazo o para los estudios caros. La perspectiva de la replicación debe ser considerada e incorporada en el diseño de la agenda de investigación en un campo determinado [12]. De lo contrario, algunas cuestiones no se abordan en absoluto o son abordadas por estudios individuales que no se replican, mientras que otros son sometidos a múltiples repeticiones innecesarias o incluso a meta-análisis redundantes que los combinan. [21]

El registro de los estudios randomizados [22] (y más recientemente el registro de sus resultados [23]) ha mejorado la transparencia de la investigación en los ensayos clínicos y ha permitido probar los sesgos en los reportes selectivos. [24], [25] Incluso si no los han remediado por completo muestran la redundancia y permiten una mejor visualización de la evolución del cuerpo completo de la investigación en un campo dado. El registro está actualmente propuesto para muchos otros tipos de investigación incluidos los estudios observacionales en humanos [26] y en no humanos. [27]

Compartir datos, materiales y software ha sido promovido en muchos campos “ómicos” creando un sustrato para las prácticas de reproductibilidad [28][31].  Hacerlo también en los ensayos clínicos podría, del mismo modo, promover la credibilidad de la investigación clínica [32]. Han sido debatidas algunas desventajas, como la posibilidad de que múltiples analistas realicen análisis contradictorios, dificultades con las des-identificación de los participantes, y posibilidad de que las partes introduzcan incertezas en los resultados que afecten intereses como en el caso de las emisiones diésel y el riesgo de cáncer [33].

Se ha propuesto la disociación de ciertos tipos de investigación de conflictos específicos de sus sponsors o autores (no sin debate) para diseños diversos y análisis costo efectivos [34], metanálisis [35], [36], y guiás de práctica clínica [37]. Para todos estos tipos de investigación, la participación de los sponsors se ha visto que promueve resultados más favorables.

"Mejorar los estándares de diseño de los estudios mejora la fiabilidad de sus resultados"

La adopción de métodos estadísiticos más favorables [38], definiciones estandarizadas, análisis y definiciones más restringidas de qué es un “descubrimiento” y qué es un “éxito” [39] pueden disminuir la cantidad de resultados falsos positivos en campos que han sido hasta ahora demasiado indulgentes (como la epidemiología [40], psicología[41],[42], o economía [43]). Esto les permitiría ganar una credibilidad más parecida a la de los campos que tradicionalmente han sido más rigurosos en este sentido, como las ciencias físicas [44].

Mejorar los estándares de diseño de los estudios mejora la fiabilidad de sus resultados [45]. Por ejemplo, para estudios de intervención con animales, esto puede incluir la randomización y el cegamiento de los investigadores [27]. Hay un interés creciente en en proponer listas de cotejo (checklists)  para que un estudio sea aprobado [46], [47], lo que es vital para su utilidad es asegurar que tanto los elementos de la lista sean esenciales y que las declaraciones de adhesión a los mismos sean verificables.

La presentación de informes, revisión, publicación, difusión y revisión posterior a la publicación de la investigación permite dar forma a su fiabilidad. Actualmente hay varios esfuerzos para mejorar y estandarizar la presentación de estos  informes (por ejemplo, como el catalogado por la Iniciativa Ecuatorial [48]) y múltiples ideas sobre cómo cambiar la revisión por pares (por quién, cómo y cuándo) y la difusión de la información [25], [49] - [51].

Por último, la formación adecuada y la educación continua de los científicos en los métodos de investigación y en la cultura estadística también son muy importantes [47].


Las partes interesadas

"Los científicos pueden continuar publicando y obteniendo subvenciones sin hacer un progreso real, si hay más publicaciones y más becas, eso es todo lo que importa"

A medida que diseñamos, probamos e implementamos intervenciones en las prácticas de investigación, tenemos que entender quién se ve afectado por la investigación [5], [52], [53]. Los científicos son sólo un grupo en una red más grande en el que las diferentes partes interesadas tienen diferentes expectativas. Las partes interesadas pueden querer la investigación por ser publicable, financiable, traducible o rentable. Sus expectativas no están necesariamente alineadas unas con otras. Los científicos pueden continuar publicando y obteniendo subvenciones que consiguen sin hacer un progreso real, si hay más publicaciones y más becas, eso es todo lo que importa.

Si la ciencia es apoyada principalmente por inversores privados que desean patentes y beneficio, esto puede conducir no solo a descubrimientos que funcionen (o parecen funcionar), sino también a las barreras contra la transparencia y el intercambio de información expedita. La influencia empresarial puede subvertir la ciencia a los efectos de la publicidad, con artículos en revistas influyentes, reuniones de sociedades de prestigio, y a un sistema de líderes de opinión que se convierten en ramas de su departamento de marketing [11], [54].

"Pronto habrá más papers en inglés en China que en Europa y los EE.UU."

La geografía de la producción científica cambia rápidamente; por ejemplo, pronto habrá más papers en inglés en China que en Europa y los EE.UU. [55]. Los esfuerzos de investigación están integrados en las sociedades más amplias que han proporcionado las innovaciones científicas que son diferentes según el período de tiempo y la ubicación.

¿Qué puede hacerse para mejorar la capacidad de la ciencia para prosperar y para evaluar y promover esta capacidad a través de culturas que pueden variar en las actitudes hacia el escepticismo, curiosidad, y el razonamiento contrario?

Diferentes grupos de interés tienen sus propias preferencias acerca de cuándo deber promoverse o rechazarse la reproducibilidad. Equipos de la industria farmacéutica han defendido la reproducibilidad en la investigación pre-clínica [56], [57] ya que la localización exacta de las dianas farmacológicas útiles depende de las investigaciones académicas preclínicas. Por el contrario, la industria está a la defensiva sobre el intercambio de datos de los ensayos clínicos [30], que se produce en un momento en el desarrollo de los productos, cuando el re-análisis puede, correcta o incorrectamente, [58] invalidar las drogas en las que ya se ha invertido mucho.

La dinámica entre las diferentes partes interesadas es compleja. Por otra parte, a veces la misma persona puede tener muchos roles de las partes interesadas; por ejemplo, un investigador académico puede ser también editor de la revista, propietario de la empresa, miembro de una sociedad profesional, asesor del gobierno, y / o beneficiario de la industria.


“Monedas” de intercambio en investigación

Las publicaciones y subvenciones son "monedas" clave en la ciencia. Ellas compran los "bienes" académicas tales como la promoción y otros poderes. Los títulos académicos y el poder añaden más a la "riqueza" de su poseedor. El tipo de cambio exacto de las “monedas” y el precio de los productos académicos [59] pueden variar a través de los microambientes institucionales, disciplinas y circunstancias científicas, y también se ven afectados por la equidad de cada microambiente o por la injusticia (por ejemplo, el nepotismo, el clientelismo o la corrupción).

El poder administrativo, la creación de redes y de grupos de presión dentro de las universidades, sociedades profesionales y academias distorsionan aún más el panorama. Este status quo puede seleccionar fácilmente a aquellos que sobresalen al jugar con el sistema, produciendo prolíficamente investigación mediocre y/o irreproducible; teniendo el control de la revisión por pares en revistas y secciones de estudio; disfrutando de una estéril burocracia, de grupos de presión, y de maniobras y de la promoción de los que piensan y actúan de la misma manera.

También hay oportunidades de comprender la importancia de las “monedas” de intercambio principales. Por ejemplo, el registro de ensayos clínicos funcionó porque todas las grandes revistas lo adoptaron como requisito previo para su publicación [60], una de las principales divisas de referencia en la cadena de recompensa. Por el contrario, interesantes esfuerzos de revisión posterior a la publicación, como PubMed Commons [61] hasta ahora no han cumplido con su potencial como vehículos progresistas para la evaluación de la investigación, probablemente debido a que actualmente no existe una recompensa por tal revisión por pares después de su publicación.


Modificar el sistema de recompensas

"El sistema actual no premia la replicación a menudo incluso la penaliza"

El sistema de recompensas puede ser modificado de manera sistemática [62]. La modificación de las intervenciones puede ocurrir en cualquier parte, desde puesta a punto hasta las más disruptivas. 

El sistema actual valora publicaciones, becas, títulos académicos, y el poder acumulado previamente. Los investigadores en los rangos más altos tienen más papers y más becas. Sin embargo, los estudiosos en la parte superior de la escala (por ejemplo, los presidentes de las universidades) tienen registros de publicación y citación modestos, mediocres o débiles [63].

Esto podría ser debido a que su destreza para el lobby compensa su falta de tales credenciales, y su éxito se logra a costa de otros candidatos más dignos que traerían más rigor intelectual y el valor para la toma de decisiones de alto nivel; igualmente, podría ser debido a que tienen éxito en el trabajo burocrático necesario para mantener la máquinaria académica y que sus colegas más científicamente dotados se concentran en la investigación.

El sistema actual no premia la replicación -a menudo incluso penaliza a las personas que quieren replicar rigurosamente un trabajo previo, y empuja a los investigadores a afirmar que su trabajo es muy novedoso y significativo [64].

Compartir (datos, protocolos, códigos de análisis, etc.) no está incentivado o solicitado, con algunas notables excepciones [65] - [67]. Con la falta de recursos de apoyo y con la competencia ("los competidores roban mis datos, mis ideas, y, finalmente, mis fondos"), el intercambio está desincentivado.

Otros aspectos de la ciudadanía científica, tales como la revisión por pares de alta calidad, no se valoran. La revisión por pares puede ser un proceso beneficioso, que actúa como una red de seguridad y un mecanismo para aumentar la calidad. También puede ser superficial, conducir a sólo modestas mejoras de la obra reseñada, y permitir la aceptación de trabajos abiertamente erróneos [68], [69]. Eso es tan poco valorado y recompensado que no está calculado para alentar sus beneficios y minimizar sus daños.

Los valores de las “monedas” de intercambio variarán entre microambientes y campos específicos y situaciones. Un valor de la moneda putativo de 1 para una unidad de publicación (por ejemplo, ser primer o mayor-autor de un artículo en una revista muy respetable en el campo), 5 para una subvención de un investigador considerable (por ejemplo, un R01 en los EE.UU.), y 2 para un becario posdoctoral, significa que un científico encontraría un valor equivalente tanto en la publicación de cinco artículos como primer o último autor como en conseguir un R01 como investigador principal, o en la publicación de dos de estos documentos o en la obtención de un becario posdoctoral para trabajar por ella.

Por otra parte, lo que constituye una unidad de publicación varía también según los campos: en los campos en que las personas publican con moderación, un solo artículo puede ser suficiente para definir una unidad de publicación, mientras que en los campos en los que es típico de la gente poner sus nombres en cientos de papers, a menudo con extrema multi-autoría, pueden ser necesarios diez de tales documentos para una unidad de comunicación equivalente.

Las tendencias inflacionarias y redundantes como las llamadas publicaciones “salami” [70] y la injustificada multi-autoría han hecho a la moneda de la publicación perder su valor relativo en el tiempo en muchas disciplinas. Realizar ajustes por multi-autoría son fácilmente factibles [71], [72]. El conocimiento de las contribuciones individuales de cada documento permitiría incluso una mejor asignación del crédito [73].

"Se da valor a las publicaciones que llevan a cosas que funcionan"

En el primer ejemplo de una propuesta de modificación del sistema de recompensa, el poder adquisitivo de las publicaciones principalmente está diferenciado en función de su estado de replicación y traducción.

El valor se da a las ideas y a los resultados que se replican y que son reproducibles [74] en lugar de a la publicación per se. Además se da valor a las publicaciones que llevan a cosas que funcionan, al igual que los tratamientos eficaces, pruebas diagnósticas, o herramientas de pronóstico que demostrablemente mejoran los resultados importantes en los ensayos clínicos.

Un valor adicional se obtiene para el intercambio y la participación significativa en la revisión por pares y en las actividades educativas de probada eficacia. Un revisor o un editor de vez en cuando pueden aportar el mismo valor que un autor.

El segundo ejemplo de una propuesta de modificación lleva incluso mayores cambios en el sistema de recompensas. Además de los cambios adoptados en el primer ejemplo, la obtención de subvenciones, premios, u otros poderes se consideran negativamente a menos que alguno de ellos ofrezca más ciencia de buena calidad en proporción a la inversión.

Los recursos y el poder son vistos como oportunidades, y los investigadores tienen que coincidir con su producción respecto de las oportunidades que se les han ofrecido -más oportunidades (input), más se espera como resultado de salida (output) (estudios replicados y, con suerte, incluso traducidos).

"Las jerarquías académicas no tendrían ningún valor en este modelo e incluso podrían ser eliminadas"

Las jerarquías académicas no tienen ningún valor en este modelo e incluso pueden ser eliminadas: los investigadores sólo tienen que mantener un equilibrio no negativo de salida (output) en función de las oportunidades recibidas (input). En este escenario deliberadamente provocativo, los investigadores estarían poco dispuestos a obtener subvenciones o a ser poderosos (en el sentido actual), porque esto sería visto como una carga. Los efectos secundarios potenciales podrían ser desalentar las solicitudes de subvenciones ambiciosas y el liderazgo.

Tales compensaciones aclaran que cuando se trata de modificar la estructura de las carreras científicas, como cuando se trata de modificar la fisiopatología en un intento de luchar contra la enfermedad, las intervenciones pueden hacer daño, así como producir beneficios. Dada la complejidad de la situación, las intervenciones deben tener sus impactos reales evaluados de manera justa y fiable.


Hacia el futuro

La medida en que la eficiencia actual de las prácticas de investigación se puede mejorar es desconocida. Dadas las enormes ineficiencias existentes, sin embargo, las mejoras sustanciales son casi ciertamente factibles. Se debe considerar la puesta a punto de las políticas existentes y de las intervenciones más perturbadoras y radicales, pero ni la presencia ni la ausencia de una intención revolucionaria deben tomarse como un sustituto confiable para el impacto real. Hay muchos escenarios diferentes para la evolución de la investigación biomédica y la investigación científica en general, cada uno más o menos compatible con la búsqueda de la veracidad y el bienestar humano.

Las intervenciones para modificar el actual sistema no deben ser aceptadas sin un control adecuado, aun cuando sean razonables y bien intencionadas. Idealmente, deben ser evaluadas experimentalmente. Los logros de la ciencia son increíbles, sin embargo, la mayoría de los esfuerzos de investigación se desperdician actualmente. Las intervenciones para hacer ciencia con menos desperdicio de recursos y más eficaz podría ser muy beneficiosa para nuestra salud, nuestro consuelo y nuestra comprensión de la verdad y podrían ayudar a la investigación científica a alcanzar con más éxito sus nobles objetivos.