Implicaciones para la precisión

Potencial de GPT-4 para detectar errores en informes de radiología

Igualó el desempeño de los radiólogos en la detección de errores

Autor/a: Roman Johannes Gertz, Thomas Dratsch, Alexander Christian Bunck, Simon Lennartz, et al.

Fuente: Radiology https://doi.org/10.1148/radiol.232714 Potential of GPT-4 for Detecting Errors in Radiology Reports: Implications for Reporting Accuracy

Aspectos destacados

GPT-4 (ChatGPT; OpenAI) igualó el desempeño de los radiólogos en la detección de errores en los informes de radiología y tiene el potencial de reducir el tiempo y el costo de procesamiento.

Resultados clave

■ De 200 informes de radiología (radiografía e imágenes transversales), GPT-4 (ChatGPT; OpenAI) igualó el rendimiento promedio de detección de errores de seis radiólogos (GPT-4, radiólogos senior, médicos tratantes y residentes: 82,7 % [124 de 150; IC del 95%: 75,8, 87,9], 89,3% [134 de 150; IC del 95%: 83,4, 93,3], y 80,0% [120 de 150; ; IC del 95%: 72,9, 85,6], respectivamente; rango de valor de p , 0,522–0,99).

■ GPT-4 requirió menos tiempo medio de lectura por informe que el lector humano más rápido del estudio (3,5 segundos ± 0,5 [DE] frente a 25,1 segundos ± 20,1, respectivamente; P < 0,001; Cohen d = −1,08).

■ GPT-4 dio como resultado un costo medio de corrección por informe más bajo que el radiólogo más rentable ($0,03 ± 0,01 frente a $0,42 ± 0,41, respectivamente; P < 0,001; Cohen d = −1,12).

 


Introducción

Para que los informes de radiología sean eficaces, los radiólogos deben garantizar la precisión y la coherencia, especialmente entre las secciones de hallazgos e impresiones. Los residentes suelen redactar los informes radiológicos preliminares y, posteriormente, radiólogos certificados los revisan y aprueban. Este proceso legalmente necesario aumenta la precisión, pero requiere mucho tiempo y recursos. Además, las crecientes cargas de trabajo de los radiólogos, los entornos clínicos de alta presión y el reconocimiento de voz poco confiable significan que los informes de radiología son propensos a errores.

Un análisis reciente de los informes preliminares de los residentes mostró que los errores de notificación más comunes son las confusiones del discriminador de lateralidad (izquierda, derecha) y el registro erróneo de descriptores inadvertidos mediante el reconocimiento de voz (uno, ninguno). Estos dos errores, si no se corrigen, pueden tener graves repercusiones. Las herramientas de revisión más allá del corrector ortográfico básico no están disponibles de forma rutinaria para verificar estos errores.

GPT-4 (ChatGPT; OpenAI), un modelo de lenguaje grande autorregresivo, puede ofrecer soluciones potenciales a estos desafíos. Estudios recientes han demostrado aplicaciones potenciales de GPT-4 en la atención al paciente. Por ejemplo, transformar informes de radiología de texto libre en formatos estructurados, generar automáticamente la sección de impresión y generar informes de radiología competentes (por ejemplo, para fracturas de radio distal) subrayan su utilidad en la estandarización de informes. También se ha investigado el papel de GPT-4 en la educación y la expansión del conocimiento dentro del campo de la radiología.

El uso de GPT-4 para corregir informes de radiología podría aliviar la carga de trabajo de los radiólogos supervisores y ser un recurso educativo para los residentes porque podría corregir informes de radiología y señalar errores. Esto sería particularmente beneficioso si los residentes no tienen acceso a herramientas que realicen un seguimiento de las modificaciones del informe realizadas por los radiólogos supervisores. Por lo tanto, este estudio tuvo como objetivo evaluar el desempeño de GPT-4 en la detección de los errores y discrepancias más comunes en los informes de radiología y estimar su potencial para reducir tiempo y costos.

Antecedentes

Pueden ocurrir errores en los informes de radiología debido a discrepancias entre el residente y el asistente, imprecisiones en el reconocimiento del habla y una gran carga de trabajo. Los modelos de lenguaje grandes, como GPT-4 (ChatGPT; OpenAI), pueden ayudar a generar informes.

Objetivo

Evaluar la eficacia de GPT-4 para identificar errores comunes en los informes de radiología, centrándose en el rendimiento, el tiempo y la rentabilidad.

Materiales y métodos

En este estudio retrospectivo, se compilaron 200 informes de radiología (radiografía e imágenes transversales [CT y MRI]) entre junio de 2023 y diciembre de 2023 en una institución.

Hubo 150 errores de cinco categorías de errores comunes (omisión, inserción, ortografía, confusión lateral y otros) insertados intencionalmente en 100 de los informes y utilizados como estándar de referencia. Se encomendó a seis radiólogos (dos radiólogos experimentados, dos médicos tratantes y dos residentes) y al GPT-4 la tarea de detectar estos errores. El rendimiento general de detección de errores, la detección de errores en las cinco categorías de errores y el tiempo de lectura se evaluaron mediante pruebas de Wald χ 2 y pruebas t de muestras pareadas.

Resultados

GPT-4 (tasa de detección, 82,7 %; 124 de 150; IC del 95 %: 75,8, 87,9) igualó el rendimiento de detección promedio de los radiólogos independientemente de su experiencia (radiólogos experimentados, 89,3 % [134 de 150; IC del 95 %: 83,4, 93,3]; médicos tratantes, 80,0% [120 de 150; IC 95 %: 72,9, 85,6]; residentes , 80,0% [120 de 150; IC 95%: 72,9, 85,6];  un radiólogo experimentado superó a GPT-4 (tasa de detección, 94,7 %; 142 de 150; IC del 95 %: 89,8, 97,3; P = 0,006). GPT-4 requirió menos tiempo de procesamiento por informe de radiología que el lector humano más rápido del estudio (tiempo de lectura promedio, 3,5 segundos ± 0,5 [DE] frente a 25,1 segundos ± 20,1, respectivamente; P < 0,001; Cohen d = −1,08).

El uso de GPT-4 dio como resultado un costo medio de corrección por informe más bajo que el radiólogo más rentable ($0,03 ± 0,01 frente a $0,42 ± 0,41; P < 0,001; Cohen d = −1,12).

Conclusión

La tasa de detección de errores en los informes de radiología de GPT-4 fue comparable a la de los radiólogos, lo que potencialmente redujo las horas de trabajo y los costos.


Discusión

En conclusión, GPT-4 demostró una tasa de detección de errores en los informes de radiología comparable a la de los radiólogos, lo que podría ahorrar horas de trabajo y reducir costos. Sin embargo, las consideraciones legales y de privacidad y la brecha de rendimiento restante en comparación con los informes radiológicos teóricamente impecables enfatizan la necesidad continua de supervisión humana en el proceso de generación de informes.

Para implementar un modelo de lenguaje amplio en el sistema de información del hospital local, se debe garantizar la privacidad de los datos. Una solución prometedora es una versión fuera de línea o basada en un servidor privado local de un modelo de lenguaje grande, potencialmente equipado con una interfaz de programación de aplicaciones correspondiente. Un sistema de este tipo puede ser un activo educativo, ya que sirve como tutor interactivo para los residentes, destaca los errores comunes y proporciona información que fomenta un entorno de aprendizaje sólido, lo que permite el análisis y la corrección en tiempo real de los informes de radiología y la retroalimentación inmediata sobre los errores