Comparación de inteligencia artificial humana versus inteligencia artificial alimentada por teléfonos móviles para el diagnóstico y tratamiento del cáncer de piel pigmentado en atención secundaria: un ensayo clínico multicéntrico, prospectivo y de diagnóstico
Antecedentes
El diagnóstico del cáncer de piel requiere experiencia médica, que es escasa. La inteligencia artificial (IA) impulsada por teléfonos móviles podría ayudar en el diagnóstico, pero no está claro cómo funciona esta tecnología en un escenario clínico.
Nuestro objetivo principal era probar en la clínica si existía equivalencia entre los algoritmos de inteligencia artificial (IA) y los médicos para el diagnóstico y tratamiento de las lesiones cutáneas pigmentadas.
Métodos
En este ensayo clínico multicéntrico, prospectivo y de diagnóstico, incluimos médicos especialistas y novatos y pacientes de dos centros de referencia terciarios en Australia y Austria. Los especialistas tenían una calificación médica especializada relacionada con el diagnóstico y el tratamiento de lesiones cutáneas pigmentadas, mientras que los novatos eran médicos junior en dermatología o registradores en puestos de formación que tenían experiencia en el examen y el tratamiento de estas lesiones.
Los pacientes elegibles tenían entre 18 y 99 años y tenían un tipo de piel Fitzpatrick I-III modificado; aquellos en el ensayo de diagnóstico se sometieron a una escisión o biopsia de rutina de una o más lesiones cutáneas pigmentadas sospechosas de más de 3 mm en el diámetro más largo, y a aquellos en el ensayo de tratamiento se les tomaron fotografías basales de todo el cuerpo dentro de 1 a 4 años.
Utilizamos dos instrumentos de inteligencia artificial (IA) alimentados por teléfonos móviles que incorporan un accesorio óptico simple: un nuevo algoritmo de IA de 7 clases y el algoritmo de IA de la International Skin Imaging Collaboration (ISIC), que se probó previamente en un gran estudio de lectores en línea.
El estándar de referencia para las lesiones extirpadas en el ensayo diagnóstico fue el examen histopatológico; en el ensayo de gestión, el estándar de referencia fue una jerarquía descendente basada en el examen histopatológico, la comparación de fotografías basales de todo el cuerpo, la monitorización digital y el telediagnóstico.
El principal resultado de este estudio fue comparar la precisión de las decisiones de gestión y diagnóstico de expertos y novatos con los dos instrumentos de IA. Las posibles decisiones en el ensayo de gestión fueron el alta, la biopsia o el seguimiento durante 3 meses. Las decisiones de seguimiento se consideraron equivalentes al alta (escenario A) o a la biopsia de lesiones malignas (escenario B).
Resultados
El estudio diagnóstico incluyó 172 lesiones pigmentadas sospechosas (84 malignas) de 124 pacientes y el estudio de manejo incluyó 5696 lesiones pigmentadas (18 malignas) de todo el cuerpo de 66 pacientes de alto riesgo.
Los diagnósticos del algoritmo de inteligencia artificial (IA) de 7 clases fueron equivalentes a los diagnósticos de los especialistas (diferencia de precisión absoluta 1,2% [IC del 95% –6,9 a 9,2]) y significativamente superiores a los de los novatos (21,5 % [13,1 a 30,0]).
Los diagnósticos del algoritmo ISIC AI fueron significativamente inferiores a los diagnósticos de los especialistas (–11,6% [–20,3 a –3,0]) pero significativamente superiores a los de los novatos (8,7% [–0· 5 a 18·0]).
La mejor IA de gestión de 7 clases fue significativamente inferior a la gestión de especialistas (diferencia de precisión absoluta en la decisión de gestión correcta –0,5% [IC del 95% –0,7 a –0,2] en el escenario A y –0,4% [–0,8 a –0,05] en el escenario B).
Figura: Objetivo del ensayo de diagnóstico primario. Los diagnósticos incorrectos y correctos se calificaron sobre la base de los siete posibles diagnósticos verdaderos. Las barras de error muestran IC del 95 %. Los diagnósticos de la IA de clase 7 y los de los especialistas fueron equivalentes; los diagnósticos de la CIIU AI fueron significativamente inferiores a los de los especialistas; y los diagnósticos de la IA de clase 7 y de la IA CIIU fueron significativamente superiores a los de los novatos. δ=límite de equivalencia clínicamente significativo. IA=inteligencia artificial. ISIC=Colaboración internacional en imágenes de la piel.
Interpretación
La tecnología de inteligencia artificial impulsada por teléfonos móviles es simple, práctica y precisa para el diagnóstico de cáncer de piel pigmentado sospechoso en pacientes que acuden a un entorno especializado, aunque su uso para decisiones de manejo requiere una ejecución más cuidadosa.
Un algoritmo de inteligencia artificial (IA) que fue superior en estudios experimentales fue significativamente inferior al de los especialistas en un escenario del mundo real, lo que sugiere que se necesita precaución al extrapolar los resultados de los estudios experimentales a la práctica clínica.
Investigación en contexto
Evidencia antes de este estudio
Antes de enviar nuestro protocolo de ensayo el 3 de junio de 2019, buscamos en las bases de datos Cochrane y PubMed artículos publicados desde el inicio de la base de datos, utilizando los términos "inteligencia artificial", "aprendizaje automático" y "aprendizaje profundo" en combinación con "cáncer de piel" o “melanoma”, o ambos, con y sin restricción para ensayos clínicos. También se buscaron las referencias de artículos relevantes. Se excluyeron los estudios no relacionados con el diagnóstico, sin comparación con humanos o que utilizaran tecnología no basada en imágenes. Solo leímos artículos en inglés (incluidos aquellos que estaban restringidos a un resumen). La mayoría de los estudios retrospectivos sobre el diagnóstico del cáncer de piel mostraron una clara superioridad de la inteligencia artificial (IA) en comparación con los humanos. Sin embargo, esta superioridad no se encontró en el contexto del examen humano cara a cara, lo cual era potencialmente una fuente de sesgo sustancial. Además, era evidente la escasez de ensayos clínicos prospectivos. Por lo tanto, realizamos un ensayo clínico de diagnóstico prospectivo, utilizando IA alimentada por teléfonos móviles, que fue diseñado como un seguimiento del mayor estudio experimental de lectores de IA para el diagnóstico de cáncer de piel.
Valor añadido de este estudio
Hasta donde sabemos, este ensayo es el primer estudio prospectivo en un entorno clínico realista y presencial para investigar el potencial del diagnóstico de imágenes de cáncer de piel basado en inteligencia artificial (IA) en comparación con humanos para todas las clases clínicamente relevantes de lesiones pigmentadas. Los resultados se obtuvieron con tecnología de telefonía móvil sencilla. Aunque la nueva IA desarrollada a partir de un conjunto de datos más grande era equivalente a la de los expertos y superior a la de los novatos para el diagnóstico del cáncer de piel pigmentado, se descubrió que la IA descrita anteriormente que era superior a los expertos en el gran estudio experimental era significativamente inferior a los expertos en nuestro estudio clínico. Esta falta de reproducibilidad subraya la precaución que se requiere al extrapolar el diagnóstico de cáncer de piel impulsado por IA en humanos desde condiciones experimentales a reales. Además,
Implicaciones de toda la evidencia disponible
La inteligencia artificial (IA) impulsada por teléfonos móviles tiene el claro potencial de ser una intervención sencilla, económica y precisa para el diagnóstico del cáncer de piel pigmentado. En el marco de la política regulatoria, se recomienda precaución al extrapolar lo experimental a entornos clínicos reales. Se requiere más investigación sobre el desarrollo de la IA de gestión.
Discusión
La nueva IA impulsada por un teléfono móvil de 7 clases, desarrollada específicamente para nuestro ensayo clínico, utilizando un simple accesorio de teléfono para dermatoscopía que había formado la base de una gran base de datos de imágenes capturada de manera similar para el desarrollo de su algoritmo, era equivalente a los especialistas y significativamente superior a los principiantes para el diagnóstico de todas las lesiones pigmentadas.
Este ensayo es el primer estudio prospectivo que respalda el potencial del diagnóstico de cáncer de piel basado en IA a partir de imágenes dermatoscópicas en comparación con los médicos en un entorno clínico para todas las clases de lesiones pigmentadas clínicamente relevantes. La importancia del estudio se destaca porque los resultados se obtuvieron sobre la base de una tecnología de telefonía móvil simple sin hardware costoso, a diferencia de los dispositivos anteriores, más caros e independientes, que se sometieron a grandes estudios fundamentales.
A diferencia de la IA de 7 clases, el algoritmo de IA ISIC descrito anteriormente, que fue superior a los expertos en un estudio de lectores en línea,7 fue significativamente inferior a los especialistas (diferencia de precisión absoluta –11,6%), aunque siguió siendo superior al novatos para el diagnóstico (8,7%). Al comparar la precisión multiclase equilibrada, que fue el criterio de valoración principal de los estudios en línea, no se encontró ninguna tendencia cambiante en este resultado. Una posible explicación para la diferencia en el rendimiento de la IA de clase 7 y la IA de la CIIU es que la IA de clase 7 se entrenó en una base de datos más grande de imágenes con diversas fuentes.
Mensaje final: Un algoritmo Inteligencia Artificial para cáncer de pielque fue superior en estudios experimentales fue significativamente inferior a los especialistas en un escenario del mundo real |
El ensayo se registró en el Registro de ensayos clínicos de Australia y Nueva Zelanda ACTRN12620000695909 (número de ensayo universal U1111–1251–8995).
Fondos: Tecnología MetaOptima