Una reflexión del Dr. Arturo Cagide

El clínico y la Inteligencia Artificial

Una nueva era de procesamiento de datos y de ayudas para la clínica que requiere una integración armoniosa

Autor/a: Dr Arturo Cagide. Hospital Italiano Bs As

Indice
1. Página 1
2. Referencias bibliográficas

No infrecuentemente los médicos desafían a la inteligencia artificial (IA) con preguntas que abordan la temática de toma de decisiones bajo condiciones de complejidad clínica variada. La situación se aproxima a un juego de entretenimiento.

Pero en un recorrido inverso son los médicos quienes resultan interpelados por la IA mediante comunicaciones bibliográficas cada vez más frecuentes sobre el posible aporte de esta técnica en la práctica clínica cotidiana.

La respuesta del profesional a este desafío se puede encuadrar en diferentes escenarios.

Rechazo. El criterio se fundamenta en que la información (bibliográfica, de congresos, mesas redonda y debates) junto con la experiencia clínica del profesional, no podrá ser superada por la IA. Este razonamiento es infundado por la fenomenal capacidad de análisis de la IA, toda vez que ésta es convenientemente alimentada con múltiples datos fidedignos.

En una comunicación reciente, los médicos generalistas se vieron más dispuestos a aceptar la IA en el diagnóstico por imágenes que los especialistas en esas prácticas.

De mayor contundencia es el argumento sustentado en que la relación médico paciente es imposible de superar al percibir la problemática real más o menos explicitada por quien concurre a la consulta; se afirma que el contacto directo es y será insuperable. Este punto se puede rebatir concluyendo que la IA no pretende reemplazar al profesional, solo asistirlo.

Futuro alejado. En este terreno se señala que la IA es un proyecto y no una realidad más o menos inmediata; pasarán mucho años antes de que irrumpa en la práctica.

Sin embargo, cada vez con mayor frecuencia la IA es motivo de comunicaciones bibliográficas con temas de interés para el especialista y subespecialista. El crecimiento ocurrirá en términos exponenciales y seguramente los médicos en formación (residentes) y los profesionales ya formados, deberán lidiar con la IA en un futuro próximo. Con esta perspectiva es conveniente incursionar en su problemática progresivamente.

Complejidad mayor. Esta aseveración puede ser cierta, pero depende de la perspectiva personal. Ecuaciones, algoritmos, hiperparámetros y los procesos íntimos que gobiernan la IA son patrimonio exclusivo de matemáticos, expertos en computación y en procesos. Pero otros aspectos como falsos positivos y negativos, sensibilidad y especificidad, discriminación, reclasificación, etc., habituales en las discusiones médicas afectan por igual a la IA.

La Fig. 1 grafica en una escala de riesgo la distribución de individuos con y sin eventos. En A la discriminación del criterio, en este caso un score, es muy elevada y un determinado valor separa unos de otros en forma clara (alta sensibilidad con alta especificidad); en B los individuos con y sin eventos tienen una amplia superposición de los valores en el rango medio del score. En el primer caso la curva ROC tendrá un valor elevado; en B el área será reducida debiéndose optar por preservar la sensibilidad (no falos negativos) o la especificidad (no falsos positivos).         


Fig. 1: Ejemplo teórico.
En A, el criterio, en este caso por ejemplo un score de riesgo, discrimina los episodios de los no episodios, con perfecta sensibilidad y especificidad; en B en el rango intermedio hay superposición entre unos y otros, debiéndose optar por preservar la sensibilidad o la especificidad. La IA puede mejorar la capacidad de discriminación pero seguramente no será con la precisión de la situación graficada en A.

Se podría concluir que la IA con sus precisas ecuaciones matemáticas no se ve afectada por esta problemática y su capacidad de discriminación será la graficada en A. Sin embargo la IA sí queda comprometida por estas limitaciones aun cuando el objetivo del estudio sea el análisis de imágenes como eco-doppler o resonancia magnética nuclear en las cuales su capacidad de análisis es insuperable.

De esta forma, pese a que por sus características particulares y por la complejidad que implica el conocimiento íntimo de su funcionamiento, concluir que la IA está muy alejada de los intereses actuales del profesional médico es una conclusión al menos apresurada.


Inteligencia Artificial e Investigación Clínica

La IA en la investigación clínica como paso inicial para su ulterior posicionamiento en la toma de decisiones médicas queda sujeta a los lineamientos generales establecidos firmemente desde tiempo atrás.

Población

Se refiere al conjunto de individuos que constituye la muestra de la población objetivo. Tendrá características propias (edad, condiciones socioculturales, etnia, ingresos etc) que condicionan que los hallazgos resultantes de su análisis estadístico puedan o no generalizarse a otros conjuntos.

El Dato

Es el valor que representa a una determinada variable. Cualidades como su certeza, consistencia, rigurosidad, sistematización en su obtención, etc. son cualidades que definen su validez en una determinada formulación estadística.

Las cualidades de la población y del dato son condiciones que condicionan la validez de la conclusión resultante de un análisis estadístico. Resultan comunes a la estadística convencional y a la inteligencia artificial (IA).

Machine Learning

Machine Learning, (ML) una de las formas de IA, es el procesamiento de la información (relación matemática, algoritmos) mediante la cual se trata de hallar asociaciones (patrones) de datos o parámetros (datos de entrada, input) vinculados con otro/s (output) que constituyen el objeto del estudio, el cual será expresado en términos probabilísticos. Este proceso suela denominarse aprendizaje.

En el caso de deep learning como el graficado en la Fig 2 (modificada de JAMA Cardiol. September 20, 2023) el aprendizaje consiste en generar asociaciones de datos en capas sucesivas de análisis (capas neuronales, ocultas), empleando diferentes algoritmos (algoritmos supervisados) (Random Forests, XGBoost, and Bayesian additive regression tree). Esa información es integrada en unidades o núcleos (nodos) interconectados, progresivamente menores en su número, que en forma muy simplificada se representan en la Fig. 2 como "F". En esencia son sucesivas ecuaciones matemáticas que se ajustan progresivamente.

Aunque el desarrollo es automático, el operador puede definir ciertos parámetros de interés a priori (hiperparámetros).


Fig 2: Se grafican los pasos de una investigación clínica desde la selección de la población y los datos que representan las variables de ingreso, su proceso por IA /ML, y el resultado final expresado como probabilidad (ecuación logística); por último, la validación externa permite su generalización.

El proceso (aprendizaje) continua hasta encontrar un conjunto de asociaciones que finalmente se ponderan según su peso relativo (en la Fig.2 referidos como F x P).

Finalmente, con ellos se formula la ecuación de regresión logística (relación “S” en la figura) para estimar la probabilidad del dato de salida (output).

Ahora bien, el resultado expresado como probabilidad por sí solo no brinda el nivel de confiabilidad ya que debería incluir una medida de dispersión (intervalo de confianza). Esto implica una dificultad extra que agrega complejidad y tiempo al sistema, problemática que han abordado diferentes grupos de investigadores.

Machine Learning y Overfitting

En el proceso se pueden generar errores resultantes de ajustes inadecuados entre las variables de entrada (input) y la de salida (output). Ese error se grafica en la Fig 3


Fig 3: La correlación (input /output) expresada en el centro del gráfico es correcta; la de la derecha es precisa, pero integrando datos ("ruidos", puntos pequeños no rellenos) que constituyen un hallazgo no veraz, y, por lo tanto, no transferible a una población diferente de la población de "aprendizaje" (falla en la validación externa). En la izquierda la correlación tiene un defecto por subestimación.

La línea representa la relación matemática final que estima el output a partir de los datos de entrada. En la izquierda el ajuste es en menos (underfitting) por no representar cabalmente la relación en valores extremos. En la derecha, el ajuste es en mas (overfitting) debido probablemente a la multiplicidad de datos generados, no veraces ("ruidos"), graficados por puntos no rellenos de menor tamaño. Se trata en definitiva de un comportamiento fallido del "aprendizaje", que encuentra asociaciones altamente significativas no reproducibles al repetir el experimento en otras poblaciones (falsos positivos). En otras palabras, se entrega información precisa para los datos de entrenamiento, pero no para su empleo en otras poblaciones.

Con la intención de evitar este sobre ajuste, el propio sistema intenta corregir el error evaluando las ecuaciones halladas en subgrupos de la población original (cross validación) realizando los ajustes necesarios (graficado por flechas contrapuestas). El resultado final debería ser como el que se representa en la parte central de la Fig. 2.

Validación Externa

Para que el traslado de la investigación con IA/ML a la práctica clínica resulte confiable es fundamental su validación externa.

El resultado hallado se corresponde exclusivamente a la población (y sus datos) en los que se realizó el experimento. En otras poblaciones (generalización) puede haber condiciones particulares que la diferencian de la original, lo cual podría determinar su no aplicabilidad. Ya se consideró que la posibilidad de incurrir en falsos positivos es elevada.

El traslado del hallazgo a otra población se explora habitualmente mediante la calibración (correlación en la misma del valor predicho con el real) y por el área ROC (discriminación) comparando el set de derivación (original) con el set de validación en la nueva población. (Fig 3).


Fig 4: Ejemplo teórico.
Validación: a la izquierda correlación de los eventos predichos con los observados en una población diferente, a la que se halló el score con IA/ML; a la derecha, curvas ROC de la población original (derivación, línea continua) y de la validación (línea de puntos) en otra población En el ejemplo ambos gráficos permiten la generalización de lo hallado en IA/ML.

Si una de las cualidades excluyente de la IA es su capacidad para analizar grandes bases de datos (big data), la necesidad de validación es, en alguna medida, un factor limitante ya que también requiere grandes poblaciones para alcanzar respaldo estadístico.

De la Estadística Convencional a la Inteligencia Artificial

Tema de interés particular para el clínico, requiere analizarse desde distintas perspectivas

  • En la estadística clásica, si se permite el término, el estadístico en conjunto con el clínico, definen el objetivo primario del estudio, y a partir de allí, seleccionan las variables (variables de confusión) que podrían afectar la variable de interés, el dato con que serán representadas (punto de corte, estandarización, transformación, etc.) y su incorporación final al modelo multivariado (selección forward o backward). 

    Todos estos aspectos se determinan a priori. Estos criterios aplican también cuando el objetivo de la investigación es una imagen (ECG, eco-doppler, resonancia magnética, tomografía computada, etc.). Por el contrario, una condición excluyente de la IA/ML es, en la fase de entrenamiento, su habilidad para buscar, extraer y transformar datos en forma automática e independiente mediante algoritmos inteligentes. La información a analizar puede incorporar infinidad de parámetros y sus eventuales asociaciones. En el proceso, el juicio clínico puede ser totalmente excluido.
     
  • El análisis bayesiano, no solo desde la perspectiva estadística sino en la toma de decisiones, es fundamental. Implica analizar el valor de la nueva información (test) partiendo de la plataforma de lo ya conocido o investigado (pre test) para alcanzar el resultado (post test). Por ejemplo, en el análisis de imágenes la información aportada por la IA/ML puede ser analizada fuera de todo contexto clínico, es decir no integrándola al algoritmo de análisis original, para luego incorporarla como pre test al input o test, para obtener la probabilidad final (post test).
     
  • Causalidad, como inferencia respecto de una determinada asociación de variables, es vital en la interpretación fisiopatológica que sigue al hallazgo estadístico. La temporalidad como factor determinante de esa inferencia puede ser resuelta por la IA/ML, pero la plausibilidad biológica es una condición fundamental aportada, en principio, solo por el juicio clínico.
     
  • Gold estándar y puntos subrogantes en la interpretación de estudios diagnósticos, pronósticos o de intervención en la estadística clásica, presentan iguales dificultades y fortalezas que en la IA/ML.

Los anteriores son solo algunos puntos de encuentro y desencuentro entre estadística médica y la IA/ML.

Tal vez un editorial publicado en The New England Journal of Medicine (Mills J.L.: NEJM  1994 329: 1196) destinado a propósito de la estadística médica le encuadra perfectamente a la IA.

En el mismo se comentaba que "si usted tortura suficientemente los datos, ellos le dirán lo que lo que usted quiera oír" (“If you torture your data long enough they will tell you whatever you want to hear”).

 Luego agregaba que había dos formas de "torturar" los datos:

  1. En la primera se "torturan" hasta hallar una asociación significativa y luego se busca una hipótesis que se ajusta a esa asociación (In the first, the perpetrador simply pores over the data until a “significant” association is found between variables and then devises a biologically plausible hypothesis to fit the association).
     
  2. En la segunda se decidía a priori por una hipótesis ya probada en investigaciones previas para proceder luego a ajustar los datos a esa hipótesis (The second type is performed by deciding on the hypothesis to be proved and making the data fit the hypothesis).

El segundo caso no plantea mayores dificultades ya que confirma lo ya conocido. Por el contrario, el primero obligaba a nuevas investigaciones para aceptar o rechazar la nueva hipótesis.

Estas consideraciones, formuladas varias décadas atrás referidas a la estadística médica clásica ¿aplican a la IA/ML o es ésta una ciencia exacta que se fundamenta en sólidas formulaciones matemáticas a prueba de esos errores?

Claramente la IA/ML no es inmune a la problemática resultante de la multiplicidad de datos e infinita búsqueda de asociaciones, con el riesgo implícito de falsos positivos, todo lo cual resulta en la consecuente generación de hipótesis que indefectiblemente requerirán estudios de validación para ser efectivamente confirmadas. Se trata en definitiva de las dificultades con las que convivimos hoy en día.

Imágenes en Cardiología y IA/ML

Cualidades como matiz, saturación, luminosidad, textura, tonalidad, etc. en un plano tridimensional o cuadridimensional al incluir el factor tiempo) implican, en registros de muy alta definición, una cantidad tal de datos que representa un terreno perfecto para que la IA identifique tendencias y patrones que un profesional puede pasar de alto.

La utilidad de la IA/ML ha sido explorada en imágenes obtenida a partir de registros eléctricos (ECG y otros), eco-doppler, resonancia nuclear magnética, tomografía computada, y tomografía por emisión de positrones.

El objetivo del estudio con IA/ML puede ser estimar con mayor precisión longitudes, volúmenes y parámetros de gran relevancia clínica como el acortamiento regional y la fracción de eyección ventricular, o múltiples parámetros hemodinámicos. En la misma categoría se incluyen las alteraciones estructurales de cámaras, paredes y válvulas.

Se trata de correlacionar estas mediciones con el registro de otras técnicas, consideradas como gold estándar lo cual plantea el inconveniente de que, al ser estas últimas consideradas como tal, podrán ser igualadas pero no superadas por la IA/ML. Por ello, el objetivo / output suele derivarse a estimar la facilidad, velocidad, y necesidad de entrenamiento del personal. Un impacto más significativo es, tal vez, cuando el objetivo intente valorar las imágenes en la estimación pronóstica de la evolución clínica o el abordaje del diagnóstico diferencial de diferentes entidades y la subsecuente toma de decisiones.

Algunos de los estudios publicados indican la potencialidad de IA/ML

  • ECG:
    • estimación de la disfunción ventricular
    • miocardiopatía hipertrófica, amiloidosis, hipertensión pulmonar
       
  • Eco-doppler
    • disminución de la variabilidad inter-observador
    • registro tridimensional
    • planificación de TAVI
       
  • Tomografía computada:
    • cuantificación de score de calcio, identificación de placas con / sin calcio, flujo coronario
       
  • Resonancia nuclear magnética
    • caracterización tisular
    • estimación de fibrosis miocárdica
  • En genética su potencialidad es mayor. El valor de diferentes variantes genéticas en decisiones clínicas ha progresado notablemente, particularmente en aquellas con alta penetrancia / expresividad, pero con una prevalencia inferior al 1%. Con otras de mayor frecuencia su expresión fenotípica requiere la coexistencia de otras variantes o de ciertas condiciones ambientales, lo cual complejiza su evaluación, constituyéndose en un campo propicio para ser investigadas por la IA/ML

Inteligencia Artificial y Toma de Decisiones

Son numerosos los estudios que emplearon la IA/ML en la predicción diagnóstica y pronóstica. En definitiva, se trata scores generados desde ecuaciones multivariadas de regresión logística obtenidas en poblaciones más o menos representativas. Por lo tanto, no representan un cambio significativo del aporte de la IA/ML a la práctica clínica.

En este sentido, tal vez una ecuación que incluya un número más elevado de parámetros, entre ellos imágenes como se adelantó (aterosclerosis subclínica, score de Ca u otras) pueda tener mayor capacidad de predicción. La Fig 5 grafica un ejemplo teórico que podría demostrar mediante el NRI (Índice Neto de Reclasificación) la mejor aproximación de la IA/ML con respecto al score clínico (Pooled Cohort Risk Predicts) expresada por el porcentaje de los eventos en que se eleva el riesgo (más sensibilidad) y los no eventos en que se baja (más especificidad).  


Fig 5:
Ejemplo teórico. A la izquierda capacidad de discriminación de un score clínico de riesgo hallado por la estadística habitual, y la derecha su comparación con el hallado por IA/ML, integrado por múltiples criterios (entre ellos imágenes), mediante el índice neto de reclasificación (NRI, por sus siglas en inglés). Los episodios (puntos negros) que en el eje de las coordenadas (criterio por IA/ML) se grafican con mayor nivel de riesgo y los puntos blancos sobre el mismo eje con menor nivel, indican la superior capacidad de discriminación de la IA/ML.

Sin embargo, un cambio realmente sustancial podría ser la integración de la IA/ML en decisiones médicas cotidianas lo cual constituye un desafío de mayor complejidad. Al respecto solo puede aventurarse un análisis futurológico.

Esos estudios deberían ser diseñados por el especialista en conjunción con el clínico, pudiendo abarca múltiples escenarios. Veamos u ejemplo.

Las guías de práctica clínica, en cierta medida, son compendios de patologías, cardiovasculares por, ejemplo que reúnen información epidemiológica, de diagnóstico, pronóstico y de ensayos de intervención que, sostenidos en niveles de evidencias, son listados en grados de recomendaciones y algoritmos de decisión. Las guías son habitualmente comunicadas en congresos y mesas redondas, siendo motivo de análisis por los profesionales que no, infrecuentemente citan en ateneos médicos como respaldo de una posición determinada. Pero, por la complejidad que resulta su consulta, no forman parte de la toma de decisiones cotidianas, salvo situaciones particulares. Diferentes comunicaciones bibliográficas han señalado el no cumplimento de las guías en la práctica.

Ahora bien, ¿sería factible que la información disponible en las guías sostenida en evidencias bibliográficas y recomendaciones de expertos, se integre como input en programas de IA/ML? Tal vez pueda ocurrir en un futuro no lejano. Aventurémonos en esa posibilidad.

A partir de datos epidemiológicos, síntomas, antecedentes, signos y ciertos exámenes complementarios, definidos a priori como la "etiqueta inicial" seleccionada por el profesional, la IA/ML podría, en un proceso progresivo como el descripto en la Fig. 2, hallar ciertas asociaciones que sugieran, por ejemplo, la posibilidad de insuficiencia cardíaca y desde allí, pasando por la estratificación pronóstica, continuar hacia las intervenciones factibles, expresando además, el resultado probable de esa decisión.

En este ejemplo, nuevamente teórico, surge una problemática a contemplar, como son las realidades del medio en cuanto a recursos, equipamiento, profesionales y experiencia grupal, como así mismo, de conductas y acuerdos adoptados por el grupo no siempre explicitadas.

Estos condicionamientos imposibilitarían las generalizaciones y con ello la "importación de algoritmos foráneos" que en todo caso debieran adaptarse a las condiciones particulares del medio para su implementación.

En el futuro todo procedimiento que incluya analizar múltiples datos en forma simultánea y rápida, con la subsiguiente adopción de decisiones médicas, pueden ser sujeto de investigación por la IA/ML. Deberán ser situaciones de alta prevalencia, integración amigable con el profesional y más o menos fáciles de implementar, toda vez que se pretenda mejorar la salud del paciente individual e impactar significativamente en el sistema de salud.

Dr Arturo Cagide. Hospital Italiano Bs As