Los recién nacidos prematuros tienen un riesgo elevado de mortalidad neonatal y morbilidades que incluyen hemorragia intraventricular (HIV), leucomalacia periventricular (LPV), retinopatía del prematuro (ROP), enterocolitis necrotizante (ECN), displasia broncopulmonar (DBP), y sepsis durante la internación en la UCIN.
Morbilidades graves durante el período neonatal, comúnmente caracterizadas por HIV grado 3 o 4, LPV, ROP estadio 3 o superior, ECN estadio 3 o DBP severa (necesidad de oxígeno, o bien de ventilación con presión positiva intermitente [VPPI], ventilación de alta frecuencia [VAF], o presión positiva continua en la vía aérea [conocida como CPAP] a las 36 semanas de edad gestacional corregida), se asocian con resultados agudos y crónicos a largo plazo y alteración del neurodesarrollo que normalmente requieren rehospitalización, atención médica continua y apoyo familiar.
Las morbilidades leves incluyendo HIV grado 1 o 2, ROP estadio 1 o 2, ECN estadio 2 y DBP leve (necesidad de oxígeno a las 36 semanas sin presión positiva) no son benignas, y requieren recursos médicos adicionales y seguimiento después del alta de la UCIN, aumentando el stress familiar.
Numerosos estudios han desarrollado modelos estadísticos para predecir mortalidad o morbilidades específicas en los lactantes nacidos muy prematuros. Los investigadores han derivado también modelos estadísticos para predecir la sobrevida sin morbilidad grave al combinar a los niños que mueren con los que sobreviven con morbilidades graves.
Dado que los médicos y los padres enfrentan decisiones críticas sobre el cuidado neonatal con impacto a corto y largo plazo en la salud del lactante y las familias, es importante predecir con gran precisión la probabilidad tanto del devastador resultado de la mortalidad como del resultado deseado de sobrevida libre de morbilidades, así como la gama de posibles resultados como la sobrevida con morbilidades leves o graves.
Entre los modelos de predicción previos para mortalidad neonatal en recién nacidos prematuros, los modelos multivariables predijeron mejor la mortalidad que el peso al nacer o la edad gestacional (EG) solos. Por otra parte, los modelos de predicción que examinan un resultado combinado de mortalidad y morbilidades no tuvieron un mejor rendimiento que los modelos de predicción de mortalidad sola.
Por lo tanto, para mejorar la predicción es importante distinguir entre la mortalidad y las morbilidades y desarrollar modelos multivariables de predicción que reflejen un rango de resultados a lo largo del espectro de severidad.
El objetivo primario de este estudio fue desarrollar un modelo de predicción multivariable para la sobrevida libre de morbilidades, la sobrevida con morbilidades leves, la sobrevida con morbilidades graves, o la mortalidad para lactantes nacidos con ≤ 30 semanas de gestación y admitidos en UCINs de nivel III en Canadá en 2010 y 2011. El objetivo secundario fue validar internamente el modelo mediante la aplicación de un sobreajuste de inicio o una corrección "optimista".
Métodos
Población de estudio
La Red Canadiense de Neonatología (RCN) mantiene una base de datos nacional estandarizada de los resultados y los factores de riesgo de niños ingresados en UCINs de nivel III en Canadá. En cada sitio, los datos son recogidos por extractores capacitados a partir de las historias clínicas de los pacientes de acuerdo con los mismos criterios especificados en el Manual de Abstracción de la RCN e ingresados electrónicamente en un programa personalizado de entrada de datos con comprobación de errores integrada.
La aprobación institucional de cada sitio, para la recolección de datos y su transferencia al centro de coordinación de la RCN, fue proporcionada por el comité de ética en investigación local o a través de un proceso de mejora de la calidad institucional.
Los lactantes elegibles para este estudio fueron niños nacidos con 23-30 semanas de gestación y admitidos en UCINs de nivel III participantes de la RCN durante un periodo de estudio de 2 años (1 de enero del 2010 al 31 de diciembre de 2011). Dada la mortalidad inminente, los lactantes declarados moribundos (los que al ingreso se les prescribió cuidados paliativos y para quienes no se proporcionó tratamiento agresivo) o los admitidos para cuidados paliativos fueron excluidos. Además, se excluyeron los niños nacidos con un defecto congénito potencialmente mortal, los que no contaban con la fecha de nacimiento o el sexo, o aquellos cuyo género se registró como ambiguo.
Definición de resultado y potenciales factores de riesgo
Se definió un resultado de 4 niveles indicando la sobrevida sin comorbilidades, la sobrevida con morbilidades leves, la sobrevida con comorbilidades graves o la mortalidad. Los niños que sobrevivieron sin ninguna de las siguientes morbilidades se tomaron como grupo de referencia en todos los análisis.
Las morbilidades leves incluyeron HIV grado 1 o 2, ROP estadio 1 o 2 en cualquier ojo (sin necesidad de cirugía), ECN estadio 2, DBP que requiere solo terapia de oxígeno sin presión positiva, o un único episodio de infección.
Las morbilidades graves incluyeron HIV grado 3 o 4, LPV, ROP estadio 3 o superior en uno de los ojos o cirugía para ROP, ECN estadio 3, DBP que requiere oxígeno y presión positiva en forma de VPPI, VAF, o CPAP, o > 1 episodio de infección. Las definiciones de mortalidad y morbilidad coincidieron en todos los sitios de la RCN.
La mortalidad (por cualquier causa), la LPV, la HIV, la ROP, y la ECN se determinaron antes del alta de la UCIN. Dado que el diagnóstico de HIV, LPV, ROP, y ECN implica pruebas, los datos faltantes para estas morbilidades fueron imputados como negativos, asumiendo que no se realizaron pruebas porque no estaba clínicamente indicado. La DBP se definió como la necesidad de oxígeno a la edad gestacional de 36 semanas o al alta si el niño fue dado de alta antes de las 36 semanas.
Un conjunto de 13 covariables de conocida importancia clínica estuvieron disponibles para la predicción: factores maternos (hipertensión, tabaquismo, consumo de drogas ilícitas), características del lactante (EG, pequeño para la edad gestacional [PEG], sexo, Puntaje para la Fisiología Neonatal Aguda versión II [PFNA II] > 20, parto múltiple, estado de innato o derivado y parto por cesárea), recepción de corticosteroides prenatales, y recepción de surfactante y ventilación mecánica en el 1° día de UCIN.
En la base de datos de la RCN, el día 1 se definió como el tiempo desde el ingreso hasta la medianoche del mismo día. La EG (semanas completas) se definió como la mejor estimación en base a la fecha de la fertilización in vitro, la ecografía temprana, el último período menstrual, o la estimación obstétrica, seguida de la estimación pediátrica, en ese orden jerárquico.
El peso de nacimiento estaba disponible, pero no se utilizó en los análisis debido a su fuerte correlación con la EG (coeficiente de correlación de Pearson = 0,75). La condición de PEG se derivó como el peso < percentilo 10 para la EG de acuerdo a la referencia canadiense específica por sexo para el peso de nacimiento y la EG.
La corioamnionitis fue excluida como potencial predictor debido al gran porcentaje (26%) de datos faltantes. Todos los predictores potenciales considerados tenían < 5% de datos faltantes, según lo recomendado para los análisis de datos de casos completos.
Análisis estadísticos
Se comparó la distribución de cada covariable entre los 4 grupos de resultado mediante el uso de la prueba de X2 de Pearson. La prueba de tendencia Cochrane-Armitage para covariables binarias y la prueba de X2 de Mantel-Haentsel para los factores multinivel evaluaron los patrones de riesgo con el aumento en la severidad del resultado.
Se desarrolló un modelo de regresión logística generalizado para predecir la sobrevida libre de morbilidades, las morbilidades leves, las morbilidades graves, o la mortalidad utilizando una selección de variables por pasos automática entre el conjunto de las 13 covariables disponibles para el desarrollo del modelo.
Debido a que el objetivo principal fue desarrollar un buen modelo de predicción más que un modelo con el mejor ajuste para los datos disponibles, se aplicó una significancia con un punto de corte más liberal, es decir un valor de P < 0,1 en lugar del valor típico de P < 0,05, para la inclusión o exclusión de covariables.
Se calculó una serie de medidas mediante el uso de probabilidades predichas a partir del último modelo multivariable para evaluar la capacidad predictiva aparente. Para cada grupo de resultado, las curvas de calibración examinaron el acuerdo entre los datos observados y las probabilidades predichas mediante el uso de un algoritmo suavizado de loes (parámetro de suavización de 0,5).
Las medidas de exactitud de la predicción, el valor predictivo positivo y negativo, la sensibilidad, y la especificidad se evaluaron teniendo en cuenta la más alta probabilidad estimada así como el resultado previsto y un rango de puntos de corte.
La bondad de ajuste para el modelo final se puso a prueba mediante el uso de estadística Cg, que corresponde a una extensión de la prueba de Hosmer – Lemeshow para la prueba de regresión logística multinomial. Mediante el índice de habilidad de Brier se comparó el puntaje Brier generalizado del modelo multivariable final con aquel a partir del modelo que incluye sólo la intersección.
Se evaluó la capacidad del modelo multivariable final para discriminar entre los grupos de resultado mediante el uso de concordancia de estadística C y el correspondiente intervalo de confianza del 95 % (IC). Para un resultado binario, la estadística C corresponde a la medida del área-bajo-la-curva. Para los resultados multinivel, la estadística C evalúa concordancia y discordancia entre pares de sujetos de diferentes grupos de resultado (datos provistos en la Información Complementaria).
Las medidas de rendimiento del modelo computarizadas mediante el uso de probabilidades predichas desde el modelo multivariable final desarrollado utilizando los datos completos están sujetas a sobreajuste y por lo tanto son optimistas. Para la estadística C, la validación interna se realizó utilizando una corrección inicial optimista computarizada sobre la base de 200 muestras de arranque.
La aleatorización muestral o bootstrap es un proceso estadístico de reutilización de la muestra que se puede aplicar para obtener estimaciones cercanas no sesgadas del rendimiento del futuro modelo sin retener datos cuando se seleccionan los predictores y se obtienen las estimaciones definitivas de los parámetros del modelo. Las muestras de arranque fueron generadas por muestreo al azar de un total de sujetos (N), mediante sustitución, a partir de los datos originales.
Para cada muestra de arranque se desarrolló un modelo de predicción, y se estimaron las estadísticas C utilizando los datos de arranque y los datos originales. La corrección optimista del bootstrap se calculó como la media de la diferencia entre estas 2 estadísticas C en todas las muestras de arranque. La estadística C corregida por bootstrap se obtuvo restando la corrección optimista de la re-sustitución de la estadística C calculada utilizando probabilidades predichas a partir del modelo multivariable final desarrollado mediante el uso de los datos originales.
Todos los análisis se realizaron utilizando SAS versión 9.2 (SAS Institute Inc, Cary, NC). La significación estadística fue evaluada utilizando valores de P de 2 caras a un nivel de prueba del 5%.
Resultados
Un total de 6424 niños nacidos con 23 a 30 semanas de EG y fecha de nacimiento conocida fueron ingresados en las UCINs participantes de la RCN en 2010 y 2011. De éstos, 318 lactantes fueron excluidos. De los 6106 niños finales (95 % de 6424) elegibles para este estudio, 2280 (37,3%) sobrevivieron sin morbilidades, 1964 (32,2%) tenían morbilidades leves, 1251 (20,5%) desarrollaron morbilidades graves, y 611 (10%) fallecieron.
Se detectaron diferencias estadísticamente significativas entre los grupos de resultado para todos los factores, excepto para el género (significación marginal), el nacimiento múltiple, el tabaquismo materno y el consumo materno de drogas. Se detectaron tendencias significativas en la severidad del resultado para todos los factores, excepto para el género (significación marginal), el tabaquismo materno y el consumo materno de drogas.
En comparación con las de la sobrevida libre de morbilidades, las probabilidades de mortalidad, morbilidades graves y morbilidades leves fueron significativamente mayores ante la menor EG y para los niños PEG, con PFNA II > 20, o con ventilación mecánica con VPPI o VAF en el 1º día en la UCIN. Por otra parte, la estimación de los odds ratio (OR) para la EG, PEG, PFNA II > 20 y ventilación mecánica fue mayor a medida que aumentó la severidad, lo que indica efectos más fuertes.
La mortalidad y las morbilidades graves fueron más altas para los niños cuyas madres no recibieron corticosteroides prenatales. La probabilidad de mortalidad fue significativamente mayor en los neonatos varones, y la probabilidad de morbilidades graves fue más alta para los recién nacidos tratados con surfactante en el día 1.
Las probabilidades predichas fueron generalmente cercanas a la línea diagonal (predicción perfecta), a excepción de la mortalidad, la cual fue subestimada por probabilidades > 0,60. La precisión de la predicción fue más alta para la mortalidad (91%) y más baja para la sobrevida con morbilidades leves (63%). No se detectaron diferencias estadísticamente significativas entre las probabilidades predichas y los resultados observados (Prueba Cg, P = 0,96), indicando un buen ajuste del modelo.
La puntuación de Brier = 0,60 a partir del modelo multivariable fue más cercana a 0 (predicción perfecta) que la puntuación de Brier = 0,70 en el modelo sin covariables, produciendo un puntaje de habilidad de Brier de 0,15, indicando que las covariables en el modelo multivariable explican la variabilidad del 15% en los datos. El optimismo de corrección de arranque de 0,0036 fue insignificante, reduciendo la re-sustitución de la estadística C = 0,902 (IC 95% 0,897-0,906) a una estadística C corregida por sesgo = 0,899 (IC 95% = 0,894 - 0,903).
El modelo de predicción de datos completos se desarrolló con las siguientes características basales: nacimiento a las 30 semanas de EG, no PEG, sexo femenino, PFNA II ≤ 20, recepción de corticoides prenatales, estado innato, no administración de surfactante, y no VPPI o VAF en el día 1 en la UCIN.
Para un lactante con estas características basales, la probabilidad estimada de sobrevida sin morbilidades, morbilidades leves, morbilidades graves y mortalidad fue igual a 0,76, 0,20, 0,04, y 0,004, respectivamente. Para facilitar el cálculo de probabilidades predichas para los niños con características diferentes desde el nivel basal, se mostró el cambio en la probabilidad de cada nivel de resultado asociado con un cambio desde la línea de base para cada factor de riesgo.
Por ejemplo, si un niño tiene las mismas características iniciales, excepto para PFNA II > 20, entonces la probabilidad de sobrevida libre de morbilidades disminuye en 0,11, mientras que la probabilidad de morbilidades leves, morbilidades graves y mortalidad se incrementa en 0,04, 0,05 y 0,02, respectivamente.
Para un lactante derivado a las 28 semanas de EG que es PEG, varón, con PFNA II > 20 y tratado con corticosteroides prenatales, con surfactante en el día 1, y con VPPI o VAF en día 1, la probabilidad de no morbilidades es de 0,14, calculada como 0,76 (línea de base) – 0,25 (EG = 28) - 0,15 (PEG) - 0,01 (sexo masculino) - 0,11 (PFNA II > 20 ) + 0,02 (derivado) – 0,04 (surfactante en el día 1) - 0,08 (VPPI o VAF en el día 1). Los valores indicados se pueden utilizar de manera similar para calcular la probabilidad de morbilidad leve como 0,57, de morbilidad grave como 0,25, y de mortalidad como 0,05.
Discusión
El modelo multivariable derivado de esta cohorte de base poblacional de recién nacidos extremadamente prematuros tiene una alta discriminación (90%) para predecir, en el primer día de admisión a la UCIN, la sobrevida sin comorbilidades, la sobrevida con morbilidades leves, la sobrevida con morbilidades graves o la mortalidad durante la hospitalización en la UCIN.
La validación interna de arranque mostró un sesgo de sobreajuste insignificante en la capacidad del modelo para discriminar entre los grupos de resultado. Los 8 predictores incluyen datos recogidos de manera sistemática sobre EG, PEG, género, estado de innato o derivado, uso de corticoides prenatales, puntaje de PFNA II > 20, y recepción de surfactante y ventilación mecánica en el primer día después de la admisión a la UCI neonatal.
Para el conocimiento de los autores, este es el primer modelo estadístico desarrollado para predecir múltiples puntos a lo largo de todo el espectro de gravedad del resultado. Por otra parte, la capacidad predictiva de este modelo de múltiples resultados es comparable a los modelos recientes desarrollados para predecir la mortalidad o la sobrevida libre de morbilidades graves. Debido a que el objetivo fue predecir los resultados después del inicio de lo cuidados intensivos, se excluyó a los lactantes declarados moribundos o admitidos en cuidados paliativos.
La severidad de cada morbilidad se basó en sistemas de clasificación existentes, y las morbilidades más comunes y debilitantes, con efectos acumulativos y aditivos probados sobre los resultados a largo plazo en los recién nacidos, fueron clasificadas como severas. Las morbilidades leves fueron definidas para incluir a todos los demás estadios o grados de morbilidades, de tal manera que el resultado deseado fuera la sobrevida libre de cualquier morbilidad. Es posible un refinamiento adicional para diferenciar el tipo y el número de las morbilidades graves y leves, pero requiere muestras más grandes de datos.
Para facilitar la predicción, los investigadores han desarrollado herramientas gráficas, pero éstas se limitan a la predicción de resultados binarios (mortalidad vs. sobrevida, mortalidad o morbilidad grave vs. sobrevida libre de morbilidad severa) y consideran el rango de sólo 2 predictores, normalmente la EG y el peso al nacer.
En contraste, el modelo de predicción de los autores discrimina a través de un espectro de niveles de gravedad de los resultados mediante el uso de 8 factores con impacto variable en los niveles de resultados. Además, la distinción de los niveles de gravedad del resultado mejora la predicción; la estadística C =0,902 del modelo multinomial supera la estadística C = 0,817 obtenida a partir de un modelo logístico con los mismos predictores pero utilizando un indicador binario de resultados para la sobrevida sin morbilidades graves, derivado de la agrupación de los lactantes que sobrevivieron con morbilidades leves o con ninguna morbilidad y juntando a los que sobrevivieron con morbilidades graves junto a los que murieron.
Los factores en este modelo incluyen EG, PEG, género, condición de innato o derivado y uso de corticosteroides prenatales, que son predictores bien conocidos de sobrevida en lactantes prematuros. Como era de esperar, la EG fue el predictor más fuerte; la EG medida en semanas completas se modeló como una variable categórica en lugar de cómo una medida continua que requiere términos lineales y cuadráticos que son difíciles de interpretar. Debido a la alta correlación entre la EG y el peso de nacimiento, los autores derivaron y usaron la condición de PEG (peso de nacimiento < percentilo 10 para la EG por sexo) como predictor en lugar del peso al nacer. Aunque la mayoría (> 85%) de los niños en esta reciente (2010 -2011) cohorte canadiense recibió corticoides prenatales, los lactantes que no fueron tratados con corticosteroides prenatales estuvieron en desventaja significativa.
Mientras que los estudios previos examinaron la puntuación de Apgar al minuto y a los 5 minutos o el puntaje del Índice de Riesgo Clínico para Bebés para cuantificar la gravedad de la enfermedad, los autores utilizaron una puntuación PFNA II > 20 para proporcionar una evaluación objetiva de la salud de los niños independientemente de la EG y del peso al nacer. La puntuación PFNA II se calcula utilizando 5 medidas fisiológicas obtenidas en las primeras 12 horas del ingreso a la UCIN y es un predictor probado de mortalidad neonatal.
Este modelo también incluyó la recepción de surfactante y ventilación mecánica en el día 1 de admisión, que en general fueron predictivos de resultados más pobres pero proporcionado un aumento mínimo en la estadística C, por lo que podrían ser excluidos por un modelo más parsimonioso.
Por otra parte, si el PFNA II se sustituye por el Apgar o el Índice de Riesgo Clínico para Bebés, podría desarrollarse un modelo predictivo que sería aplicable en el momento de la admisión a la UCIN. El sitio fue considerado como un potencial factor de confusión, pero dado que no se detectaron cambios >10% en los parámetros estimados asociados con el sitio, el sitio fue excluido como un posible predictor para desarrollar un modelo de predicción que sería generalmente útil para los niños ingresados en sitios fuera de la RCN.
Este modelo estuvo bien calibrado para la sobrevida sin morbilidad, la sobrevida con morbilidad leve, y la sobrevida con morbilidad grave, pero tiende a subestimar la mortalidad en recién nacidos de alto riesgo. La capacidad de discriminación de este modelo fue validada internamente mediante el uso de un enfoque bootstrap para estimar y corregir el sesgo en la estadística C debido a sobreajuste.
La ventaja de esta validación es el uso de los datos completos para el desarrollo de modelos y estimaciones casi imparciales de predicción de habilidad. También se consideraron enfoques alternativos para la validación interna, incluyendo división muestral, validación por omisión, y validación cruzada k-veces, con estimaciones comparables de la capacidad predictiva (resultados no mostrados).
La validación por división muestral implica la división aleatoria de los datos en subconjuntos de formación y validación independientes para el desarrollo y la evaluación del modelo, respectivamente. Aunque la validación por división muestral proporciona estimaciones imparciales de la capacidad de predicción, la construcción de modelos con un menor subconjunto puede excluir importantes factores de riesgo que no alcanzan la significación estadística requerida debido a la reducción del poder.
La validación mediante el uso de una muestra reducida aumentará la variabilidad de la estadística C estimada. Además, una sola división aleatoria puede producir importantes desequilibrios en la distribución de los resultados y los predictores, entre los subconjuntos de datos de formación y validación, lo que resulta en modelos de rendimiento pobres.
Como una alternativa al enfoque de división muestral, los métodos de reutilización de la muestra, que incluyen la omisión y la validación cruzada k veces, utilizan los datos completos para la formación y la validación. En la validación cruzada los datos completos son divididos al azar en k partes iguales (normalmente, 5-10), y cada subconjunto es a su vez retenido para la validación mientras que otros subconjuntos k-1 son utilizados para armar un modelo predictivo.
El método por omisión es un caso especial de validación cruzada k- veces con k = tamaño total de la muestra. La desventaja de la validación cruzada k veces y por omisión es que se validan múltiples modelos, y es difícil recomendar un modelo predictivo final para su futuro uso.
Las fortalezas de este estudio son el uso de una gran cohorte contemporánea que representa una muestra basada en la población de todo Canadá, y una meticulosa recopilación de datos dentro de la red. Se recogieron los datos de todas las UCINs participantes en la RCN de acuerdo a normas de protocolo establecidas, con el procesamiento de datos sometido a un número de pasos de reconocimiento de errores.
Los 13 factores de riesgo potenciales fueron seleccionados para representar factores maternos e infantiles de conocida importancia clínica que son registrados comúnmente. Para cuantificar el impacto de los predictores sobre la probabilidad de cada grupo de resultado, los autores han proporcionado un cambio en la probabilidad de resultado asociada con los cambios en cada factor de riesgo, de tal manera que las probabilidades predichas de cualquier niño puedan ser calculadas con una simple aritmética.
Este estudio se vio limitado por los datos incompletos sobre la raza o el origen étnico, y la corioamnionitis, ambos de los cuales han sido reportados como asociados con resultados neonatales. Aunque múltiples métodos de imputación pueden ser aplicados para incluir covariables con datos faltantes, el modelo resultante no sería aplicable a futuros niños para los cuales estos datos no están disponibles. Los autores no han podido realizar una validación externa porque un conjunto de datos comparable independiente no estaba fácilmente disponible; sin embargo, están estableciendo colaboraciones con varias otras redes neonatales nacionales para validar externamente este modelo de predicción en futuros trabajos.
Conclusiones
Los autores han desarrollado un modelo multivariable para predecir la sobrevida sin morbilidad, la sobrevida con morbilidad leve, la sobrevida con morbilidad grave o la mortalidad de los recién nacidos extremadamente prematuros ingresados en unidades de nivel III en Canadá. El modelo predice los niveles de severidad de los resultados con una alta discriminación y fue validado internamente. La información sobre los 8 predictores incluidos en el modelo está disponible en el primer día de admisión a la UCIN, facilitando así información pronóstica confiable para los médicos y las familias al inicio del periodo neonatal.
Comentario: Los niños con prematurez extrema presentan un alto riesgo de mortalidad y de morbilidades asociadas; la determinación de los factores pronósticos y de la posibilidad de diversos grados de morbilidad es importante para el manejo de estos pacientes. En el presente estudio se describe un modelo multivariable que permite predecir morbilidad y mortalidad mediante 8 predictores de fácil determinación en la unidad de cuidados intensivos neonatales. Este modelo, así como el desarrollo de nuevos métodos de investigación de estos parámetros brindarán información precoz y confiable a los médicos y a las familias.
♦ Resumen y comentario objetivo: Dra. María Eugenia Noguerol