Introducción
El reporte del año 2014 del Institute of Medicine llamó a una reestructuración de la financiación de Medicare para la Graduate Medical Education (GME), para incorporar los métodos de pago por desempeño [1,2]. El Institute of Medicine argumenta que los pagadores de impuestos en los EEUU no deberían financiar más incondicionalmente el entrenamiento de médicos, sino más bien financiar el entrenamiento que pueda satisfacer mejor las necesidades de salud de la nación. Esa llamada para el pago por desempeño en la GME originó la cuestión, “¿Cómo definir y medir el desempeño del programa de residencia?”. Hasta donde llega el conocimiento de los autores de este trabajo, no existe un consenso en relación a cómo evaluar la GME.
Los programas usan tasas de becas, de aprobación o evaluaciones subjetivas como una medición aproximada de la calidad del entrenamiento [3,4]. No obstante, esas mediciones no capturan directamente el desempeño del programa en el núcleo objetivo de la GME, esto es, entrenar a una generación futura de médicos para brindar una atención de alta calidad.
Asimismo, la experiencia en la medición del desempeño de los hospitales, ha mostrado que los procesos de medición no se relacionan necesariamente con la medición de los resultados [5,6]. Lo mismo puede ser cierto en relación con la medición del desempeño de la GME. La financiación de la GME basada en el desempeño demanda la creación de un sistema que evalúe de forma fiable los programas de residencia utilizando resultados clínicos objetivos.
Un trabajo previo demostró que los programas de residencia de obstetricia y ginecología podían ser clasificados por las tasas de complicación de las pacientes atendidas por sus graduados [7,8]. Sin embargo, ese abordaje no ha sido aplicado aún a los campos en donde están menos claramente definidas las indicaciones para intervención y con mayor variabilidad en los tipos de procedimientos efectuados. El presente estudio expande ese trabajo a la cirugía general, una especialidad de atención primaria con un rango más diverso de procedimientos y resultados.
Se seleccionó la cirugía general porque hay aproximadamente 2,65 millones de admisiones hospitalarias para procedimientos de cirugía general por año en los EEUU [9], los resultados de los procedimientos de cirugía general han sido ampliamente examinados utilizando las solicitudes de egreso [10-12] y el entrenamiento en cirugía general es la base para muchas otras especialidades quirúrgicas. Se usaron cuatro resultados para examinar la atención brindada por los graduados de los programas de residencia de cirugía general y para comparar el desempeño a través de los programas.
Métodos
Pacientes, cirujanos, hospitales y programas de residencia
Los pacientes sometidos a 1 de 24 operaciones de cirugía general en hospitales de Nueva York y Florida, entre el 1 de enero de 2008 y el 31 de diciembre de 2011 [13,14], fueron identificados para su inclusión en el estudio, utilizando los códigos de procedimiento [15] de la Intenational Classification of Diseases, Ninth Revision, Clinical Modification (ICD-9-CM).
Las operaciones fueron elegidas para capturar la amplitud de los procedimientos realizados por cirujanos generales en pacientes internados [16]. Las mismas fueron: pancreatectomía, esofagectomía, cirugía gástrica, cirugía antirreflujo, hepatectomía, colecistectomía, cirugía bariátrica, colectomía total, esplenectomía, enterectomía, apendicectomía, ostomía, reparación de eventración, reparación de hernia inguinal o crural, reparación de hernia umbilical, otras reparaciones herniarias, mastectomía, adrenalectomía, paratiroidectomía, tiroidectomía, lisis de adherencias y sutura de úlcera.
Nueva York y Florida fueron seleccionadas para el estudio debido a la posibilidad de vincular el egreso de los pacientes con la información de los cirujanos y hospitales. Los identificadores de los médicos fueron usados para obtener los datos actuales y antecedentes del American Medical Association Physician Masterfile (AMAPM) [17]. Los datos de las mediciones del nivel de calidad de los hospitales fueron obtenidos de la base de datos 2014 Hospital Compare [18].
Para evitar clasificar incorrectamente una operación compleja como componentes separados de un procedimiento, los pacientes sometidos a múltiples procedimientos fueron clasificados por la codificación del procedimiento más comprehensivo en la solicitud de egreso para cada admisión, según lo determinado por 3 de los autores (N.B, J.B.M, y R.R.K). Por ejemplo, un paciente sometido tanto a pancreatectomía como a colecistectomía durante la misma admisión fue clasificado bajo pancreatectomía.
Un total de 952.183 admisiones incluyeron una operación clasificada de cirugía general. Los pacientes fueron excluidos si el identificador del médico, en el conjunto de datos del estado, no podía ser vinculado a un registro en el AMAPM (n = 153), si el médico no había identificado a la cirugía general como su especialidad primaria o secundaria (n = 273.426), si la residencia registrada era en una institución sin programa de residencia de cirugía general (n = 39.745), si el médico se había entrenado fuera de los EEUU (n = 195.741), si el médico no tenía un grado MD (n = 8.593), o si la fecha de completitud de la residencia era posterior a la fecha de la operación clasificada (n = 1.078). Para minimizar el efecto de los hábitos de práctica desarrollados después del entrenamiento, las observaciones fueron excluidas si el médico tenía más de 20 años fuera de la residencia al momento del egreso clasificado del paciente (n = 132.775).
Finalmente, los pacientes de los cirujanos cuyo programa de residencia no pudo ser identificado (n = 63) o aquellos entrenados en programas de residencia en los que podían identificarse menos de 5 alumnos (n = 69.840), fueron excluidos del análisis. La muestra final incluyó 230.769 pacientes operados por 454 cirujanos generales provenientes de 73 programas de residencia de cirugía general.
Los programas de residencia fueron localizados en 24 Estados, el Distrito de Columbia y Puerto Rico y representaron el 28,7% de los 254 programas actualmente acreditados de residencia de cirugía general en los EEUU. El análisis fue repetido excluyendo a los médicos con más de 10 años fuera de la residencia y más de 5 años fuera de la residencia, para examinar el efecto del programa en momentos más cercanos al período de entrenamiento.
Para el análisis de los cirujanos dentro de los 10 años del entrenamiento hubo 78.575 pacientes operados por 319 cirujanos generales de 36 programas de residencia de cirugía general. Para el análisis de los cirujanos dentro de los 5 años del entrenamiento hubo 26,576 pacientes operados por 121 cirujanos generales de 16 programas de residencia de cirugía general. El análisis fue llevado a cabo desde el 4 de junio de 2014 al 16 de junio de 2015. El estudio fue exceptuado de revisión por el University of Pennsylvania Institutional Review Board.}
Eventos adversos
Los eventos adversos examinados fueron la muerte, el desarrollo de 1 o más complicaciones, la duración prolongada de la estadía (DPE) y el fracaso para rescatar (FPR). La muerte fue definida como el fallecimiento durante la misma estadía hospitalaria. Las complicaciones fueron identificadas por los códigos de diagnóstico del ICD-9-CM [19,20] para las complicaciones individuales y colapsadas dentro de una variable binaria representando la ocurrencia de cualquier complicación postoperatoria. Para distinguir entre complicaciones y comorbilidades, los códigos de diagnóstico no fueron considerados si fueron señalados como presentes en la admisión.
La DPE fue definida dentro de cada hospital como una variable binaria indicando una duración de estadía específica para el procedimiento mayor al percentilo 75º. La DPE es una medida bien descrita usada para reflejar ineficiencias en la atención y para capturar complicaciones que prolongan la atención [21,22]. El FPR fue codificado como una variable binaria indicando la muerte intrahospitalaria siguiendo a cualquier complicación [23,24].
En la definición de FPR, la muerte fue incluida como una complicación, con la presunción de que los pacientes que murieron sin una complicación documentada experimentaron una complicación indocumentada. El FPR fue definido sólo para los 11.701 pacientes (5,1% de la cohorte) que fueron admitidos electivamente y murieron o desarrollaron complicaciones luego de una cirugía realizada en el día hospitalario 0, para reflejar el contexto en el que el FPR fue inicialmente desarrollado.
Análisis estadístico
Debido a la naturaleza anidada de los datos, con múltiples pacientes asociados con cada cirujano y múltiples cirujanos asociados con cada programa de residencia, se usaron modelos jerárquicos lineales generalizados (MJLG) con una función logit de enlace, para evaluar la asociación independiente entre el programa de residencia y los eventos adversos.
Se estimó un modelo separado para cada uno de los 4 eventos adversos. Las covariables candidatas fueron elegidas basado en una revisión de la literatura y en el juicio clínico, y fueron seleccionadas para su inclusión en cada modelo usando las pruebas de 2 de Pearson con un umbral de P < 0,10. Las características de los pacientes incluyeron: edad, sexo, raza, pagador principal (Medicare, Medicaid, seguro privado, auto-pago y otro), índice Elixhauser [25-27], tipo de operación, admisión vía departamento de emergencia, cirugía en el mismo día de admisión, año de operación y Estado.
Las características del cirujano incluyeron: edad, sexo, década de completitud del entrenamiento, volumen quirúrgico en tercilos, e identificación de alguna subespecialidad además de cirugía general (definido como una variable binaria). La subespecialidad del cirujano fue incluida en el análisis para ajustar por los efectos de un entrenamiento avanzado más allá de la residencia. Dado el marco temporal del estudio, muchos cirujanos entraron a la residencia antes de que el requerimiento de horas de servicio fuera reformado y antes de la tasa acelerada de enrolamiento en becas (fellowship). Por lo tanto, los autores usaron la subespecialidad del cirujano como un sucedáneo para el entrenamiento becado o práctica focalizada. Las características del hospital incluidas fueron: cantidad de camas, propietario y ambiente.
La calidad quirúrgica del hospital fue examinada utilizando datos del Hospital Value-Based Purchasing Program [16] para tener en cuenta los supuestos de que los mejores hospitales atraen a los cirujanos entrenados en los mejores programas de residencia, y que la varianza en la calidad del hospital, en la forma de mejor atención pre o postoperatoria, puede ser responsable por la varianza observada en los resultados clínicos. La calidad quirúrgica del hospital fue definida como el puntaje medio de desempeño en las mediciones del proceso de atención específicamente quirúrgico. Para cada modelo, la discriminación fue evaluada usando la estadística C y la proporción de variación explicada fue medida usando pseudo R2 de Efron.
Usando el marco de trabajo analítico implementado en obstetricia [7,8] se calculó una tasa estandarizada de riesgo para eventos adversos (TEREA) por cada programa de residencia, para cada uno de los 4 eventos adversos. La TEREA refleja la tasa prevista de eventos adversos predichos por los MJLG específicos del programa, dividido por la tasa prevista de eventos adversos del promedio de los programas de residencia predichos por los MJLG. Los programas de residencia fueron luego clasificados y agrupados en tercilos basado en sus TEREA para cada evento adverso. Los 4 conjuntos de rankings de los programas fueron comparados sobre una base de pares con la prueba de correlación rank de Spearman usando la corrección de Sidak para comparaciones múltiples [26].
Usando los resultados del montaje de cada TEREA, se estimó la tasa ajustada de eventos adversos (TAEA) para cada programa de residencia como la predicción de TEREA para el paciente promedio, tratado por el cirujano promedio, si el cirujano promedio había atendido a ese programa especifico de residencia. A diferencia de la TEREA, la TAEA difiere entre los programas en la inclusión de los efectos predichos del programa; las características de cada graduado de un programa y de los pacientes de los graduados no afectan la TAEA. La TAEA media fue calculada para cada tercilo.
Se calculó la diferencia entre los tercilos superior e inferior para calcular la reducción absoluta del riesgo asociada con las operaciones efectuadas por un cirujano de un programa clasificado en tercilo más alto, comparado con las operaciones efectuadas por un cirujano de un programa clasificado en el tercilo más bajo. La reducción relativa del riesgo también fue calculada.
Para controlar las diferencias en la selección de casos por alumno, las TAEA fueron calculadas en análisis de subgrupo por procedimientos específicos vinculados con indicaciones específicas: apendicectomía de emergencia por apendicitis y pancreatectomía electiva por neoplasia. Esos análisis de subgrupo se limitaron a los procedimientos realizados en el mismo día de admisión, para reducir la heterogeneidad de las cohortes de pacientes. Además, se efectuó un análisis de validación cruzada, en el que la mitad de los pacientes fueron usados para computar las TEREA y clasificar los programas, y la otra mitad fue usada para computar las TAEA.
Todos los análisis fueron realizados usando el programa Stata/MP, versión 13.1 (Stata Corp.) y el programa SAS, versión 9.4 (SAS Institute Inc.).
Resultados
Las características fueron clínicamente similares a través de las cohortes incluidas y excluidas. En la población en estudio, las tasas observadas de eventos adversos fueron: 1,8% para la muerte, 15,0% para las complicaciones, 20,9% para la DPE y 6,8% para el FPR. Las estadísticas de modelo C fueron desde 0,74 (FPR) a 0,90 (muerte). La proporción de variación explicada por los modelos osciló desde 8,9% (FPR) a 22,2% (complicaciones). Las tasas ajustadas de eventos adversos para los programas ubicados en el tercilo más alto fueron significativamente más bajas que aquellas para los programas ubicados en el tercilo más bajo para todos los procedimientos, así como para el subgrupo de poblaciones.
Entre la cohorte de cirujanos con 10 años de graduación desde la residencia, el efecto del programa fue notablemente mayor, evidenciado por las diferencias absolutas más grandes entre los tercilos más alto y más bajo, a través de todos los resultados y modelos. La diferencia relativa en las TAEA entre los tercilos más alto y más bajo fueron desde el 9,1% en el modelo para complicaciones, hasta 33,8% en el modelo para FPR. Las TEREA Y TAEA fueron similares en magnitud a aquellas computadas en la cohorte total de 20 años. Entre la cohorte de cirujanos dentro de los 5 años de graduación desde la residencia, el efecto del programa fue aún mayor, con la diferencia relativa entre el tercilo más alto y el más bajo yendo desde 8,0% en el modelo para DPE, hasta 44,4% en el modelo para mortalidad.
Las clasificaciones de tercilos de los programas individuales fueron consistentes entre muerte y FPR y entre complicaciones y DPE. Cuando se comparó muerte y FPR, el 52,1% de los 73 programas permaneció dentro del mismo tercilo, el 38,4% se movió 1 tercilo y el 9,6% se movió 2 tercilos. Similarmente, cuando se juzgó por las complicaciones comparado con la DPE, el 50,7% de los programas permaneció en el mismo tercilo, el 38,4% se movió 1 tercilo y el 11,0% se movió 2 tercilos. Las clasificaciones no fueron consistentes entre la FPR y las complicaciones o la DPE.
Discusión
La llamada a reestructurar la financiación de la GME se alinea con un movimiento más amplio en la industria de la salud hacia modelos de pago por rendimiento [29-32]. No obstante, hasta donde llega el conocimiento de los autores de este trabajo, no existe un estándar nacional para la medición del desempeño de la GME. Se han hecho intentos para clasificar los programas de residencia basado en la percepción de expertos en el tema [33], pero la percepción pública del prestigio del programa no es un indicador confiable de calidad del entrenamiento clínico [34,35]. Dado que la meta final de la residencia de cirugía general es preparar cirujanos que logren resultados óptimos en sus pacientes después de la graduación, una medición intuitiva del desempeño podría ser los resultados en los pacientes de los programas de graduados.
Este estudio demuestra que los programas de residencia de cirugía general pueden ser clasificados por los resultados logrados por sus graduados, pero que las mediciones seleccionadas afectan el orden de clasificación de los programas. Los pacientes cuyos procedimientos fueron realizados por cirujanos entrenados en los programas de residencia de cirugía general en el tercilo más alto y en el más bajo, experimentaron diferentes tasas de eventos adversos.
Las diferencias a través de los tercilos de los programas fueron relativamente pequeñas entre la cohorte de cirujanos con más de 20 años de práctica. No obstante, las diferencias tendieron a ser más grandes entre los cirujanos con menos de 10 años de experiencia y más pronunciadas entre la cohorte de cirujanos con menos de 5 años de experiencia. Ese hallazgo sugiere que los efectos del entrenamiento sobre los resultados son mayores al comienzo de la práctica independiente.
Este artículo sirve como una prueba de concepto de que los resultados en los pacientes pueden ser usados para clasificar a los programas de residencia de cirugía general. Sistemas similares de clasificación han sido intentados previamente sólo en obstetricia y ginecología [7], en donde los programas fueron clasificados por las tasas de complicaciones de los graduados durante el parto. Ese estudio examinó 2 procedimientos (parto vaginal y cesárea) con una única indicación y resultados discretos (laceración, hemorragia e infección).
El presente estudio muestra que ese método puede ser aplicado a una especialidad primaria de atención – la cirugía general – con un rango mucho más amplio de procedimientos. Las clasificaciones de los programas fueron consistentes a través de las cohortes de cirujanos con 5, 10 o 20 años de práctica, sugiriendo que la estrategia analítica pueden producir estimados estables de los desempeños de los programas y que el efecto de los programas sobre los resultados de sus graduados es más fuerte en los primeros años de la práctica independiente.
Sin embargo, el estudio no fue capaz de definir una métrica única para usar en la evaluación de un programa, debido a la falta de consistencia a través de todas las mediciones de resultados examinadas.
Existen varias limitaciones para este estudio. Primero, los resultados quirúrgicos exitosos son determinados no sólo por la excelencia técnica sino también por un buen juicio clínico en la determinación de los candidatos para la cirugía. La selección del procedimiento quirúrgico correcto, para el paciente adecuado, en el momento oportuno, es una destreza clínica enseñada en la residencia.
Mediante la comparación de los resultados en el paciente promedio, operado por el cirujano promedio, en cada programa de residencia, el juicio clínico requerido para operar selectivamente a los pacientes que más probablemente se beneficiarán con la cirugía, en lugar de las opciones de tratamiento médico, es penalizado más que recompensado. Una vez que los investigadores definen un método para evaluar la conveniencia de la intervención quirúrgica, será importante incluirlo en el modelo. A pesar de esa limitación, este estudio demostró que los “mejores” programas de residencia pueden ser definidos basado en lo que más importa: cómo les va clínicamente a los pacientes de los graduados después de la cirugía.
Segundo, este estudio no incluyó el calibre basal de los ingresantes a la residencia. Es posible que los programas de residencia con la clasificación más alta seleccionen a los alumnos más talentosos, con una mayor aptitud para la excelencia en cirugía, y que el programa en sí mismo tenga un efecto mínimo. En ese caso, el sistema de clasificación seguiría siendo una medición importante para pacientes y hospitales cuando se selecciona a los cirujanos, pero podría perder su utilidad para orientar las mejoras en el proceso de entrenamiento.
Tercero, los autores no pudieron medir directamente el estatus de becario. La especialización auto-reportada fue usada como un sucedáneo, pero puede reflejar un espectro de entrenamiento adicional y/o estrechamiento de los patrones de práctica sin una beca formal. Este hallazgo no debería afectar significativamente los resultados del estudio, dado que muchos cirujanos con becas adicionales de entrenamiento, continúan realizando procedimientos fuera del área de especialización, y las destrezas aprendidas durante la residencia constituyen la base de cualquier entrenamiento adicional o experiencia obtenida durante la beca. Además, la primera cohorte de cirujanos entrenada en la era moderna, comenzó a ingresar en la práctica sólo en 2008.
Dado el período de tiempo del estudio, muchos procedimientos fueron realizados por cirujanos que completaron la mayoría o todo el entrenamiento de su residencia antes de la implementación de los nuevos estándares de horas de servicio y la tasa acelerada de enrolamiento en programas de becas. Por lo tanto, el efecto del entrenamiento en los programas de becas es probablemente menos importante en este estudio de lo que será en el futuro.
Cuarto, este estudio está limitado a la información contenida en datos administrativos a través de 2 Estados. En consecuencia, los resultados están sujetos a las mismas limitaciones comunes a todos los estudios realizados usando datos de egreso de los pacientes. Por otra parte, los autores sólo pudieron examinar las clasificaciones de los programas para el 28,7% de todos los programas de residencia de cirugía general, y el deseo de los alumnos de ejercer en ciertas áreas del país puede haber influenciado los resultados.
Finalmente, los graduados del programa fueron agrupados juntos durante un período de 20 años y no se tomaron en cuenta los cambios potenciales, en un programa determinado, con el paso del tiempo. Mientras que los análisis de subgrupo sugieren que un análisis enfocado sobre los cirujanos que se graduaron más recientemente brindaría una clasificación similar, esos análisis estuvieron limitados por el bajo número de programas incluidos. Estudios futuros, diseñados para controlar alguna de esas limitaciones, ayudarán a desarrollar un sistema que incentive apropiadamente a los programas de residencia de cirugía general, para entrenar a cirujanos que alcancen los resultados óptimos en sus pacientes y que respondan a las necesidades de la población.
Este estudio tiene varias fortalezas. Los resultados incluyen a los resultados a través de una amplia gama de procedimientos quirúrgicos efectuados por cirujanos generales después del período de residencia. El estudio considera el rol del entrenamiento avanzado mediante el ajuste por especialidad del cirujano y examina 4 resultados médicos y quirúrgicos que pueden ser influenciados por la calidad de la atención brindada a los pacientes. Los resultados están ajustados también por las características mayores de los pacientes, cirujanos y hospitales, conocidas por influir en los resultados.
Conclusiones
Este estudio demuestra la factibilidad de clasificar a los programas de residencia de cirugía general utilizando los resultados en los pacientes tratados por los graduados de esos programas. El sistema de clasificación fue capaz de clasificar exitosamente a los programas, basado en los resultados logrados por los cirujanos con cantidades variables de experiencia clínica más allá del período de entrenamiento. No obstante, dado que las clasificaciones difirieron según las mediciones individuales testeadas, es necesaria poner una cuidadosa consideración en la elección de las mediciones usadas en la evaluación de cualquier programa de residencia.
Traducción y resumen objetivo: Dr. Rodolfo Altrudi