Introducción
La cirugía laparoscópica para los pacientes con cáncer gástrico ha sido empleada por más de 2 décadas [1] y su uso ha aumentado mundialmente de manera constante. Varios ensayos randomizados y controlados (ERC) con muestras de tamaño pequeño [2-6], reportes interinos sobre ensayos grandes planificados [7,8] y algunos meta-análisis [9-15] incluyendo estudios observacionales retrospectivos [16-18] han indicado que los resultados quirúrgicos de la gastrectomía laparoscópica (GL) en términos de factores, tales como las complicaciones postoperatorias, recuperación del paciente, pérdida de sangre y el número de ganglios linfáticos recolectados, son generalmente comparables con la gastrectomía abierta (GA) y aceptables. Por lo tanto, la seguridad quirúrgica de la GL está ahora bien establecida. Sin embargo, se considera generalmente que el tema de los resultados oncológicos, en términos de sobrevida libre de recidiva y sobrevida global, tasa de recurrencia y patrón de recidiva, no estarán establecidos hasta que se publiquen los resultados de ensayos randomizados a gran escala actualmente en marcha [7,8].
La toma de decisión clínica debe basarse idealmente sobre evidencia médica que considere los resultados de ECR y meta-análisis. Sin embargo, la gastrectomía laparoscópica ya ha sido aceptada en muchos países. En Japón, el número de pacientes sometidos a GL ha aumentado desde 1823 en el año 2003 a 9168 en el año 2013, de acuerdo con una encuesta conducida por la Japanese Society of Endoscopic Surgery [19], lo que representa un aumento en 5 veces sobre la década pasada. En el mundo real, el progreso en nuevas técnicas continúa avanzando sin esperar por los resultados de los ensayos clínicos, como lo ejemplificó el uso en aumento de la cirugía robótica por muchos cirujanos. ¿Cómo se debería reconciliar ese retardo temporal entre la práctica diaria y la disponibilidad de evidencia randomizada?
La toma de decisión clínica debe basarse idealmente sobre evidencia médica que considere los resultados de estudios randomizados y controlados y de meta-análisis.
Para llenar esas lagunas en la evidencia mientras se aguardan los resultados de los ensayos clínicos, algunos investigadores han estado cambiando el énfasis hacia los abordajes observacionales analíticos utilizando bases de datos a gran escala [20,21]. Aunque eso puede arrojar luz sobre asociaciones simples entre los tratamientos quirúrgicos y los resultados, el ajuste apropiado por los factores de confusión es esencial para evaluar la efectividad de las intervenciones.
Los estudios retrospectivos utilizando el apareamiento por puntaje de propensión (APP) representan un abordaje notable para esa ajuste por factores de confusión [22-25]. No obstante, en la mayoría de la investigación previa para evaluar la efectividad de las intervenciones quirúrgicas, el ajuste por los factores de confusión usando el APP ha sido menos que satisfactorio porque los factores empleados para calcular los puntajes de propensión fueron inadecuados (se usó sólo un pequeño subgrupo disponible de probables factores de confusión) y/o inapropiados (Se usaron variables post intervención, tales como la información histopatológica, que podían ser conocidas sólo después de la cirugía).
Para estimar los puntajes de propensión se debería aislar toda la información preoperatoria que influencia el juicio clínico de los cirujanos sobre si está indicada la GL o la GA; de otra manera, el APP no sería capaz de ajustar por los factores de confusión para la indicación. Los autores de este trabajo han puntualizado repetidamente esas preocupaciones sobre el uso inapropiado e inadecuado de la técnica del APP [26-28].
En vista del estado actual de la evidencia que rodea a la GL, los autores han organizado una reunión de consenso involucrando a cirujanos laparoscopistas expertos, epidemiólogos y bioestadísticos, y han establecido una gran base de datos multicéntrica para estimar los puntajes de propensión más precisamente mediante una discusión multidisciplinaria. En este trabajo, reportan los detalles de ese histórico estudio de cohorte, “Laparoscopy versus Open Surgery for Clinical Stahe I Gastric Cancer” (LOC-1), con el objetivo de establecer una estimación más precisa de los puntajes de propensión y examinar la efectividad y seguridad de la GL sobre la GA, ajustando tan completamente como sea posible por los probables factores de confusión para la indicación.
Métodos
► Hipótesis y desarrollo de la cohorte
El objetivo de este estudio fue verificar la hipótesis de los autores de que la GL no es inferior a la GA en términos de sobrevida global. Los autores diseñaron a priori todo el protocolo de estudio tomando en consideración el tamaño necesario de la muestra para evaluar la no inferioridad. Tres instituciones japonesas especializadas en cáncer fueron seleccionadas para participar sobre la base de los siguientes criterios: ser capaces de ofrecer cirugía tanto abierta como laparoscópica a pacientes con cáncer gástrico; y tener facilidades para el almacenamiento electrónico de los datos clínicos, incluyendo registros médicos, imágenes y datos de laboratorio, para todos los pacientes consecutivos con cáncer gástrico que fueran sometidos a gastrectomía desde enero de 2006 hasta diciembre de 2012. Todos los pacientes de esas instituciones que cumplían con los criterios de inclusión fueron enrolados. Ese estudio fue realizado con la aprobación de los comités de revisión institucionales de todos los hospitales participantes. La estadificación del cáncer se basó en séptima clasificación TNM de la Union for International Cancer Control (UICC) [29].
► Participantes
Los pacientes enrolados en este estudio tuvieron un adenocarcinoma gástrico histológicamente confirmado diagnosticado en estadio clínico I (T1N0, T2N0, o T1N1) y fueron sometidos a gatrectomía, incluyendo resección total, subtotal, proximal o con preservación del píloro. Los criterios de exclusión incluyeron carcinoma en el muñón gástrico (después de una gastrectomía previa), la presencia de otra enfermedad maligna primaria, y antecedentes de quimioterapia o quimio-radioterapia.
► Recolección de datos, APP y estimación del tamaño de la muestra
Este estudio observacional no fue diseñado para ser un estudio formal de no inferioridad debido a la baja tasa de incidencia esperada, pero fue diseñado para brindar la mejor estimación posible del intervalo del cociente de riesgo (CR) utilizando APP basado en 30 covariables clínicamente relevantes. Cuando se diseñó el estudio se calculó que eran necesarios al menos 592 pacientes por cada rama para mostrar la no inferioridad del grupo de GL en relación con el grupo de GA con un margen de proporción del 5%, poder estadístico del 80% y alfa de dos colas de 5%. Se identificó un total de 4235 pacientes de las bases de datos institucionales: 2258 pacientes fueron sometidos a cirugía abierta y 1977 a GL.
Para optimizar la precisión del puntaje de propensión, el equipo clarificó a través de sus reuniones de consenso la información preoperatoria relacionada con la elección hecha por el cirujano sobre si se usaría cirugía abierta o laparoscópica. Se identificó un total de 30 factores preoperatorios, incluyendo detaqlles de las características de los pacientes y hallazgos tumorales, Para recolectar la información precisa sobre las características del paciente y del tumor, los investigadores – que desconocían el resultado – buscaron en los registros médicos, imágenes almacenadas y datos de laboratorio de todos los pacientes.
En todos los hospitales participantes, la endoscopía gastrointestinal alta y la tomografía computada abdominal fueron realizadas a cada paciente con cáncer gástrico y se usó en algunos casos un estudio baritado o una ecografía endoscópica. No hubo ninguna performance de laparoscopía diagnóstica para el cáncer gástrico en estadio I. Los puntajes de propensión estimados y emparejados fueron obtenidos por 2 bioestadísticos (TA y MI) que también desconocían el resultado.
El puntaje fue estimado usando un modelo de regresión logística y emparejamiento voraz (relación = 1:1 sin reemplazo) con un calibrador de ancho 0,2 desvíos estándar del logit del puntaje de propensión estimado. Además del APP, 5 factores (T y N clínicos, invasión esofágica, invasión duodenal y localización del tumor como diagnóstico preoperatorio) fueron emparejados exactamente para lograr un mejor balance [30]. No se usó la imputación estadística para los datos perdidos porque eso ocurrió sólo en 23 casos (0,53%). Después del emparejado, 924 pacientes en cada uno de los dos grupos (GA y GL) fueron incluidos en los análisis finales. El balance de cada covariable antes y después del emparejado entre los 2 grupos fue evaluado mediante diferencias estandarizadas [31]. El valor absoluto de las diferencias estandarizadas menor que el 10% fue considerado como un desequilibrio relativamente pequeño.
Métodos de tratamiento
Todas las instituciones que participaron en este estudio eran hospitales especializados en cáncer y todos los pacientes enrolados recibieron tratamientos relativamente homogéneos, de acuerdo con las guías para el tratamiento del cáncer gástrico en Japón [32]. Aunque no hubieron criterios específicos del cirujano en este estudio, considerando que el número promedio de pacientes sometidos a gastrectomía fue de más de 300 casos por año en cada hospital durante ese período, se consideró que todos los cirujanos tenían suficiente experiencia para realizar ambas cirugías (laparoscópica y abierta).
En los hospitales japoneses especializados en cáncer, la linfadenectomía D2 [33], que incluye la disección de la región alrededor de las arterias esplénica, celíaca y hepática, sin pancreatectomía distal, es considerada estándar. En ese sentido, los casos con linfadenectomía alrededor de la arteria hepática propia fueron omitidos en algunas instancias de la enfermedad en estadio clínico I. La linfadenectomía D2 modificada fue definida como “D1 +” en este estudio. La quimioterapia adyuvante con S-1 por 1 año fue realizada para la mayoría de los pacientes con resección curativa y tumores en estadio patológico II, IIIA o IIIB [34].
► Resultados y análisis estadístico
Después de emparejar y fijar los casos enrolados, los investigadores recolectaron todos los datos sobre resultados. El resultado principal fue la sobrevida global (SG). Los resultados secundarios incluyeron la sobrevida libre de recidiva (SLR), sobrevida específica para la enfermedad, patrón de recidiva, número de ganglios linfáticos recolectados y la incidencia de las complicaciones postoperatorias que fueron de grado 3 o más graves, según la clasificación de Clavien-Dindo [35]. La SG, SLR y sobrevida específica para la enfermedad fueron evaluadas utilizando el método de Kaplan-Meier y comparadas entre los grupos de GA y GL.
Las tasas de riesgo [TR] y los intervalos de confianza [IC] de 95% fueron estimados usando el modelo no estratificado de riesgos proporcionales de Cox para los análisis primarios [36,37]. El modelo estratificado de Cox para pares apareados también fue empleado ajustado como un análisis de sensibilidad. Las estadísticas descriptivas fueron evaluadas en otros resultados secundarios y, de ser necesario, se compararon las variables continuas usando la prueba de t de Student y las variables categóricas mediante la prueba exacta de Fisher. Todas las pruebas estadísticas fueron de dos colas y los valores de P de 0,05 o menores fueron considerados para indicar la significación estadística. Todos los análisis fueron realizados con el programa SAS versión 9.3 (SAS Institute, Cary, NC).
► Análisis de subgrupos
Para confirmar el resultado principal para todos los procedimientos, la sobrevida libre de enfermedad fue comparada para cada tipo de resección: total, subtotal, próxima o gastrectomía con preservación del píloro, y linfadenectomía D1+ o D2.
Resultados
► Resultados oncológicos
Las TR para la mortalidad global, recidiva y mortalidad específica para la enfermedad en el grupo de GL, comparadas con las del grupo de GA fueron: 0,75 (95% IC: 0,44-1,27; P = 0,290), 1,01 (95% IC: 0,55-1,84; P = 0,981) y 1,38 (95% IC: 0,61-2,34; P = 0,411), respectivamente. Las TR estimadas con el modelo estratificado de Cox tuvieron resultados similares. La sobrevida global a 5 años y la SLR a 3 años fueron del 96,3% (95% IC: 95,0-976,6) y 97,4% (95% IC: 96,4-98,5) en el grupo de GA, y del 97,1% (95% IC: 95,9-98,3) y 97,7% (95% IC: 96,5-98,8) en el grupo de GL, respectivamente. Las diferencias de riesgo de SG y SLR en el grupo de GL fueron de -0,82% y -0,32%. El número (proporción) de ocurrencia de todas las muertes fue de 33 (3,57%) en el grupo de GA y de 24 (2,60%) en el grupo de GL (P = 0,230) y os casos recidivados fueron 22 (2,38%) en el grupo de GA y 21 (2,27%) en el grupo de GL (P = 1,000), respectivamente. Los sitios más comunes de recidiva fueron el peritoneo y el hígado. La mediana del período de observación fue de 4,4 años (rango intercuartilar: 3,1-5,2 años).
En términos de resultados oncológicos, no hubo diferencias significativas entre los grupos. La mayoría de las recidivas ocurrieron dentro de los 3 años postoperatorios. No hubo diferencias significativas en los resultados oncológicos entre los procedimientos quirúrgicos en los análisis de subgrupos: la SG a 5 años en el grupo de GA versus el grupo de GL fue de 95% (95% IC: 92,7-96,6) versus 95,1 (95% IC: 92,5-96,8; P = 0,4331) en la gastrectomía distal; 90,2% (95% IC: 79,3-94,5) versus 95,6% (95% IC:88,4-98,4; P = 0,441) en la gastrectomía total; 98,4% (95% IC: 95,0-99,5) versus 96,8 (95% IC: 93,0-98,6; P = 0,387) en la gastrectomía con preservación del píloro; 95% (95% IC: 85,1-98,4) versus 84,8% (95% IC: 67,6-93,2; P = 0,187) en la gastrectomía proximal; 95,6% (95% IC: 92,5-97,5) versus 96,0% (95% IC: 93,8-97,5; P = 0,5931) en la linfadenectomía D1+; y 95,1% (95% IC: 92.8-96,6) versus 92,3% (95% IC: 88,0-95,1; P = 0,2637) en la linfadenectomía D2.
► Resultados quirúrgicos
Ocurrieron dos accidentes intraoperatorios en el grupo de GA: 1 esplenectomía no planificada debida a una lesión en la arteria esplénica y 1 arritmia fatal durante la cirugía. EN el grupo de GL, 12 casos tuvieron que ser convertidos a cirugía abierta: para el control de la hemorragia en 4 casos y para una manipulación oncológica segura debido a invasión serosa por el tumor en 8 casos. No hubo diferencias significativas en términos de resultados quirúrgicos, tales como el número de ganglios linfáticos recolectados, estadio TNM patológico o tipo histológico. La incidencia de complicaciones postoperatorias más graves que el grado III fue del 5,8% en el grupo de GA y de 5,1% en el grupo de GL (P = 0,539). Hubo más casos de fístula pancreática en el grupo de GL que en el grupo de GA, mientras que este ultimo mostró una incidencia más alta de infección de la herida. En relación con las complicaciones a largo plazo, la incidencia de obstrucción del intestino delgado en el grupo de GA fue mayor que en el grupo de GL, mientras que este último mostró una incidencia más alta de hernia interna requiriendo reoperación. Ni la duración de la estadía postoperatoria ni proporción de la tasa de reamisión difirieron significativamente entre los grupos. No ocurrió ninguna muerte dentro de los 30 días postoperatorios en ninguno de los grupos.
Discusión
Los resultados de este trabajo sugieren que no existen diferencias significativas en la SG, SLR o sitio de recidiva entre la GA y la GL, y que no hay diferencias en las complicaciones postoperatorias a corto plazo. Esos resultados fueron confirmados también en todos los subgrupos de procedimiento, incluyendo resultados oncológicos similares para la gastrectomía total laparoscópica con linfadenectomía D1+ en el cáncer gástrico en estadio temprano. Dado el gran tamaño de la muestra y el uso de una estimación estricta de puntaje de propensión y emparejamiento, los resultados de este estudio parecen establecer que la GL no es oncológicamente ni quirúrgicamente inferior a la GA para el cáncer gástrico en estadio I.
Los resultados de este trabajo sugieren que no existen diferencias significativas en la sobreivad global y la sobrevida libre de recidiva entre la gastrectomía abierta y la gastrectomía laparoscópica, y que no hay diferencias en las complicaciones postoperatorias a corto plazo.
El presente estudio tiene muchas ventajas sobre los estudios previos que evaluaron la misma cuestión utilizando un APP. En este estudio, los autores ensamblaron un equipo incluyendo a cirujanos expertos en cáncer gástrico, epidemiólogos y bioestadísticos, y trataron de evaluar la propensión de la asignación del procedimiento lo más precisamente posible. Eso les permitió finalmente identificar 30 factores preoperatorios relacionados con la toma de decisión quirúrgica. Esos datos clínicos fueron recolectados por investigadores que desconocían los resultados. Gracias a los recientes avances en el almacenamiento electrónico de los datos médicos, incluyendo datos no estructurados, tales como imágenes de tomografía computada o de endoscopía, sin ninguna pérdida o deterioro de la calidad, en este estudio sólo hubo un 0,2% de pérdida de datos.
En la literatura, 2 estudios previos [22,24] habían investigado la misma cuestión, pero seleccionaron sólo de 3 a 5 covariables, tales como el índice de masa corporal, TNM o comorbilidad, para calcular el puntaje de propensión. Es claro que los cirujanos eligen el abordaje quirúrgico más apropiado sobre la base de mucha más información, incluyendo – por ejemplo – edad del paciente, tamaño del tumor, ubicación, hallazgos histológicos de la biopsia, antecedentes de cirugía abdominal, estado de rendimiento, selección del paciente, institución y el año en que la operación fue realizada. Se espera que los cirujanos consideren toda la información disponible para decidir el procedimiento óptimo par cada paciente.
Otra debilidad de los estudios previos ha sido que el puntaje de propensión ha sido frecuentemente estimado utilizando hallazgos anatomopatológicos, lo que es una información postoperatoria. Cualquier decisión en relación con el abordaje quirúrgico puede ser influenciado sólo por factores preoperatorios, tales como el estadio clínico TNM. La adopción del estadio TNM anatomopatológico viola obviamente la secuencia temporal de causa-efecto en la estimación de la propensión. Los autores de este trabajo han discutido la dificultad de la estimación de la propensión para las intervenciones quirúrgicas en artículos previos [27,28,38].
Este estudio tiene también algunas ventajas sobre los ECR convencionales, en términos tanto de validad interna como externa. A través de una estimación precisa de los puntajes de propensión basada en su encuesta, todos los factores de confusión conocidos fueron ajustados mucho mejor en el estudio que en un ECR. Por lo tanto, este estudio puede ser considerado como un intento epidemiológico de acercarse a la verdad, abarcando las características de un estudio observacional bien diseñado o de un ECR para el cual todos los factores de confusión, incluyendo los desconocidos, son ajustado automáticamente.
Algunos artículos de revisión recientes han evaluado la calidad del APP [20,21,39,40]. Esas revisiones mostraron que el APP puede en ocasiones sobreestimar la eficacia de las intervenciones, mientras que algunos estudios utilizando el APP han conducido casi a las mismas conclusiones que los ECR. La precisión del puntaje de propensión apareado parece variar dependiendo de la cuestión en investigación o del tipo de resultado investigado [20]. Dado que los resultados de los ECR apuntan a evaluar la misma cuestión en investigación que será publicada posteriormente [7,8], los autores de este trabajo deberían ser capaces de evaluar la validez de su estudio mediante una comparación de esos resultados.
Una característica notable de la metodología de este estudio es un aumento en la validad externa, aún sobre muchos ECR. Dado que los pacientes que enrolaron fueron adquiridos consecutivamente de todas las instituciones participantes, muchos pacientes que podrían no haber ingresado en un ensayo clínico fueron incluidos en los análisis, tales como aquellos con comorbilidades severas, los añosos o aquellos que requirieron cirugía de emergencia. Por lo tanto se fue capaz de asegurar un alto grado de validez externa. Los ECR que apuntan a establecer la eficacia de una nueva intervención frecuentemente necesitan sacrificar la validez externa para aumentar su validez interna.
Como resultado de ello, los pacientes realmente enrolados en un ensayo tienden a constituir sólo una pequeña proporción del total de pacientes candidatos que podrían recibir la intervención en cuestión en el mundo real. Lo mismo sería valedero para la calidad de las intervenciones quirúrgicas: en ensayos randomizados de intervenciones quirúrgicas es bastante difícil asegura la homogeneidad de la calidad de las intervenciones quirúrgicas, a diferencia de los ensayos clínicos sobre terapias con drogas. Eso ha sido relacionado con una inevitable limitación de los ECR de las intervenciones quirúrgicas, pero esa limitación no debería aplicarse a este estudio retrospectivo de cohorte, porque los autores incluyeron a todos los cirujanos que realizan GA, GL o ambas, en las instituciones participantes.
Finalmente, este estudio tiene ventajas éticas y pragmáticas sobre los ECR en ciertos aspectos. Los ECR son siempre obstaculizados por una cortedad de los participantes registrados y tienen a requerir un largo período antes de que pueda completarse el seguimiento oncológico. Incluso mientras se esperan los resultados, los avances en las técnicas quirúrgicas o los dispositivos mecánicos habrán tenido lugar [41]. En consecuencia, existe una posibilidad de que aún si los ensayos brindaron resultados positivos, éstos no conducirían a cambios en el tratamiento estándar porque las técnicas quirúrgicas pueden haberse vuelto más refinadas durante ese lapso. De hecho, la GL ya ha sido aceptada como un procedimiento estándar en muchos países, aún antes de la publicación de los resultados de los ensayos clínicos [19]. En esa situación, el problema ético de los pacientes asignados al azar sin consideración de los avances técnicos o mecánicos parece ser una cuestión importante que necesita ser evaluada.
Existen varias limitaciones importantes para este estudio. Primero, no hay garantía de que todos los factores de confusión estuvieran incluidos en la base de datos. Puede ser posible haber pasado por alto factores no apreciables o desconocidos pero importantes. Además, es necesario discutir la posibilidad de que estos resultados pudieran ser extrapolados a pacientes con cáncer gástrico en otras partes del mundo. La epidemiología y tratamiento del cáncer gástrico en los países del este asiático es similar al presente estudio. En los países occidentales, particularmente en Norteamérica, puede haber no obstante factores desventajosos significativos en el tratamiento quirúrgico.
Ellos incluyen un mayor índice de masa corporal (IMC) en los pacientes y una mayor proporción de pacientes con cáncer en estadio avanzado y en el tercio superior, requiriendo una gastrectomía total. Es importante señalar que no se conoce si los resultados de esta serie podrán ser reproducidos en pacientes con un IMC más alto, como muchos de los pacientes con obesidad severa (IMC > 35 m2/kg) vistos en el mundo occidental. Aunque el alto IMC ha sido relacionado con una mayor incidencia de complicaciones postoperatorias y mayor duración de las operaciones en reportes previos, eso no ha demostrado que contribuya con el pronóstico oncológico [42-45].
Los autores hipotetizan que si se siguen principios oncológicos similares, los pacientes con obesidad severa pueden tener resultados similares, dado que la cirugía laparoscópica ha sido aplicado con seguridad y rutinariamente en el mundo occidental en esos pacientes para otras indicaciones. Otra cuestión clínica es el uso potencial de la GL para casos más avanzados tales como los tumores con invasión de la serosa o pacientes con metástasis linfáticas abultadas. Los autores planean realizar una futura investigación para mostrar los resultados de los casos avanzados usando el mismo diseño riguroso de estudio, una vez que hayan más datos disponibles.
En conclusión, mientras que es conocido que la GL tiene resultados postoperatorios similares que la cirugía abierta, este es el primer estudio de su tipo en mostrar que los resultados oncológicos a largo plazo son también similares para esos dos procedimientos. Los métodos de APP avanzado, tales como los empleados en este estudio, deberían ser considerados en trabajos futuros para evaluar los intervenciones quirúrgicas con múltiples factores potenciales de confusión o cuando los ensayos clínicos no son factibles.
Comentario y resumen objetivo: Dr. Rodolfo D. Altrudi