Mayor cantidad de datos no significa necesariamente mayor conocimiento

El Big Data y el mito de una ciencia sin teoría

¿Son las correlaciones más importantes que la causalidad? El énfasis excesivo en los números y en los datos es otra forma del mito de la objetividad del conocimiento científico

Autor/a: Mazzocchi Fulvio

Fuente: Embo Reports 16(10):1250-1255, Oct 2015

Introducción y objetivos

El proceso de formulación de una hipótesis, seguida por su comprobación experimental y por su reformulación de acuerdo con los resultados experimentales obtenidos, forman el núcleo conceptual utilizado por el método científico tradicional para generar conocimiento consistente. Pero, en la actualidad, algunos investigadores han hecho notar que la generación de cantidades masivas de información podría volver obsoleto el método científico basado en hipótesis y en teorías que pueden ser refutadas o comprobadas por resultados experimentales.

Estos macrodatos representan conjuntos de datos tan grandes que las aplicaciones informáticas tradicionales de procesamiento y los procedimientos habitualmente usados para encontrar patrones repetitivos dentro de esos datos no son suficientes para tratar con ellos. Y su manipulación implica la necesidad de algoritmos sofisticados y de nuevas herramientas estadísticas para encontrar, dentro de estas cantidades masivas de datos, información significativa que pueda ser transformada en conocimiento.

La discusión sobre los méritos relativos de la investigación basada en datos frente a la investigación basada en hipótesis tiene relevancia en muchas áreas del conocimiento, incluidas la bioinformática, la biología de sistemas, la epidemiología y la ecología.

El autor de esta revisión busca analizar el problema desde el punto de vista epistemológico, para responder algunas preguntas clave:

  • ¿Es la investigación basada en datos un modo válido de generación de conocimiento, o representa sobre todo una herramienta para identificar información potencialmente útil?
     
  • Dada la cantidad disponible de datos científicos, ¿es hoy posible descartar el papel de las conjeturas teóricas y de las hipótesis?
     
  • ¿Reemplazará este nuevo modo de reunir información las formas antiguas de hacerlo?
¿Ciencia basada en macrodatos?

La ciencia basada en macrodatos renueva la primacía del razonamiento inductivo, en la forma de un empirismo fundado en una tecnología

La idea de relegar las hipótesis a un papel secundario no es, sin embargo, nueva. El concepto que el conocimiento científico no debería estar fundamentado en ideas preconcebidas, sino en datos obtenidos a través de la experimentación, ya había sido sostenido en el siglo XVII por Francis Bacon, considerado el padre del método científico. El filósofo sostuvo que la anteposición de una premisa a un resultado experimental reducía la amplitud analítica, que trataba de ceñir las conclusiones a esa premisa, lo que implicaba, argumentó, una limitación del razonamiento deductivo.

La ciencia basada en macrodatos renueva la primacía del razonamiento inductivo, en la forma de un empirismo fundado en una tecnología capaz de explorar datos masivos y de extraer información en forma automatizada, con la convicción que este abordaje conduce a nuevos descubrimientos, sin la participación de una hipótesis previa.

Para los sostenedores de este modelo, los procesos inductivos y la manipulación estadística de grandes cantidades de datos descubren correlaciones, patrones y leyes, sin necesidad de una teoría previa. Este abordaje puede ser visto como un generador de hipótesis, en contraste con las pruebas de hipótesis características de la ciencia clásica.

En el centro de este abordaje está el uso de algoritmos inductivos que tienen la particularidad de generar inferencias, que son modificadas por nuevos algoritmos, en un proceso de razonamiento indefinido. Los mejores algoritmos inductivos son capaces de evolucionar y de “aprender”, lo que refina las exploraciones y extracciones de datos subsiguientes. El proceso no está impulsado por una hipótesis determinada. Estas técnicas han producido resultados valiosos en campos como la bioinformática, los ecosistemas y las micromatrices genómicas.

Algunos expertos sostienen que los macrodatos van a producir un cambio radical en la ciencia, y mencionan 3 innovaciones clave que los macrodatos introducen:

  1. El volumen sin precedentes de datos disponibles garantiza un análisis de máxima inclusión, sin necesidad de enfocarse en porciones acotadas de datos. Se elimina la preocupación por el tamaño muestral y por las técnicas de aleatorización.
     
  2. Los macrodatos disminuyen los requerimientos de exactitud y de precisión de los datos analizados, disminuyen los errores de medición y reflejan mejor la complejidad de los fenómenos naturales.
     
  3. Los macrodatos ponen un fuerte énfasis en las correlaciones entre los datos como herramienta heurística para hallar asociaciones no esperables por la sola acción del azar.

Otros investigadores, en cambio, han expresado preocupación por la posible desaparición del muestreo ordenado por pautas estadísticas precisas, y su reemplazo por una inclusión masiva de datos, donde los criterios de selección son desconocidos.

 La tesis de la “no-teoría”

¿Son las correlaciones más importantes que la causalidad?

El autor, si bien concuerda con que los macrodatos representan una oportunidad novedosa para la investigación científica, expresa sus diferencias con la presunta neutralidad de los números o con la tesis que las correlaciones son más importantes que la causalidad.

La generación de enormes cantidades de datos (en el orden de petabytes) y las nuevas técnicas de exploración y de extracción de datos han permitido encontrar patrones relevantes, que a veces no surgen de relaciones lineales, en ciencias como la genómica o la astronomía.

Sin embargo, conocer el porqué de ciertos fenómenos es crucial para alcanzar un nivel de conocimiento que pueda ser usado con confianza en aplicaciones prácticas. Más aún, las correlaciones encontradas en el análisis de macrodatos deben ser sometidas a pruebas ulteriores, para distinguir entre correlaciones significativas y correlaciones espurias.

Una mayor cantidad de datos no significa necesariamente un mayor conocimiento

Para el autor, una mayor cantidad de datos no significa necesariamente un mayor conocimiento, por lo que rechaza explícitamente el concepto repetido que “con suficiente cantidad de datos, los números hablan por sí mismos”.

La tesis de la no-teoría contrasta con el hecho que la recolección de datos no es un proceso puramente empírico, realizado al azar. Más bien, los experimentos son llevados adelante dentro de limitaciones teóricas, metodológicas e instrumentales, muchas veces para probar una predicción teórica en el campo de la experiencia real.

La investigación científica, por otro lado, no tiene lugar en un ambiente de hechos puramente teóricos y experimentales, sino que es llevada a cabo por personas, cuya capacidad cognitiva se ha formado por la amalgama de conocimientos prácticos, valores, preconceptos e improntas culturales, sociales y racionales.

Todos estos factores confluyen en hipótesis explicativas preliminares, que funcionan como conjeturas que deben comprobarse empíricamente, y que indican qué tipo de datos deben recolectarse. Incluso más, estos factores también están presentes en las personas que diseñan los algoritmos de búsqueda de patrones, que luego las computadoras aplican a los macrodatos.

En un terreno más teórico, algunos pensadores han observado que en los descubrimientos científicos considerados revolucionarios juegan siempre un papel crucial las “anomalías” que aparecen durante la investigación. Estas anomalías pueden ser percibidas solo por contraste, y para ello es necesaria una presunción previa de cuál debería ser el comportamiento del fenómeno a observar.

El énfasis excesivo en los números y en los datos es otra forma del mito de la objetividad del conocimiento científico

Incluso después de identificada la anomalía, el proceso ulterior involucra nuevamente la reevaluación de las hipótesis y de las metodologías. Para estos pensadores, el énfasis excesivo en los números y en los datos (aun en cantidades masivas analizadas por computadoras muy potentes) es otra forma del mito de la objetividad del conocimiento científico.

El autor observa que encuadrar el tema de los macrodatos en término de oposiciones (deducción o inducción, análisis con hipótesis o análisis sin hipótesis, hombre o máquina, etc.) lleva a la pérdida de la perspectiva de que ambas estrategias son necesarias y complementarias.

La creatividad humana es aún un componente indispensable en la ciencia

La fase inductiva y la fase deductiva deben ser consideradas como partes inseparables en el ciclo iterativo de adquisición de conocimientos. Los avances tecnológicos deben secundar a los investigadores para generar hipótesis, para evaluarlas y para, eventualmente, rechazarlas. La creatividad humana es aún un componente indispensable en la ciencia.

 Conclusiones

El abordaje centrado en el análisis de datos masivos constituye una nueva herramienta para la investigación científica. Ello no implica, sin embargo, el desplazamiento definitivo de los procedimientos metodológicos y cognitivos tradicionales. No se está en presencia de la era del “fin de la teoría”, sino en la de nuevas oportunidades para el avance de la ciencia.

SIIC- Sociedad Iberoamericana de Información Científica