Novedades ILEE

Nuestras Novedades

A través de esta sección le mantenemos informado de las novedades del Instituto y otras informaciones de interés

EL BIG DATA, EL SALTO CUALITATIVO DE PENSAR A LO GRANDE por David Rojo

Instituto para el Liderazgo Estratégico de España (ILEE)

El big data, el salto cualitativo de pensar a lo grande

David Rojo

Una traducción literal del concepto de big data sería la de datos grandes. Pero, ¿hay acaso datos pequeños? En este sentido es más justo definir el big data como un conjunto amplio de datos, cada uno de los cuales se corresponde con un registro individual en el que se ha recogido cierta información, sea esta de la naturaleza que sea. Sin embargo, el big data no es solamente una mera acumulación, lleva asociado algo más, que -sin ánimo de ser taxativo- se podría situar en su estructura interna y en las metodologías de análisis derivadas de esta, las cuales permiten el tratamiento masivo de grandes volúmenes de información. Así, a partir de big data, es posible inferir patrones de consumo, preferencias políticas o modelos económicos, por citar solo algunos ejemplos que están cambiando nuestra manera de ver el posicionamiento estratégico.

No obstante, esta línea de pensamiento tendente de lo particular a lo universal no es nueva ni está circunscrita a ningún ámbito específico del saber. En la actualidad el neologismo -ómico, del inglés -omics, es uno de los sufijos más de moda en el argot de las Ciencias Biológicas cuyo significado denota la idea de totalidad o conjunto. Así han ido surgiendo en las últimas décadas los términos de genómica (1986), proteómica (1995) y metabolómica (2001), hoy ramas del saber consolidadas.

Las Ciencias Biológicas en su sentido moderno necesitan medir, es decir, necesitan disponer de datos numéricos matematizables y por tanto están indefectiblemente unidas a la Química Analítica. Pero, ¿ha sido esta una concurrencia casual basada solamente en la necesidad de medir? En perspectiva diacrónica podríamos trazar un cierto paralelismo entre ambas historias. Si inicialmente la Biología se dedicó a catalogar a los seres vivos y desde esta concepción a buscar similitudes hasta desarrollarse la idea de evolución, por su parte la Química Analítica centró su atención en la determinación de uno o varios analitos en una muestra problema. Así planteadas ambas compartían una tendencia al reduccionismo. Avanzando en el tiempo, quizá no sea casual que fuese un biólogo, el austriaco Ludwing von Bertalanffy, quien en 1968 publicase un libro titulado General System Theory [1]. En él se dio carta de naturaleza al enfoque contrario, es decir, al de no segmentar los casos de estudio abordándolos desde una óptica multidisciplinar. No obstante, esta noción llevaba ya un tiempo en el ambiente pues en 1928 había sido el propio Bertalanffy quien acuñó el término biología de sistemas [2]. Por su parte, en Química Analítica hubo que esperar hasta la introducción del paradigma ómico para la superación de la perspectiva clásica, cosa que recién cruzado el umbral del siglo XXI ha planteado un notable desafío en el campo.

Este enfoque holístico requiere de un avanzado conjunto de instrumentos, desde técnicas de secuenciación a equipos de espectrometría de masas o resonancia magnética nuclear. Con experimentos cada vez más complejos en marcha, tanto en número de muestras como en complejidad del caso biológico, el último bloque de herramientas de las que ha necesitado servirse el Ciencias Biológica-Química Analítica es el de las relacionadas con la bioinformática y las técnicas computacionales, es decir, metodologías de procesamiento de big data. Así se han desarrollado potentes algoritmos tales como el principal components analysis (PCA) o el hierarchical clustering analysis (HCA), en cuya base subyace en último término la idea de matematización del sistema biológico planteada por Ludwing von Bertalanffy. Según se considere a cada una de las variables individualmente o en relación con las demás, se distinguen dos grandes grupos de test: los univariantes y los multivariantes.

El test estadístico univariante por excelencia es el t-test. Un t-test de dos colas se usa típicamente para contrastar una hipótesis mediante la diferencia significativa de medias, asumiendo una misma distribución de varianzas en ambos grupos. Se considera que una variable es significativa -y por tanto responsable de la separación de los grupos- cuando su p valor es igual o inferior a 0.05. Este mismo procedimiento puede usarse para comparar más de dos clases, en cuyo caso el test aplicado será un one-way analysis of variance (ANOVA). Este se basa en la construcción de un nuevo conjunto de variables mediante combinación lineal de las originales de tal modo que maximicen la diferencia de la media respecto de la varianza. Una idea similar es la usada por el two-ways ANOVA, si bien aquí se incluye el contraste simultáneo de dos hipótesis. En esta línea, el test más sofisticado sería aquel que no solo contrasta varios grupos simultáneamente sino también más de dos hipótesis, este es el multivariate analysis of variance (MANOVA). Análogo al t-test pero para distribuciones no normales de datos o cuando el número de observaciones es demasiado pequeño para asegurarlo es el test de Mann-Whitney U.

Sin embargo, el big data implica considerar todas las variables en su conjunto, pues cada una de ellas no tiene mayor sentido de manera aislada. Esto requiere métodos estadísticos multivariantes, los cuales pueden dividirse en dos grandes conjuntos: métodos de análisis de factores (factor analysis methods) y métodos de clasificación (classification methods).

El análisis de componentes principales (principal components analysis, PCA) es un caso particular de análisis de factores basado en el cálculo de una “nueva” “variable de variables” (en otros textos directamente denominada componente principal) a partir de una matriz de correlaciones, típicamente una matriz de covarianzas, de tal manera que dicha nueva variable explique la máxima dispersión existente entre los individuos. Otro método de análisis de factores es el análisis discriminante (discriminant analysis) cuyo propósito es descubrir las variables responsables de la diferencia entre grupos. En este punto se impone la introducción de dos nuevos conceptos: los de análisis supervisado y no supervisado. El primero asume, con independencia del test utilizado, la introducción de clases que agrupen a las muestras, cosa que se ignoraría en el segundo. En este sentido el método partial least squares (PLS) se basa en un análisis doble de componentes principales al buscar qué variables maximizan la separación de covarianzas entre los grupos previamente definidos. Por su parte, los métodos de clasificación son aquellos que consideran solo uno de los vectores de la matriz -filas o columnas- y no ambos a la vez, como hacen los anteriores. Este conjunto de métodos agrupa a los vectores elegidos en función de un criterio de “distancia” permitiendo así la matematización de su diferencia. Nuevamente aquí encontramos métodos supervisados y no supervisados, respectivamente K-means methods e hierarchical methods (también conocidos como hierarchical component analysis: HCA). Los primeros clasificarán los vectores en función del número predefinido de clases mientras que los segundos comenzarán agrupando a los dos más próximos y continuando así hasta completar todo el dendrograma.

Definir nuevas variables equivale en definitiva a crear modelos matemáticos a partir de los cuales se puede interrogar a la distribución sobre las características individuales en las cuales se está interesado. En esencia en esto consiste el tratamiento de datos en big data, pues es de esperar que ciertos grupos de variables (cada uno de los datos individuales) tengan patrones de distribución relacionados. Por ejemplo, en un delantero de un equipo de fútbol sería de esperar una correlación entre su precisión en el tiro y su velocidad; en un determinado grupo de votantes cabría esperar que su visión sobre el sistema impositivo se relacione con su actitud hacia el gasto público, etcétera. Mediante estas herramientas y según sea la calidad del dato de partida se pueden hacer potentísimas inferencias, cuyas predicciones se basan en miles o millones de casos individuales, lo cual disminuye sustancialmente los falsos positivos, un problema clásico en este tipo de estudios. Obviamente, el conjunto de test estadísticos finalmente aplicados dependerán del caso de estudio en cuestión pero, fueran cuales fuesen ambos, nunca ha de olvidarse que, tal y como expresó Jean Paul Benzécri [3], un modelo debe derivarse de los datos, [y] no al contrario.

Centrándonos en la Ciencias de la Salud, quizá uno de los aspectos del big data que resulta más sugerente a nivel clínico es la potencial identificación de nuevos biomarcadores que contribuyan a superar los actuales test diagnósticos, mejorándolos en selectividad, especificidad, detección temprana e incluso permitiendo matizar entre fases de una enfermedad. Tal es el caso de la búsqueda de marcadores de aneurisma de aorta abdominal [4], patología asintomática que produce el ensanchamiento anormal de dicha arteria, la cual carece de marcadores diagnósticos y que cuando se detecta a tiempo tiene una fácil operación que de no llevarse a cabo puede llegar a producirse la súbita ruptura de dicho vaso sanguíneo con muy mal pronóstico. Un estudio piloto ha demostrado que los perfiles de plasma se pueden diferenciar no solo dependiendo de si pertenecen a pacientes o controles, sino también en función del tamaño del aneurisma. Por otro lado, la diabetes gestacional es otro caso de gran incidencia (entre 10 y 14% de los embarazos) y que supone un notable riesgo para la madre y el feto. En la actualidad se detecta en las semanas 22-24 de gestación con el test de glucosa oral, metodología bastante invasiva. En aras de su superación, se han identificado en plasma metabolitos [5] capaces de diagnosticar la patología con un elevado grado de sensibilidad y selectividad, incluso mayor que el propio test y se está trabajando en la detección temprana. En otros estudios también se ha aplicado este tipo de aproximaciones para la caracterización de marcadores de resorción ósea en el plasma de buceadores profesionales [6] lo cual permitirían ponderar la necesidad de interrumpir la actividad tras un análisis de rutina.

Sin ánimo de extendernos, otro grupo interesante de aplicaciones del big data se halla en la terapéutica, área en la cual la información generada permite tanto definir la diana para un medicamento como elucidar su mecanismo de acción/resistencia. Sirva como ejemplo un estudio en en el que se evaluaron la mitomicina C y la rapamicina en el tratamiento de un cáncer de páncreas específico [8] en lo que se considera la línea de la medicina personalizada. Este ensayo permitió explicar por qué, aunque la terapia combinada de ambos medicamentos parecía la prescripción adecuada, a la vista de las modificaciones genéticas encontradas en el tumor solo la terapia con mitomicina C ofrecía resultados, pues la rapamicina reactivaba rutas que la mitomicina interrumpía contrarrestando su acción en lugar de complementarla. Otra muestra al respecto son los trabajos realizados en leishmaniais, una de las enfermedades más graves que afecta principalmente a países en vías de desarrollo, cuyo tratamiento más clásico son las sales de antimonio y que, tras más de sesenta años de uso en clínica, todavía hoy son inciertos los motivos por los que se generan resistencias [9].

A través de estas líneas, y sin ánimo de ser exhaustivos, hemos pretendido ofrecer desde una óptica sencilla algunas ideas entorno al big data y su enorme potencial, particularmente en Ciencias Biológicas. Los tiempos cambian y las sociedades en las que vivimos afrontan retos cada vez más complejos cuya solución ya no pasa por enfoques reduccionista, aun cuando pueda haber multitud de riesgos derivados del mal uso de los grandes volúmenes de información. Al margen de estas posibles malas prácticas, sin lugar a dudas, una aproximación global, con un tratamiento de datos robusto, nos abrirá muchas puertas las cuales hoy estamos empezando a atisbar.

Bibliografía
[1] Von Bertalanffy, L., New York: Braziller 1968.
[2] von Bertalanffy, L., Kritische Theorie der Formbildung, Gebrüder Borntraeger 1928.
[3] Benzécri, J.-P., Dunod, Paris 1973, 619.
[4] Ciborowski, M., Teul, J., Martin-Ventura, J. L., Egido, J., Barbas, C., PLoS One 2012, 7, e31982.
[5] Dudzik, D., Zorawski, M., Skotnicki, M., Zarzycki, W., Kozlowska, G., Bibik-Malinowska, K., Vallejo, M., García, A., Barbas, C., Ramos, M. P., J Proteomics 2014, 103, 57-71.
[6] Ciborowski, M., Javier Rupérez, F., Martínez-Alcázar, M. P., Angulo, S., Radziwon, P., Olszanski, R., Kloczko, J., Barbas, C., J Proteome Res 2010, 9, 4131-4137.
[7] Fowler, S. J., Basanta-Sanchez, M., Xu, Y., Goodacre, R., Dark, P. M., Thorax 2015, 70, 320-325.
[8] Navarrete, A., Armitage, E. G., Musteanu, M., García, A., Mastrangelo, A., Bujak, R., López-Casas, P. P., Hidalgo, M., Barbas, C., Pharmacol Res Perspect 2014, 2, e00067.
[9] Rojo, D., Canuto, G. A. B., Castilho-Martins, E. A., Tavares, M. F. M., Barbas, C., López-Gonzálvez, Á., Rivas, L., PLoS ONE 2015, 10, e0130675.

Compártelo en las redes sociales

;

Log In

create an account