Matem¨¢ticas para crear un mapa celular de las enfermedades
Para caracterizar todas las c¨¦lulas humanas hay que incorporar m¨¦todos matem¨¢ticos que permitan extraer toda la informaci¨®n relevante y a la vez simplificarla
Se estima que el cuerpo humano contiene 30 billones de c¨¦lulas organizadas en tejidos. Cada c¨¦lula humana contiene 6.400 millones de nucle¨®tidos de ADN, que se estructuran en unos 20.000 genes codificantes y cada gen puede dar lugar a m¨²ltiples prote¨ªnas. Un consorcio internacional de cient¨ªficos est¨¢ tratando de componer un atlas (Human Cell Atlas) para caracterizar molecular (ADN, genes, prote¨ªnas) y morfol¨®gicamente todas las c¨¦lulas que componen el cuerpo humano. Este tremendo esfuerzo t¨¦cnico y econ¨®mico tiene que incorporar m¨¦todos mat...
Se estima que el cuerpo humano contiene 30 billones de c¨¦lulas organizadas en tejidos. Cada c¨¦lula humana contiene 6.400 millones de nucle¨®tidos de ADN, que se estructuran en unos 20.000 genes codificantes y cada gen puede dar lugar a m¨²ltiples prote¨ªnas. Un consorcio internacional de cient¨ªficos est¨¢ tratando de componer un atlas (Human Cell Atlas) para caracterizar molecular (ADN, genes, prote¨ªnas) y morfol¨®gicamente todas las c¨¦lulas que componen el cuerpo humano. Este tremendo esfuerzo t¨¦cnico y econ¨®mico tiene que incorporar m¨¦todos matem¨¢ticos que permitan extraer toda la informaci¨®n relevante y a la vez simplificarla, para hacerla interpretable. Para hacer frente a este reto, en los ¨²ltimos a?os se han popularizado las t¨¦cnicas de reducci¨®n de la dimensionalidad para el an¨¢lisis de datos de c¨¦lula ¨²nica.
Actualmente podemos caracterizar cada c¨¦lula de manera muy exhaustiva. Por un lado, gracias a complejas t¨¦cnicas de biolog¨ªa molecular, podemos identificar las mutaciones presentes en el ADN de una c¨¦lula concreta o cuantificar la expresi¨®n del cat¨¢logo de genes y prote¨ªnas espec¨ªficamente expresados en ella. Esta informaci¨®n se incorpora en una matriz con m¨¢s de 20.000 filas ¡ªel n¨²mero aproximado de genes expresados en un experimento¡ª, y tantas columnas como c¨¦lulas se est¨¦n analizando, actualmente decenas de miles. Por otro lado, t¨¦cnicas de imagen ¡ªcon cada vez m¨¢s resoluci¨®n¡ª se utilizan para explorar los cambios de forma, tama?o o estructura de cada c¨¦lula.
Nuestra capacidad para estudiar esta gran cantidad de datos generados conjuntamente es muy limitada, debido tanto a su dimensionalidad como a su heterogeneidad. Las t¨¦cnicas de reducci¨®n de la dimensionalidad permiten crear mapas celulares en tan s¨®lo dos dimensiones, escogidas para garantizar que se preserva la mayor cantidad de informaci¨®n posible a la vez que se sintetiza, facilitando la identificaci¨®n de grupos de c¨¦lulas similares o cl¨²sters, su visualizaci¨®n y su posterior interpretaci¨®n. Gracias a estos mapas se han podido identificar y cuantificar nuevos subtipos celulares asociados con la g¨¦nesis y el desarrollo de distintas enfermedades complejas, desde el c¨¢ncer a las enfermedades cardiovasculares.
Las t¨¦cnicas m¨¢s tradicionales de reducci¨®n de la dimensionalidad, como el an¨¢lisis de componentes principales propuesto por Karl Pearson hace ya m¨¢s de un siglo, se basan en la proyecci¨®n lineal de la informaci¨®n en un hiperplano, como una fotograf¨ªa proyecta el mundo tridimensional en el plano de foco. Estas t¨¦cnicas tienen la ventaja de respetar relativamente bien las distancias reales en el espacio de dimensiones reducidas, pero a menudo son incapaces de capturar toda la complejidad contenida en los datos, sobre todo si la relaci¨®n entre las variables del sistema es no lineal, como sucede con las variables moleculares y fenot¨ªpicas que se pueden medir en una c¨¦lula.
Por ello, en la ¨²ltima d¨¦cada se han propuesto nuevas t¨¦cnicas de reducci¨®n de la dimensionalidad no lineales. La idea tras ellas es identificar un nuevo espacio en dos dimensiones que resuma la mayor cantidad de informaci¨®n posible, preservando las distancias locamente, en detrimento de perder, en cierta medida, la estructura global. Esto permite que podamos identificar grupos de elementos similares, por ejemplo, c¨¦lulas, en la representaci¨®n bidimensional, aunque las distancias entre los distintos grupos est¨¦n distorsionadas.
Su comportamiento es similar al de la proyecci¨®n cartogr¨¢fica de Mercator, la m¨¢s utilizada para realizar mapas mundiales, que aumenta la distorsi¨®n de ¨¢reas y distancias a medida que nos acercamos a los polos. A nivel local las distancias se mantienen, es decir, zonas cercanas geogr¨¢ficamente lo est¨¢n en un mapa, pero zonas alejadas no mantienen las distancias cuando atraviesan meridianos, lo cual no impide que el mapa siga siendo ¨²til.
Para lograr su objetivo, estos nuevos m¨¦todos utilizan algoritmos iterativos basados en grafos dirigidos, construidos a partir del c¨¢lculo de distancias entre vecindades de datos, generando fuerzas atractoras o repulsivas en el nuevo espacio de representaci¨®n dependiendo de su similitud. El modo en que se define el concepto de vecindad en cada dato, junto con c¨®mo y en qu¨¦ circunstancias se generan estas fuerzas, es la clave y la principal diferencia entre los distintos algoritmos que podemos encontrar, como t-distributed stochastic neighbor embedding (t-sne) o el m¨¢s reciente Uniform Manifold Approximation and Projection (UMAP).
La teor¨ªa matem¨¢tica detr¨¢s de este ¨²ltimo mezcla conceptos de topolog¨ªa algebraica, geometr¨ªa riemaniana y l¨®gica difusa para generar una representaci¨®n de los datos en forma de grafo; y la teor¨ªa de probabilidades, optimizaci¨®n y programaci¨®n matem¨¢tica para optimizar su representaci¨®n lo m¨¢s fielmente posible en un espacio de dimensiones menores. El resultado es un m¨¦todo de reducci¨®n de dimensionalidad potente, r¨¢pido y escalable, de gran utilidad en el an¨¢lisis de datos multidimensionales y, en particular, en el an¨¢lisis de datos moleculares de c¨¦lula ¨²nica. Pese a sus fortalezas, es crucial entender las matem¨¢ticas subyacentes para interpretar sus resultados de manera correcta.
Estos nuevos algoritmos de reducci¨®n de la dimensionalidad representan bien el tipo de metodolog¨ªas que debemos seguir desarrollando para poder analizar las grandes cantidades de datos biom¨¦dicos que se est¨¢n generando, cuyo volumen y complejidad seguir¨¢ aumentando en las pr¨®ximas d¨¦cadas. S¨®lo con las matem¨¢ticas adecuadas podremos seguir avanzando en el entendimiento de los mecanismos causales de las enfermedades complejas, del c¨¢ncer al Alzheimer y a las enfermedades cardiovasculares y as¨ª, en la implementaci¨®n de la medicina de precisi¨®n.
F¨¢tima S¨¢nchez Cabo es directora de la Unidad de Bioinform¨¢tica del Centro Nacional de Investigaciones Cardiovasculares (CNIC) y profesora asociada de la Universidad Aut¨®noma de Madrid;
Daniel Jim¨¦nez Carretero es t¨¦cnico senior de la Unidad de Bioinform¨¢tica del CNIC.
Caf¨¦ y Teoremas es una secci¨®n dedicada a las matem¨¢ticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matem¨¢ticas (ICMAT), en la que los investigadores y miembros del centro describen los ¨²ltimos avances de esta disciplina, comparten puntos de encuentro entre las matem¨¢ticas y otras expresiones sociales y culturales y recuerdan a quienes marcaron su desarrollo y supieron transformar caf¨¦ en teoremas. El nombre evoca la definici¨®n del matem¨¢tico h¨²ngaro Alfred R¨¦nyi: ¡°Un matem¨¢tico es una m¨¢quina que transforma caf¨¦ en teoremas¡±.
Edici¨®n y coordinaci¨®n: ?gata A. Tim¨®n G Longoria (ICMAT).
Puedes seguir a MATERIA en Facebook, Twitter e Instagram, o apuntarte aqu¨ª para recibir nuestra newsletter semanal.