800 ordenadores aceleraron la recta final
Deprisa, deprisa. Si en algo se ha distinguido PE Celera Genomics desde que hiciera su aparici¨®n en el a¨²n confuso mundo de la gen¨®mica, es en dar sentido al nombre escogido para la compa?¨ªa. "Los descubrimentos no pueden esperar", es el lema, a modo de reto, de la empresa que dirige Craig Venter. Un desaf¨ªo que s¨®lo puede entenderse por su af¨¢n por ser el primero en llegar a la meta. Y para ello, nada mejor que el m¨¢s moderno y veloz de los b¨®lidos de la era inform¨¢tica.La apuesta de Venter para lograr ser el primero en secuenciar el genoma humano se bas¨® en un dise?o abierto en el que ha jugado un papel esencial un entramado de secuenciadores robotizados, potentes ordenadores trabajando en paralelo y enormes bases de datos, algo as¨ª como un gigantesco almac¨¦n inform¨¢tico sobre el que construir su base de negocios futuros, adem¨¢s de una red de telecomunicaciones para dar salida a sus logros.
A este dise?o "acorde con los nuevos tiempos", seg¨²n el propio Venter, Celera sum¨® una aproximaci¨®n al genoma similar en la forma, pero distinta en el fondo, a la empleada por el consorcio p¨²blico Proyecto Genoma Humano. Poseedores de una potencia tecnol¨®gica que se resume en cerca de 300 kil¨®metros de fibra ¨®ptica y otros tantos de cable de cobre convencional que interconectan a casi 800 ordenadores, los cient¨ªficos de Celera optaron por trocear la larga cadena de DNA en tantos fragmentos como sus m¨¢quinas fueran capaces de leer. El m¨¦todo, denominado gr¨¢ficamente shotgun, permiti¨® leer la friolera de unos tres millones de fragmentos de ADN.
Recomposici¨®n
La cr¨ªtica no se hizo esperar. ?C¨®mo recomponer tantos fragmentos en su orden exacto? La respuesta la dio Venter con Drosophila melanogaster, la popular mosca del vinagre. En un tiempo r¨¦cord, y acompa?ado esta vez de investigadores de centros p¨²blicos de todo el mundo, publicaba en la revista Science el pasado mes de abril la secuencia completa del genoma de la mosca, su ensamblado y la predicci¨®n de los poco m¨¢s de 19.000 genes que lo componen. Emple¨® el mismo m¨¦todo y el grado de confianza otorgado a los resultados mereci¨® el aplauso de la comunidad cient¨ªfica a pesar de los 1.200 agujeros que dej¨® por rellenar.
La secuenciaci¨®n de los tres millones de fragmentos en que hab¨ªan convertido el genoma humano tambi¨¦n se realiz¨® en tiempo r¨¦cord. Seg¨²n datos de la compa?¨ªa, los secuenciadores robotizados empleados en el proceso tienen capacidad para efectuar 300.000 reacciones qu¨ªmicas con las que generar 150 millones de pares de bases. A esta velocidad, bastaron siete meses para leer los algo m¨¢s de 3.000 millones de pares de bases que forman el genoma humano o, en t¨¦rminos de tecnolog¨ªas de la informaci¨®n, un largu¨ªsimo c¨®digo compuesto por nada menos que 6.000 millones de letras. La lectura de esas letras fue posible gracias al uso de unos 600 ordenadores facilitados por la empresa inform¨¢tica Compaq dotados con dos procesadores Alfa cada uno. Todos ellos trabajando en paralelo para lograr un conjunto que alcanza una potencia de c¨¢lculo de 1,4 teraflops (1,4 billones de operaciones de coma flotante), la mayor hasta la fecha en el campo de la gen¨®mica y entre las mayores en el ¨¢mbito de las aplicaciones civiles.
Pero esas letras, las cuatro bases que dan forma al c¨®digo gen¨¦tico (G, C, A y T, las iniciales de guanina, citosina, adenina y timina), responden a unas reglas del juego muy precisas. Primero, se agrupan en pares, siempre los mismos; cada tres pares se combinan para codificar cada uno de los 20 amino¨¢cidos que existen en un organismo como el humano; y unos cuantos cientos de amino¨¢cidos son lo que acaban formando una prote¨ªna, la cual no es otra cosa que la expresi¨®n de un gen. Para identificar las decenas de miles de genes que forman el genoma humano es preciso ordenar correctamente todas las letras. Es lo que t¨¦cnicamente recibe el nombre de secuenciaci¨®n y ensamblaje.
Para el ensamblaje hay que superar al menos dos escollos. Por una parte, los muchos agujeros que quedan por rellenar. En el genoma de Celera ni m¨¢s ni menos que 40.000. Entre ellos, no obstante, se duda que pueda haber informaci¨®n relevante para sus intereses. M¨¢s all¨¢ de los agujeros, queda por ver hasta qu¨¦ punto la recomposici¨®n de fragmentos va a ser fiable. Para que las secuencias ensambladas se den como seguras se ha considerado hasta ahora, y as¨ª se defiende desde el consorcio p¨²blico, que a cada fragmento deben superpon¨¦rsele otros diez. Dicho de otro modo, debe haberse fragmentado y secuenciado el genoma unas diez veces de promedio y luego superponer los fragmentos para comprobar si coinciden las secuencias obtenidas.
Celera Genomics considera que una superposici¨®n de cinco veces, la mitad, es suficiente. Para ello cuenta con un novedoso algoritmo dise?ado por Eugene Myers que complementa los programas utilizados desde el otro bando, el consorcio p¨²blico, que son fundamentalmente, PHRET, PHRAP y GAP, el software m¨¢s extendido entre los grupos de secuenciaci¨®n y ensamblaje de genomas, y a los que, seg¨²n afirma el propio Myers, se ha logrado superar en eficacia.
Logrado el ensamblaje, queda un tercer trabajo pendiente, para la gran mayor¨ªa el m¨¢s importante. Lo que realmente cuenta en opini¨®n de los expertos es qu¨¦ hacer con la secuencia, es decir, c¨®mo traducir los 6.000 millones de G, T, C y A en genes y determinar posteriormente su funci¨®n. Y, hacerlo r¨¢pido para que las multimillonarias inversiones efectuadas hasta la fecha tengan sentido.
El primer l¨ªmite para predecir genes, explica Roderic Guig¨®, investigador del Instituto Municipal de Investigaciones M¨¦dicas (IMIM) de Barcelona y experto en bioinform¨¢tica, es localizar la peque?a franja codificante del genoma, estimada entre un 2% y un 5%. Quiere ello decir que entre un gen y otro hay largas secuencias interg¨¦nicas que no se traducen de ninguna forma y cuya funci¨®n es por ahora irrelevante o desconocida. Y dentro de cada gen hay que distinguir todav¨ªa entre dos ¨¢reas: los exones, que reunidos determinan la expresi¨®n de una prote¨ªna, y los intrones, peque?as secuencias de valor igualmente nulo o desconocido.
"Los programas predictores pretenden ver c¨®mo se traducen las secuencias de exones en prote¨ªnas", contin¨²a. Por tanto, deben identificar primero las secuencias que definen a los genes y descartar el resto, pr¨¢cticamente el 95%. En el mercado, se?ala el experto, existen una veintena de programas predictores, cada uno de los cuales se basa en una aproximaci¨®n distinta. Todos ellos emplean tres fuentes de informaci¨®n b¨¢sicas. La primera consiste en emular los pasos que da la c¨¦lula en su proceso de expresi¨®n del DNA. "La c¨¦lula sabe leer la secuencia" explica Guig¨®, y lo hace a partir de una serie de se?ales que determinan cu¨¢ndo un gen debe o no activarse. Estas se?ales, a?ade, se encuentran en los l¨ªmites de exones e intrones. Una segunda fuente es la periodicidad de determinadas secuencias. "En las regiones que no codifican, la secuencia es m¨¢s aleatoria", indica. Finalmente, se recurre a bases de datos que contienen regiones ya identificadas.
Los programas combinan las tres fuentes empleando para ello sistemas de reglas, redes neuronales, inteligencia artificial, modelos estad¨ªsticos y, m¨¢s recientemente, m¨¦todos ling¨¹¨ªsticos. En todos los casos de lo que se trata es, a partir de miles de millones de letras - G, T, C y A-, componer primero s¨ªlabas, los 20 amino¨¢cidos que, combinados, dar¨¢n palabras y frases, los genes y su expresi¨®n en forma de prote¨ªnas.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.