Investigadores de todo el mundo se apoyaron en el software libre y la red para descifrar los secretos del brote de ‘Escherichia coli’ en Alemania. Unos españoles fueron los primeros en hacer la anotación funcional de la bacteria.
El 2 de junio, el brote de la mortal Escherichia coli estaba en su máximo apogeo. En Alemania habían muerto 17 personas y otras mil llenaban los hospitales. Una potencia científica como la alemana estaba desconcertada. Ni siquiera había conseguido analizar a fondo la genética de la bacteria. Tuvo que ser un equipo chino el que secuenciara su genoma y, 24 horas después, un equipo de bioinformáticos españoles lograban descifrar la secuencia. De no ser por que usaron herramientas de lo que se ha venido en llamar ciencia 2.0 o colaborativa, habrían tardado un año.
«Nos enteramos por Twitter de que los chinos habían conseguido secuenciar el genoma de la bacteria y nos pusimos a trabajar. Nos quedamos sin dormir, porque sabíamos que estábamos ante algo fascinante», cuenta Eduardo Pareja, director general de la empresa granadina de bioinformática Era7 . «En 24 horas teníamos la primera anotación funcional del genoma de la E. coli», añade. Habían localizado unos 5.000 genes y estudiado sus funciones. Como se venía hablando, estaban ante una cepa de la familia de las E. coli enterohemorrágicas (EHEC) pero también presentaba genes de otras variedades menos agresivas pero más resistentes. Localizaron también el gen responsable de la toxina Shiga, la causante del Síndrome Urémico Hemolítico, que ha matado ya a 49 personas.
Pero, como escribiera Isaac Newton en 1675, los bioinformáticos de Era7 no habrían podido llegar tan lejos ni tan rápido si no hubieran caminado a hombros de gigantes que creen que la ciencia avanza más si se comparte la información. El primero fue el Instituto de Genómica de Pekín (BGI). Allí llegaron muestras purificadas del ADN de la bacteria encontrada en enfermos, enviadas por el Hospital Universitario de Hamburgo-Eppendorf el 25 de mayo. El 2 de junio, los investigadores de BGI publicaron los 5,2 megabytes de datos que ocupaba el genoma de la E. coli. En vez de guardárselos para sí y proseguir hasta su descifrado, lo colgaron en internet.
Pero la secuenciación de un genoma sólo es poner en fila millones de trozos cortos (de 100 a 300 combinaciones) de adenina (A), citosina (C ), guanina (G) y timina (T), las moléculas que, a modo de alfabeto, codifican la información genética. Y en el caso de la E. coli hay unos cuatro millones de letras. En un proceso complejo, estas secuencias hay que ensamblarlas en el orden correcto. Eso fue lo que hicieron varios científicos ese mismo día 2, como el británico Nick Loman , del Centro de Biología de Sistemas de la Universidad de Birmingham. Como los chinos del BGI, Loman puso en internet su primer ensamblaje preliminar . Segundo gigante.
«Ya tienes una enorme lista de letras pero te falta su significado», explica Pareja. «Hay que encontrar dónde están los genes y averiguar sus funciones, eso es la anotación funcional y lo que nosotros hacemos», añade. Para ello usan más la informática que la biología. De hecho ni siquiera tienen un laboratorio al uso, con sus probetas, tubos y placas. Hacen lo que se conoce como investigación in silico (por el silicio de los ordenadores) frente a la tradicional ciencia in vivo o in vitro.
Informática en la nube
«Muchos de los hallazgos provienen de analizar datos ya existentes que han obtenido otros», comenta Pareja. Para su trabajo usan sus portátiles, un programa diseñado específicamente por ellos y mucha potencia de cálculo. Pero tampoco tienen grandes servidores; recurren al servicio de informática en la nube de Amazon, alquilándole capacidad de cálculo y almacenamiento para hacer lo que se conoce como secuenciación masiva de nueva generación.
Precisamente, el 2 de junio, una joven bioinformática de Era7, Marina Manrique, estaba presentando en el instituto Sanger de Cambridge (Reino Unido), el centro de referencia de la genómica europea, un sistema de anotación de genomas bacterianos adaptado a las nuevas tecnologías de secuenciación masiva en el que llevaban trabajando dos años cuando se supo la liberación del genoma por parte de los chinos.
«Nos pusimos a hacer la anotación funcional con el sistema que estábamos presentando en el Reino Unido y en 24 horas lo teníamos», explica Pareja. Ellos también se comportaron como gigantes. Crearon un repositorio en internet donde volcar la información que iban obteniendo. Mediante Twitter y blogs, otros miembros de la comunidad científica se apuntaron a la aventura. Usaron también Github, una plataforma online donde varios programadores pueden ir diseñando un nuevo software de forma colaborativa. Como una Wikipedia, pero para el software. Sólo que ellos, en vez de líneas de código, ponían secuencias y anotaciones de genes .
Una quincena de investigadores e instituciones de Alemania, Australia, Reino Unido, EEUU y la propia España aportaron sus hallazgos. Unos, una nueva secuenciación de otra muestra de la bacteria; otros, nuevos ensamblajes y hasta un par de nuevas anotaciones funcionales. «Han sido días apasionantes, donde hemos puesto en práctica la ciencia colaborativa», sostiene Pareja. Para él, el sistema tradicional de publicación de las investigaciones en revistas especializadas sigue siendo bueno, pero es demasiado lento, un hecho que ante un brote como el sufrido en Alemania puede ser de consecuencias catastróficas. «En un escenario clásico, los chinos no habrían publicado sus datos, habríamos tardado de 4 a 6 meses y no días en saber lo que hoy sabemos sobre esta cepa de la E. coli», apunta.
En una carta que se publicará en la próxima edición de la revista The Lancet, una veintena de científicos de todo el mundo que han participado en esta experiencia defenderán la importancia de compartir datos para acelerar el avance de la ciencia. Y la tecnología, en especial internet, las herramientas de comunicación y el software libre permiten una colaboración online entre los científicos muy alejada de su vieja imagen de investigadores encerrados en sus laboratorios sin compartir sus secretos.
El ejemplo más grande de este altruismo científico lo supuso la liberación del genoma humano como datos públicos a disposición de la comunidad. «Aún pasarán siglos hasta que su estudio completo sea finalizado. Con la ciencia 2.0, estos siglos se podrán acortar», opina el director de la compañía granadina.
¿Y Era7 que gana con todo esto? «Con esta anotación, nada, pero regalar conocimiento y valor es una buena herramienta de marketing altruista», comenta Pareja. «Cuando alguien necesite genomas bacterianos, nos buscará a nosotros», añade.
En publico.es