Sus datos serán masivos, los grandes datos de mayor tamaño, y además de largo. La genómica, una ciencia nacida hace apenas tres lustros se convertirá en la mayor contribución al Big Data antes de que transcurran otros tantos, según afirma un grupo de científicos estadounidenses que acaba de publicar un trabajo en la revista PLoS Biology.
Las redes sociales no generarán tantos datos electrónicos como la ciencia que estudia el genoma. Un océano de información siempre con marea alta, que ocupará la mayor parte del desbordante universo del Big Data, apuntan científicos del Centro de Biología Cuantitativa Simons y especialistas en datos de la Universidad de Illinois de Urbana Champaign.
Si las redes sociales o Internet en su conjunto generan cientos de petabytes al año, y están en constante crecimiento, la genómica también arroja unas cifras de auténtica locura que, según los expertos, supera a aquellos en volumen y ritmo de crecimiento.
En efecto, ningún otro ámbito va a resultar tan prolífico en clave de Big Data como el del genoma, cuyo objetivo es capturar, almacenar, procesar y analizar la información biológica que se encuentra codificada en el genoma.
Si la generación de datos genómicos prosigue al ritmo actual, ésta seguirá duplicándose cada 7 meses. En solo una década, la cifra podría superar los 40 exabytes anuales. En concreto, para 2025 se ha calculado que esa cifra se moverá entre los 2 y los 40 exabytes.
Hasta la fecha, se han generado cerca de 250.000 secuencias, el equivalente a 25 petabytes, pero las necesidades de espacio se dispararán y ya en 2025 se estima que 1.000 millones de personas hayan secuenciado sus genomas. Además, previsiblemente la cifra se multiplicará en cuanto se abaraten los precios de estas operaciones, actualmente solo al alcance de los más adinerados.
Traducirla al lenguaje digital para lograr todos esos objetivos es, de acuerdo con el informe, un gran desafío, no exento de obstáculos. Los principales problemas surgen a la hora de adquirir, almacenar, distriburir e interpretar los datos, cuatro desafíos que convierten a la genómica en una "bestia de cuatro cabezas", señalan.
Tal vez te interese leer:
¿Qué son las bases de datos multidimensionales?
Los datos biológicos con los que trabaja la genómica se encuentran dispersos y, por lo tanto, adolecen de problemas relacionados con esta falta de centralización, que sería clave para obtener los mejores resultados de su estudio.
Sus dos problemas clave, concluye el estudio, son su dispersión, pues "se generan y consumen en muchos lugares", así como su falta de una mínima homogeneidad, pues ni siquiera cumplen unos estándares mínimos, adoptando distintos formatos.
Conforme aumenta la generación de datos genómicos, más pesan estos problemas, con las dificultades que ello supone para su inteligibilidad y su aprovechamiento conjunto con fines científicos de muy diversa índole, entre los que se encuentra la información médica.