¿Qué es un sistema de gestión de datos de Big Data?

Escrito por Redacción PowerData | 10/01/17 2:00

Un sistema de gestión de datos de Big Data es un término genérico que tiene que ver con lo que muchas organizaciones necesitan para administrar sus negocios en esta nueva era de Big Data.

Nos referimos a lo siguiente. Cuando las tecnologías Hadoop y NoSQL empezaron a ser populares, algunos de sus primeros seguidores hablaban de ellas como los reemplazos de las bases de datos relacionales. Más recientemente, sin embargo, se ha visto que pueden ser herramientas complementarias.

Para maximizar el valor de Big Data es ideal tener Hadoop y noSQL, pero también es posible mantener algunas partes con sistemas de bases de datos relacionales, siempre que exista una buena integración. Partidarios de Hadoop e incluso grandes empresas, analistas y proveedores, están de acuerdo en que, pese a que las bases de datos relacionales no sean ideales para manejar grandes cantidades de datos, tener todas estos elementos trabajando juntos es lo ideal. Así que, cuando todos estos componentes marchan al unísono, ¿qué es lo que tienes?

La respuesta es simple. Tienes un sistema de gestión de datos de Big Data.

Hemos pasado de gestionar datos, a gestionar Big Data y de un sistema de gestión de base de datos relacional, a un sistema de gestión de datos de Big Data que integra Hadoop, noSQL y tu datawarehouse relacional. Incluso posiblemente otras fuentes de datos.

Pero, ¿sabemos qué es cada una de estas tecnologías de base de datos y cuál es su importancia concreta en este contexto?

Diferentes elementos de un sistema de gestión de datos Big Data

Dentro de una infraestructura informacional, como puede ser un sistema de gestión de datos, conviven distintas tecnologías. Conocerlas permite contextualizar mejor el funcionamiento y capacidades de uno de los recursos más importantes con los que cuenta el negocio hoy día. Se trata de las siguientes:

Base de datos relacional. También conocida como RDBMS en la jerga informática (puesto que en realidad se trata de un sistema en sí: Relational Database Management System), es un elemento fundamental a la hora de estructurar los datos procedentes de Internet. Esto se consigue gracias a su arquitectura, considerada un estándar para la gestión de bases de datos durante décadas, y todavía necesaria para poder trabajar con grandes volúmenes de datos. No obstante, a medida que el tamaño de la información contenida en ella crece, su rendimiento disminuye, al carecer de esa escalabilidad que le permitiría satisfacer el elevado nivel de exigencia del trabajo actual con big data.

Base NoSQL. Con estas siglas se hace referencia a lo que es "No sólo SQL". Esta denominación define un marco de trabajo de alto rendimiento y mucho más ágil en términos de procesamiento para las bases de datos. Sería imposible plantearse la arquitectura de un sistema de gestión de datos actual sin este componente, puesto que se trata de la infraestructura mejor adaptada a las demandas procedentes del big data; Amazon o Google son plenamente conscientes de ello y dos ejemplos claros de su aplicación práctica. La eficiencia de las bases noSQL, en parte, tiene que ver con su configuración. Y es que las bases de datos NoSQL no están estructuradas, por lo que logran entregar velocidad donde las relacionales sólo podían aportar consistencia.

Tal vez te interese leer:
Tipos de implementación de Big Data

Esto se consigue dado su carácter distribuido, que permite que múltiples nodos de procesamiento y, en ocasiones, también diferentes servidores, almacenen los datos no estructurados. La escalabilidad horizontal es el atributo que marca la diferencia principal con las RDBMS.

Hadoop. Probablemente, hoy día deben quedar ya muy pocos que no hayan oído hablar del ecosistema de Hadoop. Y es que, este elemento de un sistema de gestión de datos no es una database, sino un ecosistema software que permite la computación paralela masiva. Hadoop hace posible que los grandes volúmenes de datos queden distribuidos a lo largo y ancho de una red de servidores. En este marco, MapReduce es un componente crítico, puesto que es el que se ocupa de tomar procesos intensivos en datos y distribuirlos a un clúster Hadoop. De esta forma, es posible llevar a cabo en pocos minutos operaciones que, sin este componente hubiesen tardado horas.

Seguramente ahora ves las necesidades de procesamiento de grandes datos de forma distinta. Ganando en comprensión sobre el funcionamiento de un sistema de gestión de datos se puede optimizar la inversión en tecnología y escoger los software y herramientas más adecuados para alcanzar objetivos.

Ver post completo