Los productos OLAP-on-Hadoop aportan estructura de datos al big data, optimizando tanto el rendimiento como la escalabilidad, permitiendo a los usuarios consultar y analizar grandes volúmenes de información a la velocidad del pensamiento.
OLAP parece la antítesis del big data ya que recuerda a los enfoques de la vieja escuela para la gestión y análisis de datos. Pero algunas técnicas de big data sólo pueden tener éxito si todo el mundo dentro de una organización puede beneficiarse de ellas.
Hay quienes preferirían escribir Java o SQL contra los datos en bruto de Hadoop, y quienes les gustaría más ejecutar sentencias SQL en Hadoop. Pero la mayoría prefieren acceder a una estructura de datos diseñada y construida de antemano por un arquitecto de datos.
OLAP on Hadoop
Se trata de un subconjunto de herramientas analíticas que parecen revivir el viejo concepto de procesamiento analítico en línea (OLAP) adaptándolo para Big Data. Estas herramientas logran niveles más altos de rendimiento y escalabilidad que otras soluciones.
Los productos denominados OLAP-on-Hadoop dimensionalizan los datos y los presentan en un formato amigable para el negocio. Con OLAP, los usuarios de negocio visualizan métricas como dimensiones comunes. Por ejemplo, los ejecutivos pueden examinar las ventas por producto, región y hora. Con un clic del ratón, pueden intercambiar métricas, agregar o filtrar cotas, ejes de pivote y explorar desde vistas resumidas del rendimiento empresarial a datos en bruto. En otras palabras, OLAP facilita a los usuarios empresariales un análisis de datos presentado de la misma forma en que ven el negocio.
Para dimensionalizar los datos, los productos OLAP-on-Hadoop requieren que los diseñadores modelen los datos para analizar, combinar, integrar, limpiar y validar, antes de que los usuarios lo consulten. La mayoría de los productos OLAP en Hadoop no sólo modelan los datos de antemano, sino que los materializan. Crean nuevas estructuras de datos agregadas que se cargan en la memoria o en bases de datos columnares de alto rendimiento. Este es un esquema de escritura, que si escuchas a la gran comunidad de datos, ya no está de moda, pero ciertamente es útil para consultar big data.
Optimización de la escalabilidad y el rendimiento
Al modelar, calcular y almacenar agregados dimensionales de antemano, los productos OLAP-on-Hadoop logran escalabilidad y rendimiento en un entorno de big data. Resuelven el problema de escalabilidad manteniendo los datos en Hadoop donde el almacenamiento es barato, permitiéndoles generar enormes cubos dimensionales con terabytes o más de datos. Y resuelven el problema de rendimiento mediante la pre-agregación de datos en caché de datos de alta velocidad, proporcionando análisis de velocidad de pensamiento contra big data.
Muchas compañías recurren a los productos OLAP-on-Hadoop una vez que descubren que otros enfoques para el análisis de big data no funcionan. Muchos quieren usar Hadoop para reemplazar un data warehouse, pero rápidamente descubren que las herramientas simplemente no responden cuando se crea un cuadro de mando con una lista de selección con 480 mil millones de filas de datos.
Tal vez te interese leer:
Datos primarios y secundarios para explicar big data y data exhaust
Disección de productos OLAP-on-Hadoop
Hay una división en la comunidad OLAP-on-Hadoop sobre la mejor manera de dimensionalizar los datos en Hadoop:
- Cubos físicos. La mayoría de los productos utilizan un enfoque MOLAP donde crean una estructura de datos dimensional físicamente distinta (o cubo) dentro de Hadoop. Una vez que se crea el cubo, el rendimiento es consistentemente rápido. Pero la desventaja es que puede tomar horas calcular el cubo, y las consultas sólo se ejecutan contra el cubo, no contra los datos brutos que formaron el cubo, lo que significa que los usuarios no obtienen los datos más actualizados posible.
- Cubos virtuales. Otros productos crean cubos virtuales contra los datos en bruto, que es más como un enfoque ROLAP. Esto proporciona a los usuarios acceso a datos en tiempo real y evita el costo inicial de la construcción de cubos. Pero potencialmente perjudica el rendimiento de la consulta ya que construye vistas dimensionales sobre la marcha.
Además de los enfoques arquitectónicos, los productos OLAP-on-Hadoop difieren de otras maneras. Algunos tienen sus propias herramientas de visualización, otros no, o dan a los clientes la opción de usar una herramienta de terceros. Algunos materializan cubos en la memoria, mientras que otros almacenan agregados en un estructura de datos basada en disco. Algunos almacenan cubos en formatos propietarios, mientras que otros usan formatos de código abierto. Algunos tienen sus propios repositorios de metadatos y motores analíticos, mientras que otros utilizan herramientas de código abierto.