El valor de la gestión de datos

BigQuery, cada vez más atractivo para usuarios de Hadoop

Publicado el 19/05/14 4:00

Cloud computing

Google anuncia mejoras en BigQuery, la herramienta de gestión de Big Data lanzada por el gigante de Internet en 2010 como un servicio capaz de analizar grandes datos dentro y fuera del ecosistema de Apache Hadoop. Con estas profundas actualizaciones, sin embargo, el servicio cloud refuerza su funcionamiento independiente y busca atraer a los usuarios de Hadoop, el actual líder de analítica Big Data.

Mientras la segunda generación de Hadoop intenta superar sus debilidades como la falta de velocidad y la complejidad, así como reforzar sus obvias ventajas, Google enfoca el desarrollo de BigQuery hacia la comercialización del servicio como una alternativa a aquél.

Aunque el BigQuery es compatible con Hadoop y ambos productos han sido directa o indirectamente creados por Google, sus caminos no parecen estar destinados a seguir cruzándose. Si lo hicieron hasta ahora, no obstante Google demuestra querer separarlos cada vez más para mejorar su ventaja competitiva en todos los frentes, incluyendo su rivalidad con Kinesis de AWS.

En efecto, BigQuery busca ser una posible alternativa para la opción de código abierto que presenta MapReduce y el sistema de ficheros distribuido de Hadoop (HDFS). Con la profunda actualización que, entre otras mejoras, permite combinar los resultados de consultas de múltiples tablas de datos, Google pretende explotar la velocidad y el análisis en tiempo real que le proporciona Dremel, el producto en el que se basa el diseño de BigQuery.

 

Descárgate nuestra Guía sobre Big Data

 

Análisis de datos en la nube

Concebido como un servicio que facilita la consulta rápida en la nube a partir del envío de datos a Google por el usuario a través de la API BigQuery, su actualización sigue centrándose en las consultas de tipo SQL. En esta nueva versión, se suman nuevas capacidades junto a la mencionada función de unir datos de varias tablas en una sola consulta mediante una nueva cláusula JOIN, sin límite en el tamaño de los datos.

Hasta ahora, BigQuery sólo podía trabajar con grupos de datos de un máximo de 8MB y, por otro lado, se añaden funcionalidades para importar las marcas de tiempo de otros sistemas, datos de fecha y hora de la consulta o agregar columnas a las tablas existentes y recibir correos electrónicos automáticos cuando se les da acceso a más conjuntos de datos.

En palabras de Ju-kay Kwek, director de producto, los cambios se traducen en más rapidez, simplicidad y facilidad de uso:

Hoy, con BigQuery, se pueden obtener directamente ideas de negocio utilizando consultas tipo SQL, con menos esfuerzo y a una velocidad mucho mayor de lo que antes se podía. La unión de tablas de terabytes de datos ha sido tradicionalmente una tarea difícil para los analistas, ya que hasta ahora requería sofisticadas habilidades de desarrollo de MapReduce, un hardware potente y mucho tiempo.

Su utilización se desvincula por completo del framework del elefante amarillo, planteándose prescindirse de él como una ventaja más del producto. Desde Google aseguran que en lugar de instalarse Hadoop, el uso de BigQuery ahorrará dinero, ya que sólo se paga por cada consulta en lugar de por el coste TI de la infraestructura necesaria para implementarlo. Con eso y con todo, igualmente, Hadoop se creó en su día a partir de tecnologías como MapReduce y Google File para procesar grandes cantidades de datos a muy bajo coste.

Microsoft SQL y la tecnología Hadoop

Por su parte, Microsoft ha presentado recientemente sus soluciones de Big Data desde la nube en pro del Internet de las cosas. A partir de una única plataforma para la gestión y el análisis de datos, su uso de Hadoop se enmarca en una de sus principales novedades: un más rápido SQL Server 2014 y sus módulos de análisis Intelligent Systems Service (IIS) y Analytics Platform System (APS).

La última versión de APS es un producto de bajo coste gracias a la combinación de la tecnología de Hadoop y Microsoft SQL para ofrecer un Data Warehouse que almacena y gestiona los datos tradicionales junto con los de última generación.

Como nuevo servicio de Azure, se presentó Microsoft Azure Intelligent System Service (ISS), una herramienta pensada para operar desde cualquier sistema operativo con el objetivo de sacar provecho de la información generada desde muy distintas fuentes, como máquinas, sensores o dispositivos. Igualmente, se pone a disposición CCC racias a herramientas como Power BI para Office 365 que permite combinar los datos locales y los de la nube de forma complementaria, con el resultado de una veloz gestión de la información.

 

Post relacionados:

 

Enlace a guía gratuita sobre Big Data y Hadoop

Temas: Big Data