El valor de la gestión de datos

Hive big data, minando datos con Apache

Posted on Wed, Jun 13, 2018

El concepto de Big Data ya se ha vuelto algo habitual entre nosotros, puesto que son muchas las empresas que utilizan este sistema para poder tratar un mayor número de datos de una forma rápida y segura, y así poder obtener información de interés para seguir mejorando su negocio. Sin embargo, esa información va a más y es por ello que están surgiendo otros sistemas complementarios que son capaces de trabajar con mayores volúmenes de datos. En especial, se están explorando opciones en las que la información se proporciona de manera estructurada, tratándose de sistemas más ventajosos para las compañías. Dentro de este contexto, hoy hablamos del Hive Big Data. ¿En qué consiste?

hive big data

¿Qué es Hive Big Data?

Cuando hablamos de Hive nos estamos refiriendo a una infraestructura que se basa en el data warehousing para Hadoop. Este sistema tiene un objetivo bien definido que no es otro que ofrecer un exhaustivo resumen de análisis, datos y consultas. Con esta infraestructura, tenemos la oportunidad de estudiar grandes volúmenes de datos almacenados, siendo totalmente compatible con HDFS de Hadoop, aunque también se puede hacer lo propio dentro del sistema de archivos de Amazon S3.

Una de las ventajas de Hive es que nos presenta un acceso muy parecido a SQL con los datos estructurados, por lo que se le ha bautizado con el nombre de HiveQL o simplemente por sus siglas HQL. A través del sistema Hive, también vamos a poder analizar el Big Data con MapReduce. Lo que debemos tener muy claro es que Hive no está programado para que podamos obtener una respuesta rápida a todas las consultas. Más bien, Hive está diseñado para poder trabajar con el sistema en aplicaciones de minería de datos. Este tipo de aplicaciones no son siempre veloces. De hecho, a la hora de analizar la información correspondiente es posible necesitar desde un par de minutos hasta incluso horas y es precisamente en estas aplicaciones donde se usa en mayor medida el sistema Hive.

Características principales de Hive Big Data

Para entender a la perfección qué es el Hive Big Data es importante que conozcamos también sus principales características. Para ello, lo primero que tenemos que decir es que este sistema cuenta con tres formatos diferentes para la organización de los datos. Nos estamos refiriendo a las tablas, las particiones y los cubos. ¿Cómo es cada uno de estos formatos?

Tablas

Las tablas de Hive son muy parecidas a las RDBMS clásicas que presentan tablas y filas. El procedimiento para trabajar con estas tablas es muy sencillo. Lo que hacemos es asignar cada una de estas tablas a los directorios que contienen los sistemas de archivos, un proceso que se lleva a cabo de forma directa. Así mismo, es importante destacar que las tablas de Hive también son compatibles con otros sistemas que tienen archivos nativos.


Particiones

Las particiones se realizan en las propias tablas, sabiendo que las tablas Hive pueden tener más de un fraccionamiento. Si antes hablábamos de directorios, en esta ocasión también hacemos referencia a las tablas que se asignan a subdirectorios y los sistemas que contienen archivos.


Cubos

Finalmente, con el sistema Hive los datos que se almacenan también se pueden dividir en cubos. Es decir, esta información se guarda como si fuera un archivo dentro de la partición correspondiente y siempre en un sistema de archivos inferior.

Además de todo esto, Hive nos ofrece lo que se conoce como metastore, o lo que es lo mismo, el lugar donde podemos almacenar un gran número de metadatos. Aquí existe una base de datos que se relaciona entre sí y a su vez esta información corresponde con el Esquema Hive, que engloba estadísticas, propietarios, tipos de columnas y datos clave-valor, entre otras muchas cosas.

HiveSQL, ¿qué tareas nos proporciona?

Para finalizar, vamos a hacer referencia a las operaciones básicas que podemos llevar a cabo con HiveSQL (HQL). Así, a través de este sistema, podemos realizar evaluaciones de un gran número de funciones, tenemos la oportunidad de crear tablas y particiones y administrarlas y puede ser el soporte de los conocidos como operadores relacionales, así como lógicos y aritméticos. Por último, el lenguaje de consulta que nos proporciona HQL facilita la descarga de información que esté almacenada en una tabla dentro de un directorio.

 

PowerData, tu aliado estratégico

Topics: Big Data