El valor de la gestión de datos

Guía de nuevas herramientas de datos: "Big Data Glossary", ebook en pdf

Publicado el 31/07/15 4:00

 Big Data Glossary Herramientas datos

Conocer la terminología de Big Data es, por lo general, un difícil reto para quienes toman contacto por primera vez con los grandes datos y, en cierto modo, también para quienes están más familiarizados con ellos, pues se trata de una amplia y nueva terminología en constante crecimiento que puede resultar complicada. 

Si buscamos un resumido glosario de Big Data que, más allá de hacer un repaso de los términos de moda, nos sirva como guía elemental de las nuevas herramientas de datos disponibles, "Big Data Glossary", ebook en pdf de Pete Warden, es un título idóneo para tener una primera visión del léxico tecnológico relacionado con los grandes datos orientado a un uso práctico.

 

Descárgate nuestra Guía sobre Big Data

Familiarizarse con la terminología de Big Data

En efecto, conocer Big Data desde dentro es todo un desafío, un reto que implica un aprendizaje de la terminología tecnológica asociada al sector. Por suerte, hay un sinfín de libros en el mercado que profundizan en ello a distintos niveles.

Entre ellos, uno interesante es este glosario de Warden. Pese a su síntesis (62 páginas) es un título a tener en cuenta como práctico manual de consulta si ya se trabaja con Hadoop y demás tecnologías de Big Data y se busca tener a mano un glosario que ofrezca una visión de conjunto de los términos claves relacionados con las tecnologías más recientes.

Sin embargo, para sacarle todo el partido, el lector no necesita tener excesivos conocimientos previos, pues a su brevedad se une un enfoque muy básico, de tipo introductorio, firmado por un autor experto, ex ingeniero de Apple y fundador de OpenHeatMap, especializado en el procesamiento y visualización de grandes datos.

Contenido del glosario

En su primera edición (2011), el glosario está orientado un enfoque general de las herramientas de grandes datos, y si bien no encontraremos un listado completo, sí se han seleccionado las más importantes, por otro lado las suficientes como para que los no iniciados puedan descubrir nuevas herramientas que explorar.

Por lo tanto, no entra en la avalancha de tecnologías de Big Data. Más bien, está concebido como un manual de consulta o libro de lectura rápida para comprender conceptos básicos que están detrás de muchas tecnologías de grandes datos.

El texto se divide en 11 capítulos, divididos a su vez mediante epígrafes que desarrollan con claridad, pero sin profundizar, las temáticas generales expuestas en cada uno de ellos. En total, se desarrollan 60 nuevas herramientas de datos y frameworks actualmente disponibles, descritas a partir de la experiencia del autor en entornos productivos. 

Entre otros, se abordan temas centrales como el las bases de datos NoSQL (MongoDB, CouchDB, Cassandra, Redis, Big Table...), Map Reduce (Hadoop, Hive, Pig...), Storage (S3, Hadoop Distributed File System), Servidores (EC2, Google App Engine, Heroku...), Procesamiento (R, Yaho! Pipes, Datameer, Tinkerpop), NLP (Natural Language Toolkit, OpenNLP, OpenCalais...), Machine Learning (WKA, Mahout...), Visualización (Tableau, Protovis, Fusion Tables... ), Acquisition (Google Refine, Needlebase, ScraperWiki...) y la Serialización, enfocada en herramientas como JSON, BSON, Thrift o Avro.

Fuente imagen: tigger11th / FreeDigitalPhotos.net

 

Post relacionados:

hadoop y el bigdata

Temas: Big Data