El valor de la gestión de datos

Cómo seleccionar las mejores herramientas big data para análisis

Posted on Wed, Apr 25, 2018

Para seleccionar las mejores herramientas big data para análisis es fundamental entender los requisitos de procesamiento de datos tanto transaccionales como analíticos de nuestros sistemas y tras esto, elegir en consecuencia.

herramientas big data

chombosan

Los objetivos y, por lo tanto, la tecnología necesaria para manejar datos transaccionales, a diferencia de las herramientas big data necesarias para el procesamiento analítico de datos, son bastante diferentes. Para elegir las herramientas big data de análisis correctas, es importante entender tanto las grandes diferencias como los matices sutiles que diferencian los datos operativos de los datos que son más analíticos.

 

Coherencia: la clave de la mejor elección de herramientas big data

La gestión de datos operativos o transaccionales busca garantizar la baja latencia en los tiempos de respuesta y en la gestión de una variedad de solicitudes simultáneas. Aunque, en ocasiones, la analítica en tiempo real puede estar involucrada, generalmente las consultas analíticas suelen quedar limitadas a un pequeño conjunto de variables relevantes para los procesos de toma de decisiones más inmediatos.

Es habitual que dicha información se muestre en un tablero simple que permita a los usuarios de negocio ejecutar informes, estándar o personalizados, en función de sus propias necesidades y nivel de experiencia.

Sin embargo, independientemente del tipo de motivación que inicie el proceso de reporting, una de las características más importantes de una transacción de datos es la confiabilidad. Es necesario mantener la coherencia transaccional y ello depende de elegir la solución correcta para los datos de la organización.

Las herramientas de análisis de Big Data han surgido para cargas de trabajo interactivas en tiempo real y análisis complejos y retrospectivos de conjuntos de datos más grandes. Las diferencias entre los dos podrían sintetizarse de la siguiente forma:

  • Los sistemas NoSQL, como las bases de datos de documentos y los almacenes, son soluciones comunes para bases de datos operacionales rápidas y escalables. Con una base de datos NoSQL apropiada, las transacciones se pueden procesar rápidamente, y el sistema puede gestionar muchas transacciones pequeñas al mismo tiempo durante los períodos de máxima actividad. Las transacciones por segundo se consideran un indicador de rendimiento más relevante que el tiempo de respuesta. Los sistemas transaccionales están optimizados para operaciones y transacciones cortas, atómicas, repetitivas, orientadas a la selección. Pueden ajustarse con gran precisión para operaciones de uso frecuente, aunque son bastante dependientes del almacenamiento en caché, una gran cantidad de recursos compartidos y rutas de código prescritas, algo que hay que tener en cuenta al seleccionar herramientas big data.
  • Las bases de datos de procesamiento masivo paralelo y MapReduce, donde se incluiría Hadoop, son soluciones clave en el espacio analítico. Los sistemas analíticos proporcionan riqueza funcional, velocidad de procesamiento y facilidad de uso. Por lo general, tienen mucha capacidad y permiten, además, mover datos rápidamente cuando sea necesario, aunque hay que tener en cuenta que su diseño está pensado para reducir el movimiento de datos en general. Se caracterizan por depender de pocas estructuras compartidas y por hacer posible que todas sus funciones puedan integrarse en el servidor y ampliarse para cumplir los requisitos cambiantes del usuario final.

Confiar en un solo sistema de base de datos para manejar ambos tipos de actividad requiere mucha mano de obra para TI, ya que los sistemas de bases de datos convencionales demuestran una gran variabilidad en el rendimiento cuando se les pide manejar cargas de trabajo analíticas y transaccionales.

Por supuesto, no todas las herramientas big data de análisis satisfacen todas las necesidades posibles, lo que significa que, a nivel empresarial, la mayoría de las organizaciones terminan usando sistemas complementarios para satisfacer todas sus necesidades de carga de datos.

 

New Call-to-action

Topics: Big Data