Business intelligence y big data entregan a los usuarios de negocio datos limpios y de calidad en los que pueden confiar y con los que generar más conocimiento que derive en acciones efectivas. Hoy día, la industria avanza hacia entornos de gestión de datos que brindan información a partir de la inteligencia artificial y el aprendizaje automático, mientras aprovechan la nube para agilidad. Y aunque la cantidad de datos en estos entornos sigue siendo grande, las tecnologías business intelligence que gestionaban big data ya no son lo suficientemente poderosas para apoyar este paso evolutivo.
Cómo business intelligence y big data han evolucionado hacia la ingeniería de datos
El desafío más difícil para la inteligencia artificial y la analítica avanzada no es la tecnología, en realidad, es la gestión de datos a escala, que ha superado con creces las tecnologías que tradicionalmente la gestionaban.
Hadoop es una de las tecnologías clave que permitieron a las organizaciones gestionar grandes volúmenes de información variada y distintos tipos de datos. El cómputo, el almacenamiento y la administración de big data estaban estrechamente vinculados para impulsar el éxito de los datos y los análisis de los lagos de datos y los almacenes de datos.
Pero la adopción de la nube y el advenimiento de tecnologías serverless han dado paso a la era de la ingeniería de big data, desacoplando efectivamente el almacenamiento y la computación, y haciendo posible un procesamiento más rápido de datos de escala de petabytes de latencia múltiple con autoescalado.
Estas tecnologías son las elegidas por proveedores destacados, como Microsoft Azure o Amazon Web Services (AWS), una decisión que ha impulsado la evolución de business intelligence y big data a una nueva etapa, donde la protagonista es la ingeniería de datos.
Tal vez te interese leer:
Cloud y Big Data
¿Qué cuestiones responde la ingeniería de datos?
Las líneas de negocio (ventas, finanzas, marketing o cadena de suministro, entre otras) tienen la necesidad de responder preguntas clave como:
- ¿Cómo pueden ayudarme los datos a predecir lo que sucederá?
- ¿Cómo puede usarse la información para comprender lo que ha sucedido?
- ¿Cómo pueden los equipos colaborar mejor y preparar los datos más fácilmente?
Por su parte, los científicos de datos dedican el 80% de su tiempo a preparar los datos, en lugar de construir los modelos; es el motivo de que se pregunten:
- ¿Cómo encontrar los datos correctos para el modelado?
- ¿Cómo asegurar la disponibilidad de estos datos en un entorno de aprendizaje automático?
- ¿Cómo puedo asegurar que se puede confiar en los datos para el modelado?
- ¿Puede simplificarse la preparación de datos para poder pasar más tiempo modelando?
- ¿Cómo implementar y poner en funcionamiento los modelos de machine learning en producción?
Del mismo modo, los analistas de datos no tienen los datos adecuados para obtener información de negocio que consiga impulsar las acciones, y quieren saber:
- ¿Cómo encontrar los datos correctos para aumentar el conocimiento empresarial?
- ¿Cómo asegurar la disponibilidad de esos datos en el lago de datos?
- ¿Cómo asegurar que se puede confiar en los datos?
- ¿Puede simplificarse la preparación de datos para poder dedicar más tiempo al análisis?
- ¿Cómo se podría colaborar fácilmente entre compañeros y con TI para los cambios continuos?
Todas las respuestas a estas cuestiones dependen de los ingenieros de datos. Son estos profesionales quienes ayudan a los científicos de datos y a los analistas de datos a encontrar los datos correctos, ponerlos a disposición en su entorno, asegurarse de que los datos sean confiables y que los datos confidenciales estén enmascarados y garantizar que pasen menos tiempo en la preparación de datos.
El científico de datos recibe mucha atención hoy día, por la relevancia de su rol, que traspasa los límites de business intelligence y big data y define una nueva era de la analítica. Igualmente importante, pero con menos fanfarria, es el papel del ingeniero de datos. El científico de datos encuentra significado e ideas en los datos, mientras que son los ingenieros quienes diseñan y construyen el ecosistema de datos que es esencial para la analítica.
Capacidades críticas de la ingeniería de datos que no hubieran sido posibles en tiempos de business intelligence y big data
Las empresas que decidan dejar atrás las limitaciones del business intelligence y big data tradicional deben adoptar un enfoque basado en la inteligencia artificial para apoyar la ingeniería de datos de extremo a extremo, en lugar de unir soluciones parciales.
En esta nueva andadura, es muy probable que necesiten contar con el apoyo de una plataforma capaz de todas las tecnologías que llevaron a la aparición de la ingeniería de datos: la nube, la tecnología serverless, un motor de procesamiento distribuido para cargas de trabajo de ingeniería de big data a escala de petabytes, que permita el aprendizaje automático y el análisis a alta velocidad y una tecnología de transmisión de eventos capaz de manejar billones por día.
Para que la empresa tenga éxito en su iniciativa, lo principal es evitar la falta de datos, limitar el tiempo que es necesario invertir en la preparación de datos antes previa al análisis o modelado y no dudar de la conveniencia de apostar por poner en marcha el proyecto de inteligencia artificial y análisis, respaldado por la ingeniería de datos de extremo a extremo; que se baraja emprender.
Tal vez te interese leer:
Tres ventajas de implementar Analytics en el Big Data
Una última precaución, antes de que dé comienzo la iniciativa es asegurar que se reúnen las capacidades básicas en ingeniería de datos. Entre las que no deberían faltar la de descubrimiento de datos, almacenamiento y procesamiento de los datos correctos en el entorno de lago de datos o aprendizaje automático con ingestión masiva en la nube, la capacidad de operacionalizar las canalizaciones de datos y de procesar datos en tiempo real a escala.
A ellas convendría sumar la desensibilización de información confidencial, el impulso a la colaboración intra e interdepartamental y la garantía de calidad y limpieza, que aseguren que haya datos confiables disponibles para obtener conocimiento.