Azure Data Lake: Qué es y características

Como punto de partida para este tema, detengamos un momento a pensar en la cantidad de datos que generamos diariamente al navegar en Internet, al usar dispositivos inteligentes o cualquier tecnología que almacena registros de acceso y uso; cada uno de estos medios posee su entorno de almacenamiento de datos de forma aislada al resto. Entonces, ¿cómo pueden las empresas obtener el máximo beneficio de sus datos si se encuentran en múltiples entornos separados?

Qué es un Data Lake y su uso

Consideremos un Data Lake (lago de datos) como un gran almacén de bibliotecas de archivos donde convergen todo tipo de datos para ser procesados y explorados cuando se necesite. De lo anterior, podemos resaltar que un Data Lake tiene dos objetivos primordiales:

El almacenamiento escalable y flexible de múltiples tipos de datos.
El procesamiento de los datos almacenados para su posterior análisis.

Un caso de uso habitual de un Data Lake es para almacenar datos que provienen de dispositivos IoT (Internet of Things) como los sensores de control de temperatura, controles de acceso biométricos, cámaras de vigilancia, entre otros. Al producirse alguna actividad, los dispositivos registran la información en tipo real mediante los eventos en streaming.

Considerando el ejemplo anterior, observamos que los datos no comparten la misma estructura dado que varían según el dispositivo así: la temperatura es un valor numérico, el patrón biométrico puede ser una imagen y una parte de la información de la cámara se encontrará en formato audio o vídeo, por lo que puede ser conveniente que la empresa utilice un Data Lake como repositorio inicial de almacenamiento.

A continuación, el Data Lake podrá emplearse como la fuente unificada de datos no procesados para ser consumida por herramientas ETL (Extration, Transformation, Load) para su procesamiento, y consultada para análisis por los equipos de BI (Business Intelligence).

Principales pros y contra

Por nombrar algunos “pros” o ventajas de los Data Lakes, veamos las siguientes:

Permiten almacenar los datos en su formato y tamaño original, es decir, que no hace falta conocer si los datos son estructurados, semiestructurados o no estructurados al momento de la recopilación.
Facilitan la exploración y consulta de los datos al estar almacenados dentro de un solo entorno.
Optimizan el rendimiento de la extracción y carga de los procesos ETL convencionales.
Simplifican la escalabilidad del espacio de almacenamiento.
Aportan seguridad y tolerancia a errores.

Entre los aspectos “contra” de los Data Lakes, consideremos los siguientes desafíos:

Dado al gran volumen de datos almacenados, es posible que muchos de estos nunca se logren procesar ni analizar.
No cuentan con vistas integradas con el resto de repositorios de datos transformados.
La flexibilidad en cuanto a la estructura de los datos, puede ocasionar pérdida en la calidad de los datos almacenados y dificultar su identificación temprana.
La limitación de acceso a datos sensibles que requieran niveles de privacidad puede no ser fácilmente detectable al no poseer una gobernanza definida sobre un esquema descriptivo sobre los datos a consultar.
Para llevar a cabo la transformación de los datos y su análisis, los usuarios que realicen estas tareas deben tener un amplio conocimiento tanto de analítica, como de las posibles relaciones entre las fuentes de origen y la lógica del negocio.

Qué es Azure Data Lake

Azure Data Lake en un repositorio en la nube de Microsoft cuya capacidad de almacenamiento puede ajustarse (escalar o reducir) tanto como sea necesario, facilita la ejecución de procesamientos y análisis de datos con varios lenguajes de programación y permite la integración a plataformas de código abierto. Tener un repositorio con estas características es una solución rentable para las empresas que buscan maximizar la productividad de sus recursos, reducir costes de mantenimiento, optimizar los tiempos de análisis de los datos y proporcionar más seguridad a la información.

Similar a otras plataformas de la suite de Microsoft, Azure Data Lake se conecta con Azure Data Factory, Azure Synapse Analytics y Power BI lo cual permite que los equipos de inteligencia empresarial integren completamente sus plataformas de ingesta, almacenamiento, análisis exploratorios y visualización avanzada de sus datos en un mismo sitio.

Soluciones de Microsoft

Actualmente, los servicios de Data Lake que ofrece Microsoft son los siguientes:

Azure Data Lake Store o Storage (ADLS) Gen1 / Gen2
Azure Data Lake Analytics

Veamos a continuación en qué consisten:

Azure Data Lake Store o Storage Gen1 / Gen2

Se trata de un servicio de almacenamiento optimizado donde se pueden cargar grandes volúmenes de datos para el análisis a gran escala. Puesto que no es necesario la definición previa de un esquema de datos, serán las herramientas analíticas las que interpreten y definan el esquema correspondiente a los datos almacenados al momento de ser analizados. Data Lake Storage Gen1 tiene contenedores de datos para almacenar datos de cualquier tipo. Los contendores consisten en directorios virtuales de archivos.

Entre las características más relevantes de este servicio están:

La optimización del rendimiento del análisis de los datos dado que distribuye los archivos en servidores individuales.
La escalabilidad ilimitada del almacenamiento, manejabilidad, seguridad y alta disponibilidad de los datos al preparar copias redundantes que garanticen su recuperación si se presentan fallos.
La semántica del sistema de archivos distribuido compatible con el ecosistema Hadoop y el empleo de API REST.

En febrero del 2021, Microsoft publicó un comunicado oficial donde anunció a sus clientes que las cuentas de Azure Data Lake Storage Gen1 tendrán que ser migradas a Azure Data Lake Storage Gen2 para finales de febrero de 2024 donde este servicio será interrumpido.

Por su parte, Azure Data Lake Storage Gen2, además de incorporar las funcionalidades de Azure Data Lake Storage Gen ofrece:

Nuevas funcionalidades de análisis de macrodatos con integración a Azure Databricks.
Un sistema de almacenamiento en niveles de bajo costo basado en Azure Blob Storage (BLOB, Binary Large Objects o objetos binarios grandes).
Un espacio de nombres jerárquico para organizar los archivos y la estructura jerárquica de los directorios.
Un nuevo controlador optimizado, Azure Blob Filesystem (ABFS), para el análisis de macrodatos.

Para consultar y trabajar con los datos se recomienda que en Azure Active Directory se creen grupos de seguridad para acceder a las carpetas y los archivos.

Azure Data Lake Analytics

Es un servicio escalable de análisis de macrodatos por demanda. Se integra con Visual Studio por lo que soporta varios lenguajes de programación como C#, .NET, Python, R para desarrollar flujos de procesamiento y transformación simultáneamente con código propio. Adicional, trabaja con el lenguaje de consulta U-SQL para visualizar el rendimiento del entorno de ejecución del código y detectar cuellos de botella.

Al momento, Azure Data Lake Analytics no funciona con Azure Data Lake Storage Gen2, sin embargo, si trabaja con Azure Data Lake Storage Gen1, Azure SQL Database y Azure Synapse Analytics.

Como características relevantes encontramos:

La simplificación del análisis de macrodatos, ya que no requiere de una infraestructura, ni servidores o clústeres que administrar.
La facilidad de escalar la carga de procesamiento de forma transparente, puesto que basta con actualizar la cantidad de unidades de análisis.
La disponibilidad de bibliotecas analíticas compatibles con una variedad de lenguajes de programación que enriquecen el análisis de los datos y las consultas con lenguaje U-SQL.

Adicional a estos dos servicios, Microsoft también ofrece:

Azure HDInsight, trata de un servicio de código abierto construido sobre componentes de Hadoop que permite crear clústeres optimizados para realizar consultas interactivas sobre los datos almacenados en el Data Lake.
Azure Synapse Analytics, trata de un servicio de análisis con un enfoque híbrido dado que incluye elementos de los Data Warehouses y de los Data Lakes. Proporciona un motor SQL y Apache Spark para realizar consultas SQL sobre grandes cantidades de datos.

Conclusiones

Como sabemos, las empresas se impulsan en las plataformas tecnológicas para conocer cada vez más a sus clientes, diseñar productos y servicios que satisfagan sus necesidades, aprender a diferenciarse de sus competidores y generar mayores ingresos. Nada de lo anterior sería posible sin el uso de datos, y, por lo tanto, cada día crece la demanda de plataformas capaces de almacenar volúmenes datos cada vez más grandes, de forma segura y fácil, es allí donde los Data Lakes resultan de gran importancia.

Antes de concluir, detengamos por un momento a preguntarnos ¿qué tanto puede aumentar la producción de datos en el futuro? Para responder a esta pregunta, consulté una gráfica de proyecciones de la empresa Estatista para datos creados, capturados, copiados y consumidos a nivel mundial entre los años 2010 y 2025, y encontré que para el año 2022 se estima una producción aproximada de 97 zettabytes de datos (un zettabyte es igual a un billón de gigabytes). Ésta cifra representa un incremento aprox. 23% al volumen de datos producidos en el 2021, sin embargo, para el 2025 se estima un incremento del 86%!

No cabe duda de que, el continuo desarrollo de nuevas tecnologías tales como las redes 5G y la evolución de las herramientas de aprendizaje automático e inteligencia artificial, contribuyen cada vez más a la generación de nuevos datos.

La siguiente pregunta es ¿cómo impactan estos incrementos de datos a las empresas? Debido a que el crecimiento de los datos es un hecho inminente, las empresas se enfrentan al constante desafío de expandir la capacidad de sus Data centers (centros de almacenamiento de datos). Esta escalabilidad en entornos on-premise (locales) conlleva la instalación de servidores adicionales que obliga a la empresa a realizar grandes inversiones económicas en la compra de equipos costosos, y a asumir un mantenimiento más complejo de su infraestructura.

Por lo que hemos visto, los servicios en la nube como Azure Data Lake, permiten a las empresas, el almacenamiento a gran escala de datos de cualquier tamaño y tipo, sin necesidad de administrar una infraestructura ni servidores dado que son totalmente administrados. Como estos servicios se integran con otras plataformas de la nube de Azure, las empresas podrán satisfacer las necesidades de almacenamiento, procesamiento y análisis de los datos en un ecosistema unificado con lo cual los costos se reducen porque pagan solo por lo que necesiten.

Concluyendo, los Data Lakes en entornos cloud, son una clara solución que responde a las necesidades y retos que afrontan las empresas en la gestión de sus datos tales como, mejorar el rendimiento de la ingesta, procesamiento y transformación de múltiples tipos de datos, la escalabilidad de su capacidad de almacenamiento, la optimización de los procesos analíticos y de aprendizaje automático, la disponibilidad, seguridad y pronta recuperación de sus datos en caso de desastres, y por su fuera poco todo lo anterior, también les ayuda a reducir los costes que esto implica.