Azure Data Factory: Qué es y características
En este artículo hablamos sobre las características y cómo funciona Azure Data Factory, una de las plataformas de Big Data que nos...
Vamos a explicar qué es Azure Data Lake y sus características, comenzando por ver qué es un Data Lake y las ventajas que ofrece para manejar Big Data.
Como punto de partida para este tema, detengamos un momento a pensar en la cantidad de datos que generamos diariamente al navegar en Internet, al usar dispositivos inteligentes o cualquier tecnología que almacena registros de acceso y uso; cada uno de estos medios posee su entorno de almacenamiento de datos de forma aislada al resto. Entonces, ¿cómo pueden las empresas obtener el máximo beneficio de sus datos si se encuentran en múltiples entornos separados?
Consideremos un Data Lake (lago de datos) como un gran almacén de bibliotecas de archivos donde convergen todo tipo de datos para ser procesados y explorados cuando se necesite. De lo anterior, podemos resaltar que un Data Lake tiene dos objetivos primordiales:
Un caso de uso habitual de un Data Lake es para almacenar datos que provienen de dispositivos IoT (Internet of Things) como los sensores de control de temperatura, controles de acceso biométricos, cámaras de vigilancia, entre otros. Al producirse alguna actividad, los dispositivos registran la información en tipo real mediante los eventos en streaming.
Considerando el ejemplo anterior, observamos que los datos no comparten la misma estructura dado que varían según el dispositivo así: la temperatura es un valor numérico, el patrón biométrico puede ser una imagen y una parte de la información de la cámara se encontrará en formato audio o vídeo, por lo que puede ser conveniente que la empresa utilice un Data Lake como repositorio inicial de almacenamiento.
A continuación, el Data Lake podrá emplearse como la fuente unificada de datos no procesados para ser consumida por herramientas ETL (Extration, Transformation, Load) para su procesamiento, y consultada para análisis por los equipos de BI (Business Intelligence).
Por nombrar algunos “pros” o ventajas de los Data Lakes, veamos las siguientes:
Entre los aspectos “contra” de los Data Lakes, consideremos los siguientes desafíos:
Azure Data Lake en un repositorio en la nube de Microsoft cuya capacidad de almacenamiento puede ajustarse (escalar o reducir) tanto como sea necesario, facilita la ejecución de procesamientos y análisis de datos con varios lenguajes de programación y permite la integración a plataformas de código abierto. Tener un repositorio con estas características es una solución rentable para las empresas que buscan maximizar la productividad de sus recursos, reducir costes de mantenimiento, optimizar los tiempos de análisis de los datos y proporcionar más seguridad a la información.
Similar a otras plataformas de la suite de Microsoft, Azure Data Lake se conecta con Azure Data Factory, Azure Synapse Analytics y Power BI lo cual permite que los equipos de inteligencia empresarial integren completamente sus plataformas de ingesta, almacenamiento, análisis exploratorios y visualización avanzada de sus datos en un mismo sitio.
Actualmente, los servicios de Data Lake que ofrece Microsoft son los siguientes:
Veamos a continuación en qué consisten:
Se trata de un servicio de almacenamiento optimizado donde se pueden cargar grandes volúmenes de datos para el análisis a gran escala. Puesto que no es necesario la definición previa de un esquema de datos, serán las herramientas analíticas las que interpreten y definan el esquema correspondiente a los datos almacenados al momento de ser analizados. Data Lake Storage Gen1 tiene contenedores de datos para almacenar datos de cualquier tipo. Los contendores consisten en directorios virtuales de archivos.
Entre las características más relevantes de este servicio están:
En febrero del 2021, Microsoft publicó un comunicado oficial donde anunció a sus clientes que las cuentas de Azure Data Lake Storage Gen1 tendrán que ser migradas a Azure Data Lake Storage Gen2 para finales de febrero de 2024 donde este servicio será interrumpido.
Por su parte, Azure Data Lake Storage Gen2, además de incorporar las funcionalidades de Azure Data Lake Storage Gen ofrece:
Para consultar y trabajar con los datos se recomienda que en Azure Active Directory se creen grupos de seguridad para acceder a las carpetas y los archivos.
Es un servicio escalable de análisis de macrodatos por demanda. Se integra con Visual Studio por lo que soporta varios lenguajes de programación como C#, .NET, Python, R para desarrollar flujos de procesamiento y transformación simultáneamente con código propio. Adicional, trabaja con el lenguaje de consulta U-SQL para visualizar el rendimiento del entorno de ejecución del código y detectar cuellos de botella.
Al momento, Azure Data Lake Analytics no funciona con Azure Data Lake Storage Gen2, sin embargo, si trabaja con Azure Data Lake Storage Gen1, Azure SQL Database y Azure Synapse Analytics.
Como características relevantes encontramos:
Adicional a estos dos servicios, Microsoft también ofrece:
Como sabemos, las empresas se impulsan en las plataformas tecnológicas para conocer cada vez más a sus clientes, diseñar productos y servicios que satisfagan sus necesidades, aprender a diferenciarse de sus competidores y generar mayores ingresos. Nada de lo anterior sería posible sin el uso de datos, y, por lo tanto, cada día crece la demanda de plataformas capaces de almacenar volúmenes datos cada vez más grandes, de forma segura y fácil, es allí donde los Data Lakes resultan de gran importancia.
Antes de concluir, detengamos por un momento a preguntarnos ¿qué tanto puede aumentar la producción de datos en el futuro? Para responder a esta pregunta, consulté una gráfica de proyecciones de la empresa Estatista para datos creados, capturados, copiados y consumidos a nivel mundial entre los años 2010 y 2025, y encontré que para el año 2022 se estima una producción aproximada de 97 zettabytes de datos (un zettabyte es igual a un billón de gigabytes). Ésta cifra representa un incremento aprox. 23% al volumen de datos producidos en el 2021, sin embargo, para el 2025 se estima un incremento del 86%!
No cabe duda de que, el continuo desarrollo de nuevas tecnologías tales como las redes 5G y la evolución de las herramientas de aprendizaje automático e inteligencia artificial, contribuyen cada vez más a la generación de nuevos datos.
La siguiente pregunta es ¿cómo impactan estos incrementos de datos a las empresas? Debido a que el crecimiento de los datos es un hecho inminente, las empresas se enfrentan al constante desafío de expandir la capacidad de sus Data centers (centros de almacenamiento de datos). Esta escalabilidad en entornos on-premise (locales) conlleva la instalación de servidores adicionales que obliga a la empresa a realizar grandes inversiones económicas en la compra de equipos costosos, y a asumir un mantenimiento más complejo de su infraestructura.
Por lo que hemos visto, los servicios en la nube como Azure Data Lake, permiten a las empresas, el almacenamiento a gran escala de datos de cualquier tamaño y tipo, sin necesidad de administrar una infraestructura ni servidores dado que son totalmente administrados. Como estos servicios se integran con otras plataformas de la nube de Azure, las empresas podrán satisfacer las necesidades de almacenamiento, procesamiento y análisis de los datos en un ecosistema unificado con lo cual los costos se reducen porque pagan solo por lo que necesiten.
Concluyendo, los Data Lakes en entornos cloud, son una clara solución que responde a las necesidades y retos que afrontan las empresas en la gestión de sus datos tales como, mejorar el rendimiento de la ingesta, procesamiento y transformación de múltiples tipos de datos, la escalabilidad de su capacidad de almacenamiento, la optimización de los procesos analíticos y de aprendizaje automático, la disponibilidad, seguridad y pronta recuperación de sus datos en caso de desastres, y por su fuera poco todo lo anterior, también les ayuda a reducir los costes que esto implica.
También te puede interesar
En este artículo hablamos sobre las características y cómo funciona Azure Data Factory, una de las plataformas de Big Data que nos...
Durante este taller aprenderás a crear un storage endpoint para vincularlo al almacenamiento. Además, limitarás el acceso a...
Con la realización de este taller aprenderás las características básicas del almacenamiento en Azure. Aprenderás también acerca de...