Cloud Computing

Data Warehouse vs Data Lake

Dentro del Big Data es muy importante conocer los diferentes almacenes de datos para elegir correctamente. En este post comparamos estas dos tecnologías.

Cloud Computing Big Data

Jorge López Blasco

Experto en Cloud Computing, Machine Learning y Big Data.

Lectura 8 minutos

Publicado el 15 de diciembre de 2022

Introducción

En la actualidad, cada vez son más las empresas que manejan grandes volúmenes de datos y recurren a la tecnología del Big Data.

Encuestas, sensores, tablas de datos, registros, inclusive tweets, son los diferentes tipos de datos a los que las empresas deben enfrentarse con relativa frecuencia.

En ese sentido, ha surgido la necesidad de construir soluciones capaces de almacenar estos grandes volúmenes de datos. Principalmente existen dos tecnologías, que, aunque su nombre nos puede hacer pensar que son muy similares, tienen ciertas diferencias. Estos son los Data Lakes, y los Data Warehouse.

En este artículo, se presentará la definición de ambos tipos de almacenes de datos, y se mostrará la diferencia que hay entre ellos, con el objetivo de que seamos capaces de conocer qué tipo de implementación se adecúa más a nuestro necesidades y requisitos empresariales.

Qué es un Data Lake

Como hemos comentado previamente, los datos pueden ser muy diversos y llegar desde fuentes muy diversas. Estos pueden ser de tipo estructurado (tablas de datos) o no guardar ningún tipo de estructura (imágenes y texto). La principal diferencia que existe entre un Data Warehouse y un Data Lake, reside en esto, en la estructura con la que se almacenan los datos.

En el caso de un Data Lake, los datos se almacenan en bruto y este tipo de almacén los contiene únicamente hasta que estos son utilizados.

En un almacén de datos tradicional, la información tiene cierta estructura, cierta jerarquía, en cambio aquí la arquitectura es mucho más plana. A cada uno de los elementos se le asigna un identificador con una etiqueta, y esto es lo que permite encontrarlos de forma sencilla.

Este tipo de almacenes tienen utilidades muy diversas, pero principalmente se benefician del hecho de que, dado que no es necesario definir la estructura de los datos, la ingesta de los mismos es mucho más rápida.

En ese sentido, el proceso de ingesta en lugar de ser de tipo ETL (Extracción, transformación, y carga) Procesos ETL: Qué son, fases, beneficios y herramienta, es de tipo ELT (Extracción, carga y transformación). En este proceso, los datos se extraen, se cargan en el almacén de datos, y posteriormente se transforman con el objetivo de obtener conclusiones o realizar análisis.

Los almacenes de datos tradicionales no permiten esto, ya que necesitan que los datos guarden cierta estructura, y previo a la carga de los mismos se debe hacer una transformación con el objetivo de normalizarlos. De esta forma, al trabajar con datos que necesitan una toma de decisiones mucho más rápida, el hecho de utilizar almacenes de datos tipo Data Warehouse hace que este análisis sea mucho más lento e ineficiente.

Por ello, los Data Lakes se suelen utilizar con frecuencia en procesos analíticos como la generación de informes a partir de datos en streaming o datos que necesitan un análisis en tiempo real.

La naturaleza de algunos tipos de datos es muy cambiante, y en ocasiones las mediciones varían en cuestión de segundos. Es por esto que, debido a la necesidad de analizar estos datos de forma prácticamente instantánea, surgen los Data Lakes, como recurso que permite un análisis inmediato que elimina el costoso proceso de normalización.

En ese sentido, los Data Lakes ofrecen una serie de ventajas respecto a los almacenes de datos tradicionales, como son las siguientes:

En primer lugar, ofrecen la ventaja de que son mucho más flexibles y pueden ser utilizado por usuarios muy diversos, ya que no es necesario que estos tengan un conocimiento exhaustivo sobre la tipología de dato con el que están tratando y las transformaciones que se le deberían aplicar.

Por otro lado, existen muchas herramientas que nos pueden ayudar en su implementación y las consultas a los datos se pueden hacer de una cantidad de formas ilimitada.

Además, al igual que el Big Data, hay otras tecnologías como el Cloud Computing que están a la vanguardia y permiten la implementación de este tipo de almacenes de datos modernos en ubicaciones remotas. Esto ofrece múltiples ventajas, entre ellas la simplificación de la gestión y el minucioso control de costes.

Un ejemplo de esto es Azure Data Lake Azure Data Lake: Qué es y características, el recurso ofrecido por Azure (Microsoft) que permite beneficiarse de estas y muchas otras ventajas, entre ellas, el modelo de pago por uso.

Qué es un Data Warehouse

Un Data Warehouse es un almacén de datos ordenados que son accesibles por la empresa y que pueden utilizarse directamente junto con herramientas de Big Data para la toma de decisiones.

Al tratarse de datos ordenados, el acceso a los mismos es mucho más rápido, lo cual supone un aumento en la productividad. La implementación puede ser muy sencilla si se definen correctamente las fuentes de datos que se tienen y como estas se quieren estructurar.

Los datos pueden haber sido generados por fuentes internas o externas, tras el proceso de extracción, transformación y carga de los mismos, estos se utilizan para aplicarles técnicas de Data Mining, análisis o generación de informes. Los almacenes de datos tienen un uso muy específico, y con la aparición del Big Data y el manejo de grandes cantidades de datos, su uso se ha visto reducido.

Se necesita que estos almacenes de datos evolucionen, con el objetivo de ser capaces de aumentar la agilidad con la que manejan los datos y recogen información de un mayor número de fuentes, y poder hacer frente a la demanda actual.

El uso de tecnologías Cloud es muy beneficioso en este sentido, ya que permite tener una mayor agilidad y una expansión más rápida de los volúmenes en los que se almacenan los datos. Las implementaciones aprovechan las ventajas de escalabilidad y agilidad propias del Cloud Computing y además permiten tener un mayor control sobre los gastos asociados. Un ejemplo de este tipo de tecnologías implementadas en la nube es el servicio Snowflake, ofrecido por Amazon Web Services, el cual permite construir un Data Warehouse en la nube Snowflake: Qué es y características

Trabajar con bases de datos del tamaño de Petabytes en ocasiones se vuelve muy complejo, por esto surge la necesidad de trabajar con almacenes de datos. Estos pueden tener múltiples aplicaciones y casos de uso concretos, son utilizados en muchos sectores como la banca (para la detección de fraude y el análisis de rentabilidades) o los minoristas (con el objetivo de identificar patrones de compra en los clientes).

Data Lake vs Data Warehouse

Como hemos podido observar, existen múltiples diferencias entre un Data Lake y un Data Warehouse.

La principal diferencia reside en la estructura con la que se almacenan los datos. En un Data Lake se almacena datos en bruto que pueden tener una cierta estructura o no, mientras que en un Data Warehouse tan solo se recogen datos estructurados con cierta jerarquía.

En ese sentido, es importante imponer cierta calidad sobre los datos y tener un corrector gobierno de los mismos. De no ser así, un Data Lake podría llegar a convertirse en un contenedor de datos a los cuales no se les puede sacar ningún tipo de valor adicional. El propósito general del uso de Data Lakes es el poder hacer una ingesta más rápida, al prescindir de la tarea del preprocesamiento. Pero eso no debe convertirlo en un cajón de sastre, donde podemos introducir cualquier tipo de dato sin ningún orden.

Por otro lado, la finalidad con la que se recogen los datos también supone una diferencia entre estos dos tipos de arquitecturas. Un Data Warehouse está preparado para obtener datos que se extraen de sistemas tradicionales, y en la mayoría de los casos se ignoran datos que se obtienen de fuentes no tradicionales, como podrían ser sensores, texto o imágenes. Estos datos en cambio sí que se podrían almacenar en un Data Lake. Aun así, los Data Warehouse, como almacén de datos procesados ahorran mucho espacio de almacenamiento y por tanto mucho dinero.

Así pues, dada la estructura mucho más clara que tienen los Data Warehouse, o almacenes de datos, estos pueden ser utilizados por personal menos técnico, y no requieren de tener un conocimiento avanzado sobre el manejo de bases de datos. Además, los cambios en este tipo arquitectura se pueden hacer de forma mucho más sencilla. Los Data Lakes al tener un contenido no estructurado y obtener la información de fuentes de datos diversas, requieren de la presencia de un científico de datos en el equipo, ya que estos son más complejos de navegar y se requiere cierto conocimiento para extraer la información.

En un Data Lake la información se almacena en su formato origen y esto permite a los usuarios más avanzados hacer análisis estadísticos y construir modelos de predicción con datos que se acercan más a la realidad. Esto hace que este último tipo de arquitectura sea más flexible y que se puedan hacer cambios en ella de forma mucho más sencilla.

Los Data Warehouse y los Data Lakes han llegado para quedarse. Ambos permiten una toma de decisiones mucho más sencilla basada en los datos y reducen los tiempos de respuesta y costes operativos asociados al tratamiento de los datos. la centralización de los datos es muy importante y conseguir un acceso sencillo por parte de los usuarios también.

Como comentábamos antes, el proceso de almacenamiento en cada una de las arquitecturas es distinto. También podemos decir que un Data Lake utiliza un esquema On Read, donde la estructura de los objetos que componen la base de datos no está definida previa a la carga, es decir, se define en la lectura; y un Data Warehouse sigue un sistema On Write, donde la estructura si está definida previa a la carga.

Por último, los Data Lakes son más vulnerables en cuanto a seguridad pero compensan esto con su fácil acceso, en comparación al Data Warehouse donde conseguir una gran accesibilidad puede ser costoso y complejo.

Por tanto, existe una gran diferencia entre ambos tipos de arquitecturas, luego, teniendo en cuenta todas estas diferencias y ventajas que proponen cada una de ellas, es una decisión propia el elegir qué tipo de arquitectura implementamos. Esta decisión debería estar guiada por el tipo de implementación que necesitemos, la finalidad del estudio y la estructura de los datos con los que se está trabajando.

Compartir este post