Big Data

¿Qué es Pentaho Data Integraton (PDI)?

En este artículo podrás saber más sobre Pentaho Data Integration, (PDI) cuyo nombre clave es Kettle, una de las herramienta de la suite de Pentaho.

Publicado el 11 de Diciembre de 2017
Compartir

Pentaho Data Integration, cuyo nombre clave es Kettle, es una herramienta de la suite de Pentaho de las que se denomina ETL (Extract – Transform – Load), es decir, una herramienta de Extracción de datos de una fuente, Transformación de esos datos y Carga de esos datos en otro sitio. El uso de Kettle permite evitar grandes cargas de trabajo manual frecuentemente difícil de mantener y de desplegar.

Estas tareas son típicas en procesos de migración, integración con terceros, explotación de Big Data,etc, y en general se podría decir que son necesarias en casi cualquier proyecto mediano o grande.

Aprende las técnicas más avanzadas en análisis de datos
Comienza 15 días gratis en OpenWebinars y accede a cursos, talleres y laboratorios prácticos de Hadoop, Spark, Power BI, Pandas, R y más.
Registrarme ahora

Por eso Kettle nace con la intención de facilitarnos este trabajo, de forma que no tengamos que entrar en el detalle de la implementación de como se hace cada una de estas tareas, sino que simplemente especificamos qué es lo que queremos hacer. Por eso en muchos sitios se califica a este tipo de herramientas, herramientas de metadatos, ya que trabajan a nivel de definición diciendo qué hay que hacer, pero no el detalle del cómo se hace, éste queda oculto a nuestros ojos, lo cual resulta muy interesante en la mayoría de los casos.

Spoon

Spoon es una Interfaz Gráfica de Usuario (GUI), que permite diseñar transformaciones y trabajos que se pueden ejecutar con las herramientas de Kettle.

Instalación.

  • Para poder instalar Spoon Se debe tener ya instalado java 8.
  • Para descargar PDI se puede acceder desde este enlace.
Para Linux:
  • Ubuntu 12.04 en adelante:

Despues de descargar PDI y descomprimirlo en un directorio de su preferencia se debe instalar el paquete libwebkitgtk desde la terminal:

$ sudo apt-get install libwebkitgtk-1.0.0

Una vez instalado el paquete se puede iniciar Spoon:

$ cd <directorio_donde_esta_pdi>
$ ./spoon.sh

imagenUno

  • Para CentOS 6:

Descomprimir el archivo descargado.

Desde la terminal ejecutar el siguiente comando para poder instalar el paquete libwebkitgtk:

$ yum install libwebkitgtk
Para Windows:

Después de descomprimir el archivo descargado, puede iniciar Spoon navegando a la carpeta /data-integration y haciendo doble clic en Spoon.bat.

Para Mac OS:

Después de descomprimir el archivo descargado, puede iniciar Spoon navegando a la carpeta / data-integration y haciendo doble clic en el icono de la aplicación “Data Integration”

Ejemplo sencillo de una transformación:

Vamos a leer un archivo, mapear los valores de cadena de un valor a otro y generamos una salida guardando el mapeo en un archivo.

Lo primero es leer el archivo asi que colocamos un paso de “Text file input” que se encuentra dentro de la pestaña Design en la carpeta Input, cargamos el archivo y agregamos los campos.

imagenDos

imagenTres

imagenCuatro

Vamos a mapear la variable ciudad_residencia y la salida sera la ciudad de residencia abreviada. Agregamos el paso Value Mapper y unimos el paso anterior y este a través de una flecha. ESte paso se encuentra dentro de la pestaña Desgin en la carpeta Transform.

Dentro de “Value Mapper” indicamos como debe ser la abreviación. Se debe colocar como esta la ciudad_residencia en el origen y como queremos que sea la abreviación.

imagenCinco

Luego agregamos un “Text file output” como salida que se encuentra dentro de la pestaña Design en la carpeta Output. Le indicamos los campos que debe tener el archivo de salida.

imagenSeis

Guardamos y pulsamos el icono de Play para que se ejecute la transformación:

imagenSiete

Revisamos el archivo de salida:

imagenOcho

Se puede obsevar que la transformación de ejecuto de la manera correcta y ahora las ciudades tienen es la abreviación.

Este fue un ejemplo muy básico pero nos podemos dar cuenta de lo útil que pueden resultar este tipo de herramientas y la sencillez de su uso. Además si estudiamos un poco su paleta de Steps en la pestaña Design, podemos percibir la potencia, ya que tiene opciones para mandar correos, conectarnos a Big Data, conexión por FTP o SSH,encriptar o desencriptar campos, ejecutar código JS, leer archivos CSV, entre otras.

Analiza los datos para tomar mejores decisiones en tu empresa
Cursos y talleres para formar a tus científicos de datos e ingenieros en las herramientas más utilizadas: Hadoop, Spark, Power BI, Pandas, R y más.
Solicitar más información


Compartir este post

También te puede interesar...

Curso de Pentaho para principiantes

Curso de Pentaho para principiantes

3 horas y 17 minutos · Empresas

Realizando este curso de Pentaho para principiantes serás capaz de comenzar a utilizar todo el potencial de la suite Pentaho CE para Business Intelligence.

  • Business Intelligence
Artículos
Ver todos