Pentaho Data Integration desatendido y control de errores
Qué es Pentaho Data Integration
Pentaho Data Integration es la herramienta para crear procesos ETL, es decir, procesos de extracción, transformación y carga, que nos ofrece la suite fin de Pentaho. Es también un programa externo, programado en Java, y con una interfaz, como las demás herramientas de la suite, bastante intuitiva.
Nos ofrece una gran variedad de orígenes de datos, como pueden ser bases de datos, consultas MDX, Excel, CSV y cualquier otro origen que se nos ocurra, lo podremos encontrar en esta herramienta.
Nos proporciona una gran variedad de pasos o de operaciones en concreto que podemos aplicar nuestro flujo de datos, como pueden ser filtros, lógica avanzada de JavaScript, agrupaciones, ordenaciones, etcétera.
También permite configurar los avisos por correo, por si un proceso termina y queremos recibir un aviso, o por si ocurre algún error y queremos que se notifique por correo, podremos configurarlo directamente en esta herramienta.
Con ella tendremos el control de errores, lo que nos va a facilitar que cuando haya algún dato que no está en la forma que esperamos, poder sacarlo del flujo, no interrumpir el proceso, que no termine en error y poder terminar. También permite poder informar por correo de este tipo de errores y la causa por la que ha ocurrido.
También nos permite poder programar sus lanzamientos, ya sea desde consola o del propio Pentaho Server, y tener un control jerárquico de esos procesos, ya que tenemos dos tipos de estructuras, que unas engloban a las otras, como son los Jobs y las transformaciones.
Como cada una de estas estructuras tiene un objetivo en concreto, Pentaho Data Integration nos va a permitir tener una estructuración y una mejor jerarquización de nuestros procesos ETL, así como un mejor control del flujo.