Es ensencial entender que durante el curso de Hadoop vamos a utilizar mucho, por no decir siempre, la Cloudera Manager.
La Cloudera Manager es una interfaz web que nos proporciona la distribución de Cloudera y nos permite gestionar nuestro cluster y todos sus servicios.
Aquí vemos una ilustración de ello:
A groso modo, vemos todos los servicios que tiene nuestra Cloudera Manager los cuales utilizaremos en el curso. Además nos proporciona paneles con gráficos y analíticas para consultar el estado actual de cada uno de nuestros servicios. Y además también nos los monitoriza para ver en cada momento la actualizaciones de los mismos.
Verás que tienes la posibilidad de entrar a cada uno de los servicios, configurarlos y personalizarlos según necesites.
A continuación me gustaría ir enseñándoles un ejemplo, en tiempo real, en el cual veremos como analizamos cada tweets que ingestamos utilizando unos de nuestros servicios de la Cloudera Manager mediante Apache Flume.
Apache Flume es un servicio distribuido que se encuentra dentro del ecosistema Hadoop que nos permite ingestar datos al HDFS en tiempo real.
Para que tengas una idea, te muestro una ilustración del trabajo de Apache Flume dentro de Hadoop.
En el transcurso del curso veremos como podemos ingestar tweets más detenidamente.
En esta ocasión te muestro un lanzamiento del proceso Apache Flume ingestando tweets para que veas por pantalla en una imagen como son las capturas que luego se analizan para filtrar y captar información de nuestro interés.
Aquí filtraremos según las palabras que deseemos.
Por ejemplo: Openwebinars, Big data, Apache Flume, Data Scientist, etc. En fin, de esta manera, como veremos en nuestro curso, podremos ir recopilando y filtrando información que nos interese en nuestras búsquedas en tiempo real.
Por último, si entramos a nuestro HDFS de nuestra Cloudera Manager, podemos ver que dispone de un Brouse Directory (Buscador de directorio) que nos permite ir a la ruta de salida que le hemos dicho.