Recopilando tweets en tiempo real con Hadoop

Es ensencial entender que durante el curso de Hadoop vamos a utilizar mucho, por no decir siempre, la Cloudera Manager.

La Cloudera Manager es una interfaz web que nos proporciona la distribución de Cloudera y nos permite gestionar nuestro cluster y todos sus servicios.

Aquí vemos una ilustración de ello:

Imagen 0 en Recopilando tweets en tiempo real con Hadoop

A groso modo, vemos todos los servicios que tiene nuestra Cloudera Manager los cuales utilizaremos en el curso. Además nos proporciona paneles con gráficos y analíticas para consultar el estado actual de cada uno de nuestros servicios. Y además también nos los monitoriza para ver en cada momento la actualizaciones de los mismos.

Verás que tienes la posibilidad de entrar a cada uno de los servicios, configurarlos y personalizarlos según necesites.

A continuación me gustaría ir enseñándoles un ejemplo, en tiempo real, en el cual veremos como analizamos cada tweets que ingestamos utilizando unos de nuestros servicios de la Cloudera Manager mediante Apache Flume.

Apache Flume es un servicio distribuido que se encuentra dentro del ecosistema Hadoop que nos permite ingestar datos al HDFS en tiempo real.

Para que tengas una idea, te muestro una ilustración del trabajo de Apache Flume dentro de Hadoop.

Imagen 1 en Recopilando tweets en tiempo real con Hadoop

En el transcurso del curso veremos como podemos ingestar tweets más detenidamente.

En esta ocasión te muestro un lanzamiento del proceso Apache Flume ingestando tweets para que veas por pantalla en una imagen como son las capturas que luego se analizan para filtrar y captar información de nuestro interés.

Imagen 2 en Recopilando tweets en tiempo real con Hadoop

Aquí filtraremos según las palabras que deseemos.

Por ejemplo: Openwebinars, Big data, Apache Flume, Data Scientist, etc. En fin, de esta manera, como veremos en nuestro curso, podremos ir recopilando y filtrando información que nos interese en nuestras búsquedas en tiempo real.

Por último, si entramos a nuestro HDFS de nuestra Cloudera Manager, podemos ver que dispone de un Brouse Directory (Buscador de directorio) que nos permite ir a la ruta de salida que le hemos dicho.

 

También te puede interesar...

Introducción al Big Data

Curso de Introducción al Big Data

4 horas y 42 minutos · curso

  • Big Data
Big Data

¿Qué es Hadoop?

28 Septiembre 2017 Abraham Requena Mesa
Curso de Hadoop

Curso de Hadoop

7 horas y 28 minutos · curso

  • Big Data

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Más Información.