Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Más Información. Aceptar

Recopilando tweets en tiempo real con Hadoop

Abraham Requena Mesa
  • Escrito por Abraham Requena Mesa el 14 de Noviembre de 2017
  • 1 min de lectura | Big Data
Recopilando tweets en tiempo real con Hadoop
El reproductor de video será cargado en breves instantes.

Es ensencial entender que durante el curso de Hadoop vamos a utilizar mucho, por no decir siempre, la Cloudera Manager.

La Cloudera Manager es una interfaz web que nos proporciona la distribución de Cloudera y nos permite gestionar nuestro cluster y todos sus servicios.

Aquí vemos una ilustración de ello:

Imagen 0 en Recopilando tweets en tiempo real con Hadoop

A groso modo, vemos todos los servicios que tiene nuestra Cloudera Manager los cuales utilizaremos en el curso. Además nos proporciona paneles con gráficos y analíticas para consultar el estado actual de cada uno de nuestros servicios. Y además también nos los monitoriza para ver en cada momento la actualizaciones de los mismos.

Verás que tienes la posibilidad de entrar a cada uno de los servicios, configurarlos y personalizarlos según necesites.

A continuación me gustaría ir enseñándoles un ejemplo, en tiempo real, en el cual veremos como analizamos cada tweets que ingestamos utilizando unos de nuestros servicios de la Cloudera Manager mediante Apache Flume.

Apache Flume es un servicio distribuido que se encuentra dentro del ecosistema Hadoop que nos permite ingestar datos al HDFS en tiempo real.

Para que tengas una idea, te muestro una ilustración del trabajo de Apache Flume dentro de Hadoop.

Imagen 1 en Recopilando tweets en tiempo real con Hadoop

En el transcurso del curso veremos como podemos ingestar tweets más detenidamente.

En esta ocasión te muestro un lanzamiento del proceso Apache Flume ingestando tweets para que veas por pantalla en una imagen como son las capturas que luego se analizan para filtrar y captar información de nuestro interés.

Imagen 2 en Recopilando tweets en tiempo real con Hadoop

Aquí filtraremos según las palabras que deseemos.

Por ejemplo: Openwebinars, Big data, Apache Flume, Data Scientist, etc. En fin, de esta manera, como veremos en nuestro curso, podremos ir recopilando y filtrando información que nos interese en nuestras búsquedas en tiempo real.

Por último, si entramos a nuestro HDFS de nuestra Cloudera Manager, podemos ver que dispone de un Brouse Directory (Buscador de directorio) que nos permite ir a la ruta de salida que le hemos dicho.

 

Relacionado

Te dejamos una selección de cursos, carreras y artículos

¿Qué es Hadoop?

¿Qué es Hadoop?

Big Data

28 de Septiembre de 2017

Te contamos a fondo qué es Hadoop, un Framework que permite el procesamiento distribuido de grandes cantidades de datos usando modelos de programación simple sobre un cluster de máquina.

Curso de Hadoop

Curso de Hadoop

curso

Aprende a tratar con miles de nodos y petabytes de datos con el Curso de Hadoop.

Duración: 7 horas y 28 minutos

Estas son algunas de las empresas que ya confían en OpenWebinars

Profesores y profesionales

Nuestros docentes son profesionales que trabajan día a día en la materia que imparten

Conviértete en profesor de OpenWebinars