Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Más Información. Aceptar

Recopilando tweets en tiempo real con Hadoop

Abraham Requena Mesa
  • Escrito por Abraham Requena Mesa el 14 de Noviembre de 2017
  • 1 min de lectura Big Data
Recopilando tweets en tiempo real con Hadoop

Es ensencial entender que durante el curso de Hadoop vamos a utilizar mucho, por no decir siempre, la Cloudera Manager.

La Cloudera Manager es una interfaz web que nos proporciona la distribución de Cloudera y nos permite gestionar nuestro cluster y todos sus servicios.

Aquí vemos una ilustración de ello:

Imagen 0 en Recopilando tweets en tiempo real con Hadoop

A groso modo, vemos todos los servicios que tiene nuestra Cloudera Manager los cuales utilizaremos en el curso. Además nos proporciona paneles con gráficos y analíticas para consultar el estado actual de cada uno de nuestros servicios. Y además también nos los monitoriza para ver en cada momento la actualizaciones de los mismos.

Verás que tienes la posibilidad de entrar a cada uno de los servicios, configurarlos y personalizarlos según necesites.

A continuación me gustaría ir enseñándoles un ejemplo, en tiempo real, en el cual veremos como analizamos cada tweets que ingestamos utilizando unos de nuestros servicios de la Cloudera Manager mediante Apache Flume.

Apache Flume es un servicio distribuido que se encuentra dentro del ecosistema Hadoop que nos permite ingestar datos al HDFS en tiempo real.

Para que tengas una idea, te muestro una ilustración del trabajo de Apache Flume dentro de Hadoop.

Imagen 1 en Recopilando tweets en tiempo real con Hadoop

En el transcurso del curso veremos como podemos ingestar tweets más detenidamente.

En esta ocasión te muestro un lanzamiento del proceso Apache Flume ingestando tweets para que veas por pantalla en una imagen como son las capturas que luego se analizan para filtrar y captar información de nuestro interés.

Imagen 2 en Recopilando tweets en tiempo real con Hadoop

Aquí filtraremos según las palabras que deseemos.

Por ejemplo: Openwebinars, Big data, Apache Flume, Data Scientist, etc. En fin, de esta manera, como veremos en nuestro curso, podremos ir recopilando y filtrando información que nos interese en nuestras búsquedas en tiempo real.

Por último, si entramos a nuestro HDFS de nuestra Cloudera Manager, podemos ver que dispone de un Brouse Directory (Buscador de directorio) que nos permite ir a la ruta de salida que le hemos dicho.

 

Relacionado

Te dejamos una selección de cursos, carreras y artículos

¿Qué es Hadoop?

¿Qué es Hadoop?

Big Data

28 de Septiembre de 2017

Te contamos a fondo qué es Hadoop, un Framework que permite el procesamiento distribuido de grandes cantidades de datos usando modelos de programación simple sobre un cluster de máquina.

Curso de Hadoop

Curso de Hadoop

curso

Aprende a tratar con miles de nodos y petabytes de datos con el Curso de Hadoop.

Duración: 7 horas y 28 minutos

Más de 300 empresas confían en nosotros

Oesia
Vass
Everis
Ayesa
Altran
Ibermatica
Atmira
GFI
Accenture
GMV
Concatel
Telefonica
Caser
Banco de España
kpmg
Mapfre
Randstad