Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Más Información. Aceptar

¿Qué es Hadoop? introducción

Daniel Ortego Delgado
  • Escrito por Daniel Ortego Delgado el 23 de Mayo de 2017
  • 2 min de lectura | Big Data
¿Qué es Hadoop? introducción

En los últimos tiempos hemos vivido el ascenso de un nuevo fenómeno que ha traído consigo una nueva especialización de profesionales en cuanto al uso de bases de datos y analítica. Hablamos del Big Data . La posibilidad de comprender, analizar y utilizar grandes cantidades de datos ha supuesto un adelanto, de tal forma que todas las compañías cuentan o quieren contar con una sección dedicada a este análisis.

Ante la necesidad de manejar estos datos , surgieron una serie de sistemas con los que poder trabajar. Y para este propósito nació Hadoop . Este software open source, inspirado en los documentos Google para MapReduce y Google File System (GFS), permite a las aplicaciones trabajar con miles de nodos y petabytes de datos .

Hadoop es un proyecto de alto nivel de Apache que está siendo construido y usado por una comunidad muy importante de contribuyentes en Java. El creador es Doug Cutting, quien lo desarrolló originalmente en 2006 para apoyar la distribución del proyecto de motor de búsqueda Nutch.

Arquitectura

Hadoop consiste básicamente en el Hadoop Common, un servicio que da acceso a los sistemas de archivos soportados por Hadoop . El paquete de software The Hadoop Common contiene los archivos con extensión .jar y los scripts necesarios para ejecutar la herramienta. El paquete también proporciona código fuente, documentación, y una sección de contribución que incluye proyectos de la Comunidad Hadoop.

Para conseguir una programación efectiva de trabajo, cada sistema de archivos debe conocer y proporcionar su ubicación : el nombre del rack (más precisamente, del switch) donde está el nodo trabajador. Las aplicaciones Hadoop pueden usar esta información para ejecutar trabajo en el nodo donde están los datos y, en su defecto, en el mismo rack/switch, reduciendo así el tráfico de red troncal. El sistema de archivos HDFS usa esto cuando replica datos, para intentar conservar copias diferentes de los datos en racks diferentes.

Hadoop funciona con un nodo maestro y múltiples nodos esclavo . El nodo maestro se trata de un jobtracker (rastreador de trabajo), tasktracker (rastreador de tareas), namenode (nodo de nombres), y datanode (nodo de datos). Un esclavo o compute node (nodo de cómputo) consiste en un nodo de datos y un rastreador de tareas.

Sistemas de archivos

  • HDFS : El sistema propio de Hadoop. Está diseñado para la escala de decenas petabytes de almacenamiento y funciona sobre los sistemas de archivos de base.
  • Amazon S3 . Éste se dirige a clusters almacenados en la infraestructura del servidor bajo demanda Amazon Elastic Compute Cloud. No hay conciencia de racks en este sistema de archivos, porque todo él es remoto.
  • CloudStore (previamente llamado Kosmos Distributed File System), el cual es consciente de los racks.
  • FTP : éste almacena todos sus datos en un servidor FTP accessible remotamente.
  • HTTP y HTTPS de solo lectura.

¿Quién usa Hadoop?

En la web de Hadoop podemos encontrar una gran lista de empresas que utilizan Hadoop para gestionar su sistema de archivos. Multinacionales como Adobe, Ebay, Amazon, Facebook o Google trabajan con Hadoop a la hora de mover grandes cantidades de datos y realizar búsquedas. Yahoo! es la compañía que actualmente tiene más dependencia dela herramienta. Puedes consultar la lista completa en este enlace .

Estas son algunas de las empresas que ya confían en OpenWebinars

Profesores y profesionales

Nuestros docentes son profesionales que trabajan día a día en la materia que imparten

Conviértete en profesor de OpenWebinars