¿Qué es Hadoop?
Te contamos a fondo qué es Hadoop, un Framework que permite el procesamiento distribuido de grandes cantidades de datos usando modelos de...
¿Quieres saber qué es Hadoop y sus características? Te lo explicamos en este articulo de introducción a esta tecnología.
Tabla de contenidos
En los últimos tiempos hemos vivido el ascenso de un nuevo fenómeno que ha traído consigo una nueva especialización de profesionales en cuanto al uso de bases de datos y analítica. Hablamos del Big Data . La posibilidad de comprender, analizar y utilizar grandes cantidades de datos ha supuesto un adelanto, de tal forma que todas las compañías cuentan o quieren contar con una sección dedicada a este análisis.
Ante la necesidad de manejar estos datos , surgieron una serie de sistemas con los que poder trabajar. Y para este propósito nació Hadoop . Este software open source, inspirado en los documentos Google para MapReduce y Google File System (GFS), permite a las aplicaciones trabajar con miles de nodos y petabytes de datos .
Hadoop es un proyecto de alto nivel de Apache que está siendo construido y usado por una comunidad muy importante de contribuyentes en Java. El creador es Doug Cutting, quien lo desarrolló originalmente en 2006 para apoyar la distribución del proyecto de motor de búsqueda Nutch.
Hadoop consiste básicamente en el Hadoop Common, un servicio que da acceso a los sistemas de archivos soportados por Hadoop . El paquete de software The Hadoop Common contiene los archivos con extensión .jar
y los scripts necesarios para ejecutar la herramienta. El paquete también proporciona código fuente, documentación, y una sección de contribución que incluye proyectos de la Comunidad Hadoop.
Para conseguir una programación efectiva de trabajo, cada sistema de archivos debe conocer y proporcionar su ubicación : el nombre del rack (más precisamente, del switch) donde está el nodo trabajador. Las aplicaciones Hadoop pueden usar esta información para ejecutar trabajo en el nodo donde están los datos y, en su defecto, en el mismo rack/switch, reduciendo así el tráfico de red troncal. El sistema de archivos HDFS usa esto cuando replica datos, para intentar conservar copias diferentes de los datos en racks diferentes.
Hadoop funciona con un nodo maestro y múltiples nodos esclavo . El nodo maestro se trata de un jobtracker (rastreador de trabajo), tasktracker (rastreador de tareas), namenode (nodo de nombres), y datanode (nodo de datos). Un esclavo o compute node (nodo de cómputo) consiste en un nodo de datos y un rastreador de tareas.
En la web de Hadoop podemos encontrar una gran lista de empresas que utilizan Hadoop para gestionar su sistema de archivos. Multinacionales como Adobe, Ebay, Amazon, Facebook o Google trabajan con Hadoop a la hora de mover grandes cantidades de datos y realizar búsquedas. Yahoo! es la compañía que actualmente tiene más dependencia dela herramienta.
También te puede interesar
Te contamos a fondo qué es Hadoop, un Framework que permite el procesamiento distribuido de grandes cantidades de datos usando modelos de...