Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Más Información. Aceptar

Cómo utilizar Spark en Windows

Pedro Santos González
  • Escrito por Pedro Santos González el 22 de Marzo de 2019
  • 2 min de lectura | Big Data
Cómo utilizar Spark en Windows
El reproductor de video será cargado en breves instantes.

Aprende cómo instalar y configurar todo lo necesario para utilizar Spark en Windows paso a paso.

Cómo utilizar Spark en Windows

Los pasos para instalar y utilizar Spark en Windows son cuatro:

  • Instalar JDK 8.
  • Descargar Spark y descomprimir el archivo. Como es un archivo comprimido de Linux en formato TGZ, vamos a tener que descomprimir dos veces.
  • Descargar los binarios de Hadoop para Windows.
  • Extraer el archivo winutils.exe a una carpeta, y dentro de la misma tener una subcarpeta /bin, dónde se va a ubicar el archivo.

Descarga e instalación de archivos necesarios

Respecto a las descargas, tanto de JDK 8, como de Spark como de los binarios, las vamos a hacer desde un navegador.

La descarga de JDK 8 la hacemos desde su página oficial:

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Aceptamos la licencia y una vez dentro descargamos la versión que corresponda a nuestro sistema y una vez descargada ejecutamos el archivo.

Para descargar Apache Spark vamos a su página de descarga:

https://spark.apache.org/downloads.html

Elegimos la versión que queramos descargar, la descargamos y finalmente la descomprimimos.

Para descargar los binarios de Hadoop para Windows accedemos a este repositorio de GitHub:

https://github.com/steveloughran/winutils

Si tenemos un cliente Git podemos clonar el repositorio, y en otro caso simplemente lo podemos descargar y descomprimir.

Una vez clonado el repositorio o descomprimido el archivo .zip, hay que fijarse en que haya coherencia entre la versión de Spark que hemos bajado y la versión de WinUtils que vayamos a utilizar. Si nos bajamos por ejemplo la versión 2.7 de Hadoop, únicamente necesitamos los binarios que se refieren a esa versión.

Dentro de las WinUtils para nuestra versión de Hadoop, dentro de la carpeta /bin hay distintos archivos, descargamos únicamente winutils.exe el que extraemos, y lo copiamos a la carpeta que queramos, pero siempre dentro de la subcarpeta llamada /bin.

Pasos finales

Lo siguiente que debemos hacer sería fijar tres variables de entorno:

  • La variable SPARK_HOME, donde hemos descomprimido Spark.
  • La variable JAVA_HOME, donde hayamos instalado Java 8.
  • La variable HADOOP-HOME, a un directorio raíz de WinUtils, que dentro debe tener la carpeta /bin.

Además, otra variable que hay que modificar es la variable PATH, en la que añadimos el /bin tanto de Spark como de Java 8.

Finalmente, el último paso necesario, sería dar permisos de escritura sobre la carpeta c:\tmp\hive. Para ello creamos la carpeta, y ya que hemos descargado WinUtils, utilizamos winutils chmod 777 sobre un terminal que esté abierto como administrador.

Vamos a ver esto sobre el panel de Windows. Si vamos al Panel de Control, dentro de Sistema y Seguridad, entramos en Sistema y en Configuración avanzada del sistema aparecen una serie de opciones.

En la parte de abajo pinchamos en Variables de entorno, y ahí introducimos las variables que habíamos indicado previamente.

Y con esto ya podríamos ejecutar Spark en Windows.

Aprende a programar scripts de procesamiento de datos capaces de ejecutarse de forma clusterizada mediante el framework Apache Spark.

curso-spark-sql

Recuerda que puedes comenzar este curso con tu suscripción de OpenWebinars. Si todavía no estás suscrito, aprovecha para hacerlo ahora.

Relacionado

Te dejamos una selección de cursos, carreras y artículos

Docker DevOps Profesional

Docker DevOps Profesional

carrera

Incluye 2 cursos:

  • Curso de Introducción a Docker
  • Curso de Docker para Desarrolladores

 

Duración: 8 horas y 19 minutos

Qué es Big Data

Qué es Big Data

Big Data

07 de Septiembre de 2017

A diario escuchamos hablar mucho sobre Big Data, pero realmente no sabemos qué es Big Data ya que es un termino ambiguo. Te lo explicamos en unos minutos

Estas son algunas de las empresas que ya confían en OpenWebinars

Profesores y profesionales

Nuestros docentes son profesionales que trabajan día a día en la materia que imparten

Conviértete en profesor de OpenWebinars