Big Data

Cómo utilizar Spark en Windows

Aprende cómo instalar y configurar todo lo necesario para utilizar Spark en Windows paso a paso.

Big Data

Pedro Santos González

EXPERTO ANALISTA DE DATOS

Lectura 2 minutos

Publicado el 22 de marzo de 2019

Tabla de contenidos

Aprende cómo instalar y configurar todo lo necesario para utilizar Spark en Windows paso a paso.

Cómo utilizar Spark en Windows

Los pasos para instalar y utilizar Spark en Windows son cuatro:

Instalar JDK 8.
Descargar Spark y descomprimir el archivo. Como es un archivo comprimido de Linux en formato TGZ, vamos a tener que descomprimir dos veces.
Descargar los binarios de Hadoop para Windows.
Extraer el archivo winutils.exe a una carpeta, y dentro de la misma tener una subcarpeta /bin, dónde se va a ubicar el archivo.

Descarga e instalación de archivos necesarios

Respecto a las descargas, tanto de JDK 8, como de Spark como de los binarios, las vamos a hacer desde un navegador.

La descarga de JDK 8 la hacemos desde su página oficial:

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Aceptamos la licencia y una vez dentro descargamos la versión que corresponda a nuestro sistema y una vez descargada ejecutamos el archivo.

Para descargar Apache Spark vamos a su página de descarga:

https://spark.apache.org/downloads.html

Elegimos la versión que queramos descargar, la descargamos y finalmente la descomprimimos.

Para descargar los binarios de Hadoop para Windows accedemos a este repositorio de GitHub:

https://github.com/steveloughran/winutils

Si tenemos un cliente Git podemos clonar el repositorio, y en otro caso simplemente lo podemos descargar y descomprimir.

Una vez clonado el repositorio o descomprimido el archivo .zip, hay que fijarse en que haya coherencia entre la versión de Spark que hemos bajado y la versión de WinUtils que vayamos a utilizar. Si nos bajamos por ejemplo la versión 2.7 de Hadoop, únicamente necesitamos los binarios que se refieren a esa versión.

Dentro de las WinUtils para nuestra versión de Hadoop, dentro de la carpeta /bin hay distintos archivos, descargamos únicamente winutils.exe el que extraemos, y lo copiamos a la carpeta que queramos, pero siempre dentro de la subcarpeta llamada /bin.

Pasos finales

Lo siguiente que debemos hacer sería fijar tres variables de entorno:

La variable SPARK_HOME, donde hemos descomprimido Spark.
La variable JAVA_HOME, donde hayamos instalado Java 8.
La variable HADOOP-HOME, a un directorio raíz de WinUtils, que dentro debe tener la carpeta /bin.

Además, otra variable que hay que modificar es la variable PATH, en la que añadimos el /bin tanto de Spark como de Java 8.

Finalmente, el último paso necesario, sería dar permisos de escritura sobre la carpeta c:\tmp\hive. Para ello creamos la carpeta, y ya que hemos descargado WinUtils, utilizamos winutils chmod 777 sobre un terminal que esté abierto como administrador.

Vamos a ver esto sobre el panel de Windows. Si vamos al Panel de Control, dentro de Sistema y Seguridad, entramos en Sistema y en Configuración avanzada del sistema aparecen una serie de opciones.

En la parte de abajo pinchamos en Variables de entorno, y ahí introducimos las variables que habíamos indicado previamente.

Y con esto ya podríamos ejecutar Spark en Windows.

Aprende a programar scripts de procesamiento de datos capaces de ejecutarse de forma clusterizada mediante el framework Apache Spark.