Cómo utilizar Spark en Windows

Aprende cómo instalar y configurar todo lo necesario para utilizar Spark en Windows paso a paso.

Cómo utilizar Spark en Windows

Los pasos para instalar y utilizar Spark en Windows son cuatro:

  • Instalar JDK 8.
  • Descargar Spark y descomprimir el archivo. Como es un archivo comprimido de Linux en formato TGZ, vamos a tener que descomprimir dos veces.
  • Descargar los binarios de Hadoop para Windows.
  • Extraer el archivo winutils.exe a una carpeta, y dentro de la misma tener una subcarpeta /bin, dónde se va a ubicar el archivo.

Descarga e instalación de archivos necesarios

Respecto a las descargas, tanto de JDK 8, como de Spark como de los binarios, las vamos a hacer desde un navegador.

La descarga de JDK 8 la hacemos desde su página oficial:

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Aceptamos la licencia y una vez dentro descargamos la versión que corresponda a nuestro sistema y una vez descargada ejecutamos el archivo.

Para descargar Apache Spark vamos a su página de descarga:

https://spark.apache.org/downloads.html

Elegimos la versión que queramos descargar, la descargamos y finalmente la descomprimimos.

Para descargar los binarios de Hadoop para Windows accedemos a este repositorio de GitHub:

https://github.com/steveloughran/winutils

Si tenemos un cliente Git podemos clonar el repositorio, y en otro caso simplemente lo podemos descargar y descomprimir.

Una vez clonado el repositorio o descomprimido el archivo .zip, hay que fijarse en que haya coherencia entre la versión de Spark que hemos bajado y la versión de WinUtils que vayamos a utilizar. Si nos bajamos por ejemplo la versión 2.7 de Hadoop, únicamente necesitamos los binarios que se refieren a esa versión.

Dentro de las WinUtils para nuestra versión de Hadoop, dentro de la carpeta /bin hay distintos archivos, descargamos únicamente winutils.exe el que extraemos, y lo copiamos a la carpeta que queramos, pero siempre dentro de la subcarpeta llamada /bin.

Pasos finales

Lo siguiente que debemos hacer sería fijar tres variables de entorno:

  • La variable SPARK_HOME, donde hemos descomprimido Spark.
  • La variable JAVA_HOME, donde hayamos instalado Java 8.
  • La variable HADOOP-HOME, a un directorio raíz de WinUtils, que dentro debe tener la carpeta /bin.

Además, otra variable que hay que modificar es la variable PATH, en la que añadimos el /bin tanto de Spark como de Java 8.

Finalmente, el último paso necesario, sería dar permisos de escritura sobre la carpeta c:\tmp\hive. Para ello creamos la carpeta, y ya que hemos descargado WinUtils, utilizamos winutils chmod 777 sobre un terminal que esté abierto como administrador.

Vamos a ver esto sobre el panel de Windows. Si vamos al Panel de Control, dentro de Sistema y Seguridad, entramos en Sistema y en Configuración avanzada del sistema aparecen una serie de opciones.

En la parte de abajo pinchamos en Variables de entorno, y ahí introducimos las variables que habíamos indicado previamente.

Y con esto ya podríamos ejecutar Spark en Windows.

Aprende a programar scripts de procesamiento de datos capaces de ejecutarse de forma clusterizada mediante el framework Apache Spark.

curso-spark-sql

Recuerda que puedes comenzar este curso con tu suscripción de OpenWebinars. Si todavía no estás suscrito, aprovecha para hacerlo ahora.

También te puede interesar...

Procesos Big Data con Spark

Curso Apache Spark: Procesando Big Data

5 horas y 52 minutos · curso

  • Big Data

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Más Información.