Procesos Big Data con Spark
Métete de lleno en el ecosistema Big Data con este curso de Apache Spark y aprende a ...
Aprende cómo instalar y configurar todo lo necesario para utilizar Spark en Windows paso a paso.
Tabla de contenidos
Aprende cómo instalar y configurar todo lo necesario para utilizar Spark en Windows paso a paso.
Los pasos para instalar y utilizar Spark en Windows son cuatro:
Respecto a las descargas, tanto de JDK 8, como de Spark como de los binarios, las vamos a hacer desde un navegador.
La descarga de JDK 8 la hacemos desde su página oficial:
https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
Aceptamos la licencia y una vez dentro descargamos la versión que corresponda a nuestro sistema y una vez descargada ejecutamos el archivo.
Para descargar Apache Spark vamos a su página de descarga:
https://spark.apache.org/downloads.html
Elegimos la versión que queramos descargar, la descargamos y finalmente la descomprimimos.
Para descargar los binarios de Hadoop para Windows accedemos a este repositorio de GitHub:
https://github.com/steveloughran/winutils
Si tenemos un cliente Git podemos clonar el repositorio, y en otro caso simplemente lo podemos descargar y descomprimir.
Una vez clonado el repositorio o descomprimido el archivo .zip, hay que fijarse en que haya coherencia entre la versión de Spark que hemos bajado y la versión de WinUtils que vayamos a utilizar. Si nos bajamos por ejemplo la versión 2.7 de Hadoop, únicamente necesitamos los binarios que se refieren a esa versión.
Dentro de las WinUtils para nuestra versión de Hadoop, dentro de la carpeta /bin hay distintos archivos, descargamos únicamente winutils.exe el que extraemos, y lo copiamos a la carpeta que queramos, pero siempre dentro de la subcarpeta llamada /bin.
Lo siguiente que debemos hacer sería fijar tres variables de entorno:
Además, otra variable que hay que modificar es la variable PATH, en la que añadimos el /bin tanto de Spark como de Java 8.
Finalmente, el último paso necesario, sería dar permisos de escritura sobre la carpeta c:\tmp\hive. Para ello creamos la carpeta, y ya que hemos descargado WinUtils, utilizamos winutils chmod 777 sobre un terminal que esté abierto como administrador.
Vamos a ver esto sobre el panel de Windows. Si vamos al Panel de Control, dentro de Sistema y Seguridad, entramos en Sistema y en Configuración avanzada del sistema aparecen una serie de opciones.
En la parte de abajo pinchamos en Variables de entorno, y ahí introducimos las variables que habíamos indicado previamente.
Y con esto ya podríamos ejecutar Spark en Windows.
Aprende a programar scripts de procesamiento de datos capaces de ejecutarse de forma clusterizada mediante el framework Apache Spark.
Recuerda que puedes comenzar este curso con tu suscripción de OpenWebinars. Si todavía no estás suscrito, aprovecha para hacerlo ahora.
También te puede interesar
Métete de lleno en el ecosistema Big Data con este curso de Apache Spark y aprende a ...