Conocimientos y habilidades que adquieres realizando este curso

  • Instalar Apache Spark en Windows y Linux
  • Lanzar localmente un shell de Spark
  • Gestión de dependencias de proyectos Scala mediante SBT.
  • Ejecución de scripts programados en Scala sobre Apache Spark mediante el IDE IntelliJ.
  • Los objetos RDD y Dataframe.
  • Funciones de agregación en Spark SQL.
  • Funciones definidas de usuario (UDF).
  • Crear y submitir un jar con las tareas a ejecutar por Apache Spark.

Temario

  • Configuración del entorno en Windows

    9m
  • Configuración del entorno en Linux

    3m
  • Flujo de tratamiento (vista previa)

    2m
  • Ejemplos de lectura y escritura

    8m
  • Diferencia entre las tres APIs: DataFrame, Dataset y Case Class

    14m
  • Agregaciones

    10m
  • Descripción del supuesto práctico

    1m
  • Configuración del proyecto

    7m
  • Agregaciones y Joins

    7m
  • UDFs y filtros

    7m
  • Librería externa con Java

    7m
  • Inclusión en el proyecto Scala de Spark

    4m
  • Creación y submisión de un jar con las tareas a ejecutar

    6m

Relacionado

Te dejamos una selección de cursos, carreras y artículos

Apache Spark VS Hadoop Map Reduce

Apache Spark VS Hadoop Map Reduce

Big Data

19 de Marzo de 2019

Conoce las principales diferencias que existen entre Apache Spark y Hadoop para procesamientos Big Data.

Curso de Introducción al Big Data

Curso de Introducción al Big Data

curso

Aprende los fundamentos del Big Data y que tecnologías se usan en la actualidad en este sector.

Duración: 4 horas y 42 minutos

Preguntas Frecuentes

En OpenWebinars no vendemos cursos o talleres unitarios.

Tenemos diferentes tipos de suscripciónes, que te dará acceso completo a todos los cursos de la plataforma y a los nuevos que vamos lanzando, siempre y cuando tu suscripción esté activa (como Spotify con la música o Netflix con las películas y series).

¿Eres una empresa? Tenemos planes especiales para tí. Consúltanos aquí.

En OpenWebinars los cursos no tienen fecha de inicio y de final.

Cada curso tiene una fecha de publicación y desde ese día estarán 100% disponible todos los contenidos del curso para los usuarios suscritos a alguno de nuestro planes.

Si estás suscrito al plan Profesional o VIP, en todos los cursos existe un examen final para evaluar tus conocimientos adquiridos. Si superas este examen con más de un 80% de preguntas correctas obtendrás el diploma de certificación. Puedes realizar un intento cada 24 horas.

Este diploma es un certificado privado emitido por OpenWebinars, y valorado en el mundo empresarial, ya que tenemos grandes compañías clientes que se forman con nosotros y valoran nuestras certificaciones.

No olvides poner tu certificación en tu perfil Linkedin y en tu currículum.

Descripción

Realizando este curso aprenderás a programar scripts de procesamientos de datos capaces de ejecutarse de forma clusterizada con Spark SQL, el módulo de Apache Spark para el tratamiento de la información incluida en bases de datos, una de las herramientas clave en el tratamiento del Big Data.

La formación se divide en tres partes claramente diferenciadas. La primera es una introducción a Apache Spark, dónde se explicará qué es, cuál es su arquitectura de ejecución, sus componentes y los componentes de su ecosistema y finalmente las ventajas de su uso.

Completando este bloque introductorio se realiza un acercamiento al modelo de programación de Spark, detallando las APIs que están disponibles para esta programación, en qué lenguajes se puede programar y también cómo se submiten las tareas al clúster.

El segundo bloque lo dedica el tutor de la formación a desarrollar los fundamentos de programación de scripts en Apache Spark. Es un bloque dividido en varias lecciones, en las que se desglosan estos fundamentos, de modo que puedas ir comprendiendo los mismos y continuar avanzando según asimiles bien lo anterior.

Se comienza realizando la instalación y configuración del entorno necesario para trabajar con Apache Spark, de una forma práctica para que se pueda ir haciendo al mismo tiempo. Este proceso se realiza tanto en sistemas Windows como en Linux, para que cada alumno pueda seguir el que le interese según sea su caso.

Finalizada la instalación y configuración necesaria para trabajar con Spark SQL, te explicaremos cómo funciona el flujo de tratamiento de datos en el mismo, qué formatos se pueden utilizar en el mismo, tanto de ficheros como de bases de datos, ya sean relacionales o no relacionales. Tras el desarrollo teórico de este flujo de tratamientos de datos, realizaremos unos interesantes ejemplos prácticos de escritura y lectura en Spark.

En la siguiente lección vas a aprender las diferencias entre las tres APIs de las que dispone Apache Spark, con ejemplos de ejecución para cada una de ellas, y por qué preferentemente se utiliza DataFrame sobre las otras dos disponibles.

Para finalizar este segundo bloque te proponemos ver el cálculo de agregaciones, que es la parte más aplicada de Spark. Aprenderás en este segmento cuales son las agregaciones disponibles y también las diferencias entre hacer agregaciones sobre Dataframes frente a utilizar queries de tipo SQL.

De esta forma finalizaría el bloque teórico del curso y podrías continuar el mismo entrando en el bloque número tres, en el que se desarrollará el supuesto práctico en el que veremos cómo aplicar todo lo aprendido hasta ese momento.

Este bloque está divido también en diferentes secciones, de forma que el desarrollo quede bien dividido y puedas avanzar sobre el mismo según lo vayas necesitando. Se comenzará realizando la configuración del proyecto, instalando IntelliJ con SBT, creando el proyecto Scala, importando Spark al proyecto y creando una clase de aplicación con sesión de Spark.

Después se realizarán unos ejemplos de cálculo de agregaciones y joins, para después realizar el análisis de los datos de ejemplo, a través de UDFs y filtros. A continuación veremos cómo utilizar librerías externas en las UDFs, incluyendo una librería Java y después incluyendo la misma en nuestro proyecto Scala.

Y para acabar este proyecto práctico realizaremos la creación de un jar con las tareas de Spark y cómo submitirlo al clúster. De esta forma habrás podido ver paso a paso todo lo necesario para aplicar la teoría del curso de una forma práctica y guiada, realizando un proyecto completo.

* Requisitos del Curso

El curso está orientado a personas con conocimientos de programación en Java o Scala y deseos de formarse en tecnologías Big Data. Aunque se haga uso del lenguaje de programación Scala, no es necesario un conocimiento previo de dicho lenguaje para poder seguir el curso.

Estas son algunas de las empresas que ya confían en OpenWebinars

Profesores y profesionales

Nuestros docentes son profesionales que trabajan día a día en la materia que imparten

Conviértete en profesor de OpenWebinars