Big Data

Curso de Spark SQL: Programación de Scripts

Aprende a programar scripts de procesamiento de datos capaces de ejecutarse de forma clusterizada mediante el framework Apache Spark.
3.9 (178 valoraciones)
1 hora y 48 minutos · Curso
Spark SQL: Programación de Scripts

Lo que aprenderás en este curso:

  • Instalar Apache Spark en Windows y Linux
  • Lanzar localmente un shell de Spark
  • Gestión de dependencias de proyectos Scala mediante SBT.
  • Ejecución de scripts programados en Scala sobre Apache Spark mediante el IDE IntelliJ.
  • Los objetos RDD y Dataframe.
  • Funciones de agregación en Spark SQL.
  • Funciones definidas de usuario (UDF).
  • Crear y submitir un jar con las tareas a ejecutar por Apache Spark.

Requisitos del curso

El curso está orientado a personas con conocimientos de programación en Java o Scala y deseos de formarse en tecnologías Big Data. Aunque se haga uso del lenguaje de programación Scala, no es necesario un conocimiento previo de dicho lenguaje para poder seguir el curso.

Valoraciones de estudiantes:

  • 5
  • 4
  • 3
  • 2
  • 1
4.0
178 valoraciones

Contenido del curso:

    • 1m
    • ¿Qué es Apache Spark?
      8m
    • Modelo de programación
      5m
    • Configuración del entorno en Windows
      9m
    • Configuración del entorno en Linux
      3m
    • 2m
    • Ejemplos de lectura y escritura
      8m
    • Diferencia entre las tres APIs: DataFrame, Dataset y Case Class
      14m
    • Agregaciones
      10m
    • Descripción del supuesto práctico
      1m
    • Configuración del proyecto
      7m
    • Agregaciones y Joins
      7m
    • UDFs y filtros
      7m
    • Librería externa con Java
      7m
    • Inclusión en el proyecto Scala de Spark
      4m
    • Creación y submisión de un jar con las tareas a ejecutar
      6m
También te puede interesar

Te dejamos una selección de cursos, carreras y artículos

Fundamentos de DAX

Fundamentos de DAX

4 horas y 40 minutos · Curso

En esta formación aprenderás los aspectos esenciales del uso de DAX como lenguaje de análisis y expresiones de datos y fórmulas dentro del entorno de …

  • Business Intelligence
Conociendo PySpark

Conociendo PySpark

3 horas y 10 minutos · Curso

En esta formación aprenderás los conceptos fundamentales para el uso del framework y la librería de PySpark de Python. También se abordarán temáticas asociadas al …

  • Data Science

Dudas frecuentes

1

¿Cuál es el precio?

En OpenWebinars no vendemos formaciones.

Tenemos diferentes tipos de suscripciones, que te dará acceso completo a todas las formaciones de la plataforma y a las nuevas que vamos lanzando, siempre y cuando tu suscripción esté activa (como Spotify con la música o Netflix con las películas y series).

¿Eres una empresa? Tenemos planes especiales para ti. Consúltanos aquí.

2

¿Cuándo comienza la formación?

En OpenWebinars las formaciones no tienen fecha de inicio y de final.

Cada curso tiene una fecha de publicación y desde ese día estarán 100% disponible todos los contenidos del curso para los usuarios suscritos a alguno de nuestros planes.

3

¿Obtengo un diploma de certificación?

En todos los cursos existe un examen final para evaluar tus conocimientos adquiridos. Si superas este examen con más de un 80% de preguntas correctas obtendrás el diploma de certificación. Puedes realizar un intento cada 24 horas.

Este diploma es un certificado privado emitido por OpenWebinars, y valorado en el mundo empresarial, ya que tenemos grandes compañías clientes que se forman con nosotros y valoran nuestras certificaciones.

No olvides poner tu certificación en tu perfil Linkedin y en tu currículum.

Realizando este curso aprenderás a programar scripts de procesamientos de datos capaces de ejecutarse de forma clusterizada con Spark SQL, el módulo de Apache Spark para el tratamiento de la información incluida en bases de datos, una de las herramientas clave en el tratamiento del Big Data.

La formación se divide en tres partes claramente diferenciadas. La primera es una introducción a Apache Spark, dónde se explicará qué es, cuál es su arquitectura de ejecución, sus componentes y los componentes de su ecosistema y finalmente las ventajas de su uso.

Completando este bloque introductorio se realiza un acercamiento al modelo de programación de Spark, detallando las APIs que están disponibles para esta programación, en qué lenguajes se puede programar y también cómo se submiten las tareas al clúster.

El segundo bloque lo dedica el tutor de la formación a desarrollar los fundamentos de programación de scripts en Apache Spark. Es un bloque dividido en varias lecciones, en las que se desglosan estos fundamentos, de modo que puedas ir comprendiendo los mismos y continuar avanzando según asimiles bien lo anterior.

Se comienza realizando la instalación y configuración del entorno necesario para trabajar con Apache Spark, de una forma práctica para que se pueda ir haciendo al mismo tiempo. Este proceso se realiza tanto en sistemas Windows como en Linux, para que cada alumno pueda seguir el que le interese según sea su caso.

Finalizada la instalación y configuración necesaria para trabajar con Spark SQL, te explicaremos cómo funciona el flujo de tratamiento de datos en el mismo, qué formatos se pueden utilizar en el mismo, tanto de ficheros como de bases de datos, ya sean relacionales o no relacionales. Tras el desarrollo teórico de este flujo de tratamientos de datos, realizaremos unos interesantes ejemplos prácticos de escritura y lectura en Spark.

En la siguiente lección vas a aprender las diferencias entre las tres APIs de las que dispone Apache Spark, con ejemplos de ejecución para cada una de ellas, y por qué preferentemente se utiliza DataFrame sobre las otras dos disponibles.

Para finalizar este segundo bloque te proponemos ver el cálculo de agregaciones, que es la parte más aplicada de Spark. Aprenderás en este segmento cuales son las agregaciones disponibles y también las diferencias entre hacer agregaciones sobre Dataframes frente a utilizar queries de tipo SQL.

De esta forma finalizaría el bloque teórico del curso y podrías continuar el mismo entrando en el bloque número tres, en el que se desarrollará el supuesto práctico en el que veremos cómo aplicar todo lo aprendido hasta ese momento.

Este bloque está divido también en diferentes secciones, de forma que el desarrollo quede bien dividido y puedas avanzar sobre el mismo según lo vayas necesitando. Se comenzará realizando la configuración del proyecto, instalando IntelliJ con SBT, creando el proyecto Scala, importando Spark al proyecto y creando una clase de aplicación con sesión de Spark.

Después se realizarán unos ejemplos de cálculo de agregaciones y joins, para después realizar el análisis de los datos de ejemplo, a través de UDFs y filtros. A continuación veremos cómo utilizar librerías externas en las UDFs, incluyendo una librería Java y después incluyendo la misma en nuestro proyecto Scala.

Y para acabar este proyecto práctico realizaremos la creación de un jar con las tareas de Spark y cómo submitirlo al clúster. De esta forma habrás podido ver paso a paso todo lo necesario para aplicar la teoría del curso de una forma práctica y guiada, realizando un proyecto completo.

Artículos
Ver todos