AWS

Curso de Implementación de una Data Pipeline con AWS EMR y PySpark

Aprende a implementar un pipeline de datos robusto y seguro sobre una arquitectura de AWS, utilizando PySpark para realizar las agregaciones necesarias y Athena para exportar datos.
5.0 (2 valoraciones)
1 hora y 41 minutos · Curso
Implementar una Data Pipeline con AWS EMR y PySpark

Lo que aprenderás en este curso:

  • Crear un cluster de EMR.
  • Optimizar la clusterización de EMR.
  • Transformar datos con PySpark.
  • Implementar un flujo automatizado de datos.
  • Securizar el entorno EMR.
  • Cargar datos a AWS Athena.

Requisitos del curso

Es recomendable tener conocimientos sobre Data Lakes, Data Warehouse y Python.

Valoraciones de estudiantes:

  • 5
  • 4
  • 3
  • 2
  • 1
5.0
2 valoraciones

Contenido del curso:

    • Presentación
      3m
    • ¿Qué es AWS EMR?
      13m
    • Introducción a PySpark
      6m
    • Configurar y lanzar el clúster de EMR
      11m
    • Test autoevaluación
    • Administrar el clúster de EMR
      7m
    • Lanzar una aplicación y un job con EMR Serverless
      16m
    • Configurar la seguridad del clúster
      9m
    • Monitorizar EMR Jobs
      5m
    • Test autoevaluación
    • ¿Qué es AWS Athena?
      5m
    • Cargar datos de EMR a Athena
      11m
    • Diseños de casos reales con AWS EMR
      6m
    • Test autoevaluación
    • Conclusiones
      2m
También te puede interesar

Te dejamos una selección de cursos, carreras y artículos

Implementar una aplicación de pila LAMP con AWS LightSail

Implementando una aplicación de pila LAMP con AWS LightSail

38 minutos y 59 segundos · Curso

En esta formación podrás ver cómo utilizar Lightsail para implementar fácilmente aplicaciones escalables en la nube. Utilizarás la pila LAMP (Linux, Apache, MySql, PHP) como …

  • AWS
Configurar y usar AWS Redshift como DataWarehouse

Curso de Configuración y uso de AWS Redshift como DataWarehouse

1 hora y 17 minutos · Curso

En esta formación se aprenderá a montar un Data Warehouse en AWS Redshift, optimizar tanto sus clúster como las queries que se utilizan y finalmente …

  • AWS

Dudas frecuentes

1

¿Cuál es el precio?

En OpenWebinars no vendemos formaciones.

Tenemos diferentes tipos de suscripciones, que te dará acceso completo a todas las formaciones de la plataforma y a las nuevas que vamos lanzando, siempre y cuando tu suscripción esté activa (como Spotify con la música o Netflix con las películas y series).

¿Eres una empresa? Tenemos planes especiales para ti. Consúltanos aquí.

2

¿Cuándo comienza la formación?

En OpenWebinars las formaciones no tienen fecha de inicio y de final.

Cada curso tiene una fecha de publicación y desde ese día estarán 100% disponible todos los contenidos del curso para los usuarios suscritos a alguno de nuestros planes.

3

¿Puedo obtener un diploma que acredite mis conocimientos?

Efectivamente, una vez superada cada formación, podrás descargarte el diploma acreditativo de cada una de ellas. Añádelas a tu CV y mejora tu perfil para las empresas.

También podrás obtener un diploma de nivel superior al superar todas las formaciones de la lista.

En este curso exploramos los conceptos relacionados con la ejecución de cargas de trabajo en un clúster de AWS EMR optimizado, y utilizaremos PySpark para realizar las agregaciones necesarias, logrando implementar un pipeline de datos una arquitectura de AWS.

Es una formación adecuada tanto para perfiles de desarrollo de software avanzados con conocimientos previos en procesamiento de datos, como para perfiles intermedios o avanzados en ingeniería de datos o ciencia de datos que quieren aprender a automatizar procesos utilizando las herramientas de la nube de AWS.

Para completar el curso de forma adecuada, comprendiendo todo lo que se explica en el mismo, es necesario tener conocimientos a nivel intermedio de la consola de AWS, además de conocimientos avanzados en bases de datos y SQL, en Python, y también sobre conceptos de flujos de datos en Data Lake y Data Warehouse.

Comenzamos el curso con una introducción a AWS EMR, explicando los conceptos fundamentales de la herramienta, cómo configurarla inicialmente y cómo levantar un clúster y un ecosistema de EMR desde cero. Además, se introducirá PySpark, que también se utilizará a lo largo de esta formación.

Seguidamente entramos en el bloque dedicado a la administración del clúster EMR que se había creado previamente, desde la configuración de la seguridad del mismo hasta cómo lanzar una aplicación y un job con EMR Serverless y la monitorización con EMR Jobs.

Finalmente, en el último apartado del curso, se abordará el uso de Athena para complementar nuestro ecosistema de EMR, que en este caso se utilizará para cargar datos. Aquí aprenderás las características de esta aplicación, cómo cargar los datos y también veremos algunos diseños de casos reales en los que se utilizó AWS EMR.

Artículos
Ver todos