Google Cloud Platform

Preprocesando datos del NYT con una canalización de Data Fusion en GCP

Si trabajas con Google Cloud Platform y quieres aprender a procesar datos utilizando Dataflow, en esta formación te enseñamos de forma práctica.

Impartido por:

Preprocesar datos del NYT con canalización de Data Fusion en GCP

Lo que aprenderás en este curso:

  • Crear una instancia de Data Fusion.
  • Implemente una canalización de muestra que ejecute algunas transformaciones en un archivo JSON y filtre los resultados coincidentes en BigQuery.

Requisitos del curso

Para un mejor aprovechamiento de esta formación, es recomendable estar familiarizado con una variedad de servicios de Google Cloud como BigQuery y Cloud Storage, así como tener una comprensión básica de los conceptos y términos relacionados con el proceso de ingesta de datos.

Valoraciones de estudiantes:

  • 5
  • 4
  • 3
  • 2
  • 1
0.0
0 valoraciones

Contenido del curso:

    • 6m
    • Introducción a Data Fusion y BigQuery
      5m
    • Desarrollo
      21m
    • Conclusiones y próximos pasos
      3m
También te puede interesar

Te dejamos una selección de cursos, carreras y artículos

Controlar en GCP la facturación de recursos y analizar el gasto

Controlando en GCP la facturación de nuestros recursos y analizando el gasto

21 minutos y 44 segundos · Curso

Los informes de Facturación de Google Cloud son una de las herramientas de administración de costos y proporcionan información integrada dentro de la consola de …

  • Google Cloud Platform
Gestión de múltiples identidades de nuestra organización en GCP con el cliente

Gestionando múltiples identidades de nuestra organización en GCP con el cliente

35 minutos y 33 segundos · Curso

Las personas nuevas en Google Cloud deben comprender IAM para comprender completamente cómo configurar los permisos necesarios para sus cargas de trabajo. Esta formación analiza …

  • Google Cloud Platform

Dudas frecuentes

1

¿Cuándo comienza la formación?

En OpenWebinars las formaciones no tienen fecha de inicio y de final.

Cada curso tiene una fecha de publicación y desde ese día estarán 100% disponible todos los contenidos del curso para los usuarios suscritos a alguno de nuestros planes.

2

¿Cuál es el precio?

En OpenWebinars no vendemos formaciones.

Tenemos diferentes tipos de suscripciones, que te dará acceso completo a todas las formaciones de la plataforma y a las nuevas que vamos lanzando, siempre y cuando tu suscripción esté activa (como Spotify con la música o Netflix con las películas y series).

¿Eres una empresa? Tenemos planes especiales para ti. Consúltanos aquí.

3

¿Puedo obtener un diploma que acredite mis conocimientos?

Efectivamente, una vez superada cada formación, podrás descargarte el diploma acreditativo de cada una de ellas. Añádelas a tu CV y mejora tu perfil para las empresas.

También podrás obtener un diploma de nivel superior al superar todas las formaciones de la lista.

Para realizar esta formación vamos a utilizar un conjunto de datos en tiempo real simulado a partir de un conjunto de datos históricos. Este conjunto de datos históricos que se utilizarán proceden del sitio web de la oficina de Estadísticas de Transporte de EE.UU., que proporciona información histórica sobre los vuelos locales en ese país.

Para mostrar cómo realizar el procesamiento de datos con Dataflow, utilizaremos Python y Google Cloud Dataflow para el procesamiento de esos datos simulados de un conjunto de archivos de texto y, después usaremos BigQuery para almacenar y analizar los datos resultantes.

Es muy recomendable tener conocimientos previos en cloud computing y en los servicios de Google Cloud, sobre todo en Vertex AI. También se debe tener una comprensión básica de los conceptos y términos relacionados con el Machine Learning y el manejo de datos en tiempo real, además de tener nociones básicas en el lenguaje de programación Python.

En el transcurso del laboratorio aprenderás a leer y escribir en cloud, a procesar datos con Dataflow supervisando el trabajo de esta herramienta, además de inspeccionar los datos ya procesados.

Todo ello se aprenderá mediante el desarrollo práctico de la configuración de una aplicación de Python para crear un flujo de datos en tiempo real simulado a partir de datos históricos, la utilización de Apache Beam de manera local para probar Dataflow localmente, el uso de Apache Beam para procesar datos con Dataflow y así crear un conjunto de datos en tiempo real simulados, y también la consulta de los flujos de datos en tiempo real simulados con BigQuery.

Artículos
Ver todos