4 Tage EN / DE Max 16

Data Engineering in der Google Cloud

Sammeln Sie praktische Erfahrungen mit dem Entwurf und der Entwicklung von Datenverarbeitungssystemen in Google Cloud. Dieser Kurs vermittelt Ihnen anhand von Präsentationen, Demos und praktischen Übungen, wie Sie Datenverarbeitungssysteme entwerfen, End-to-End-Datenpipelines erstellen, Daten analysieren und maschinelles Lernen implementieren. Dieser Kurs behandelt strukturierte, unstrukturierte und Streaming-Daten.

€2.900,00 exkl. MwSt

Individuelle Terminplanung

Die Kurse finden als dedizierte Gruppen-Sessions statt. Nach Ihrer Buchung koordinieren wir einen Termin, der zu Ihrem Team passt.

Voraussetzungen

  • Verständnis von Data-Engineering-Prinzipien, einschließlich ETL/ELT-Prozessen, Datenmodellierung und gängigen Datenformaten (Avro, Parquet, JSON).
  • Vertrautheit mit Konzepten der Datenarchitektur, insbesondere Data Warehouses und Data Lakes.
  • Sicherheit in SQL für die Datenabfrage.
  • Sicherheit in einer gängigen Programmiersprache (Python empfohlen).
  • Vertrautheit mit der Verwendung von Befehlszeilenschnittstellen (CLI).
  • Vertrautheit mit den Kernkonzepten und Diensten von Google Cloud (Compute, Storage und Identitätsmanagement).

Was Sie lernen werden

  • Skalierbare Datenverarbeitungssysteme in Google Cloud entwerfen.
  • Datenarchitekturen unterscheiden und Data-Lakehouse- und Pipeline-Konzepte implementieren.
  • Robuste Streaming- und Batch-Datenpipelines erstellen und verwalten.
  • KI/ML-Tools nutzen, um die Leistung zu optimieren und Prozess- und Dateneinblicke zu gewinnen.

Kursablauf
Die Rolle eines Dateningenieurs Datenquellen versus Datensenken Datenformate Optionen für Speicherlösungen auf Google Cloud Optionen für die Metadatenverwaltung auf Google Cloud Freigabe von Datasets mit Analytics Hub
Replikations- und Migrationsarchitektur Das Befehlszeilentool gcloud Verschieben von Datasets Datastream
Extract-and-Load-Architektur Das bq-Befehlszeilentool BigQuery Data Transfer Service BigLake
Extract, Load und Transform (ELT)-Architektur SQL-Skripting und -Planung mit BigQuery Dataform
Extract, Transform und Load (ETL)-Architektur Google Cloud GUI-Tools für ETL-Datenpipelines Batch-Datenverarbeitung mit Dataproc Optionen für die Streaming-Datenverarbeitung Bigtable und Datenpipelines
Automatisierungsmuster und -optionen für Pipelines Cloud Scheduler und Workflows Cloud Composer Cloud Run Functions Eventarc
Die Klassiker: Data Lakes und Data Warehouses Der moderne Ansatz: Data Lakehouse Die richtige Architektur wählen
Erstellen einer Data Lake-Grundlage Einführung in das offene Tabellenformat Apache Iceberg BigQuery als zentrale Verarbeitungsmaschine Kombinieren von Betriebsdaten in AlloyDB Kombinieren von Betriebs- und Analysedaten mit föderierten Abfragen Praktischer Anwendungsfall
BigQuery-Grundlagen Partitionierung und Clustering in BigQuery Einführung in BigLake und externe Tabellen
Data Governance und Sicherheit in einer einheitlichen Plattform Demo: Data Loss Prevention Analysen und maschinelles Lernen auf dem Lakehouse Praktische Lakehouse-Architekturen und Migrationsstrategien
Überprüfung Best Practices
Batch-Datenpipelines und ihre Anwendungsfälle Verarbeitung und häufige Herausforderungen
Batch-Pipelines entwerfen Große Datentransformationen Dataflow und Serverless für Apache Spark Datenverbindungen und Orchestrierung Eine Apache Spark-Pipeline ausführen Batch-Pipeline-Leistung optimieren
Batch-Datenvalidierung und -bereinigung Fehler protokollieren und analysieren Schema-Evolution für Batch-Pipelines Datenintegrität und Duplizierung Deduplizierung mit Serverless für Apache Spark Deduplizierung mit Dataflow
Orchestrierung für die Batch-Verarbeitung Cloud Composer Vereinheitlichte Beobachtbarkeit Alarme und Fehlerbehebung Visuelle Pipeline-Verwaltung
Lernziele des Kurses Kursvoraussetzungen Der Anwendungsfall, das Unternehmen, die Herausforderung und die Mission
Einführung in Streaming-Datenpipelines auf Google Cloud Streaming ETL Streaming AI/ML Streaming-Anwendungen Reverse ETL
Architektonische Überlegungen für Pub/Sub und Managed Service für Apache Kafka Dataflow: Das Verarbeitungs-Kraftpaket BigQuery: Die Analyse-Engine Bigtable: Die Lösung für Betriebsdaten
Was Sie erreicht haben Nächste Schritte
Data Engineering in der Google Cloud