Individuelle Terminplanung
Die Kurse finden als dedizierte Gruppen-Sessions statt. Nach Ihrer Buchung koordinieren wir einen Termin, der zu Ihrem Team passt.
Voraussetzungen
Was Sie lernen werden
Die Rolle eines Dateningenieurs
Datenquellen versus Datensenken
Datenformate
Optionen für Speicherlösungen auf Google Cloud
Optionen für die Metadatenverwaltung auf Google Cloud
Freigabe von Datasets mit Analytics Hub
Replikations- und Migrationsarchitektur
Das Befehlszeilentool gcloud
Verschieben von Datasets
Datastream
Extract-and-Load-Architektur
Das bq-Befehlszeilentool
BigQuery Data Transfer Service
BigLake
Extract, Load und Transform (ELT)-Architektur
SQL-Skripting und -Planung mit BigQuery
Dataform
Extract, Transform und Load (ETL)-Architektur
Google Cloud GUI-Tools für ETL-Datenpipelines
Batch-Datenverarbeitung mit Dataproc
Optionen für die Streaming-Datenverarbeitung
Bigtable und Datenpipelines
Automatisierungsmuster und -optionen für Pipelines
Cloud Scheduler und Workflows
Cloud Composer
Cloud Run Functions
Eventarc
Die Klassiker: Data Lakes und Data Warehouses
Der moderne Ansatz: Data Lakehouse
Die richtige Architektur wählen
Erstellen einer Data Lake-Grundlage
Einführung in das offene Tabellenformat Apache Iceberg
BigQuery als zentrale Verarbeitungsmaschine
Kombinieren von Betriebsdaten in AlloyDB
Kombinieren von Betriebs- und Analysedaten mit föderierten Abfragen
Praktischer Anwendungsfall
BigQuery-Grundlagen
Partitionierung und Clustering in BigQuery
Einführung in BigLake und externe Tabellen
Data Governance und Sicherheit in einer einheitlichen Plattform
Demo: Data Loss Prevention
Analysen und maschinelles Lernen auf dem Lakehouse
Praktische Lakehouse-Architekturen und Migrationsstrategien
Überprüfung
Best Practices
Batch-Datenpipelines und ihre Anwendungsfälle
Verarbeitung und häufige Herausforderungen
Batch-Pipelines entwerfen
Große Datentransformationen
Dataflow und Serverless für Apache Spark
Datenverbindungen und Orchestrierung
Eine Apache Spark-Pipeline ausführen
Batch-Pipeline-Leistung optimieren
Batch-Datenvalidierung und -bereinigung
Fehler protokollieren und analysieren
Schema-Evolution für Batch-Pipelines
Datenintegrität und Duplizierung
Deduplizierung mit Serverless für Apache Spark
Deduplizierung mit Dataflow
Orchestrierung für die Batch-Verarbeitung
Cloud Composer
Vereinheitlichte Beobachtbarkeit
Alarme und Fehlerbehebung
Visuelle Pipeline-Verwaltung
Lernziele des Kurses
Kursvoraussetzungen
Der Anwendungsfall, das Unternehmen, die Herausforderung und die Mission
Einführung in Streaming-Datenpipelines auf Google Cloud
Streaming ETL
Streaming AI/ML
Streaming-Anwendungen
Reverse ETL
Architektonische Überlegungen für Pub/Sub und Managed Service für Apache Kafka
Dataflow: Das Verarbeitungs-Kraftpaket
BigQuery: Die Analyse-Engine
Bigtable: Die Lösung für Betriebsdaten
Was Sie erreicht haben
Nächste Schritte