4 Tage EN / DE Max 16

Data Engineering in der Google Cloud

Name: Data Engineering in der Google Cloud
Brand: aboutcontent - Training
Price: 2900.00 EUR
Availability: InStock

Sammeln Sie praktische Erfahrungen mit dem Entwurf und der Entwicklung von Datenverarbeitungssystemen in Google Cloud. Dieser Kurs vermittelt Ihnen anhand von Präsentationen, Demos und praktischen Übungen, wie Sie Datenverarbeitungssysteme entwerfen, End-to-End-Datenpipelines erstellen, Daten analysieren und maschinelles Lernen implementieren. Dieser Kurs behandelt strukturierte, unstrukturierte und Streaming-Daten.

€2.900,00 exkl. MwSt

Teilnehmeranzahl

Individuelle Terminplanung

Die Kurse finden als dedizierte Gruppen-Sessions statt. Nach Ihrer Buchung koordinieren wir einen Termin, der zu Ihrem Team passt.

Voraussetzungen

Verständnis von Data-Engineering-Prinzipien, einschließlich ETL/ELT-Prozessen, Datenmodellierung und gängigen Datenformaten (Avro, Parquet, JSON).
Vertrautheit mit Konzepten der Datenarchitektur, insbesondere Data Warehouses und Data Lakes.
Sicherheit in SQL für die Datenabfrage.
Sicherheit in einer gängigen Programmiersprache (Python empfohlen).
Vertrautheit mit der Verwendung von Befehlszeilenschnittstellen (CLI).
Vertrautheit mit den Kernkonzepten und Diensten von Google Cloud (Compute, Storage und Identitätsmanagement).

Was Sie lernen werden

Skalierbare Datenverarbeitungssysteme in Google Cloud entwerfen.
Datenarchitekturen unterscheiden und Data-Lakehouse- und Pipeline-Konzepte implementieren.
Robuste Streaming- und Batch-Datenpipelines erstellen und verwalten.
KI/ML-Tools nutzen, um die Leistung zu optimieren und Prozess- und Dateneinblicke zu gewinnen.

Data-Engineering-Aufgaben und -Komponenten

Die Rolle eines Dateningenieurs Datenquellen versus Datensenken Datenformate Optionen für Speicherlösungen auf Google Cloud Optionen für die Metadatenverwaltung auf Google Cloud Freigabe von Datasets mit Analytics Hub

Datenreplikation und -migration

Replikations- und Migrationsarchitektur Das Befehlszeilentool gcloud Verschieben von Datasets Datastream

Das Extract-and-Load-Datenpipeline-Muster

Extract-and-Load-Architektur Das bq-Befehlszeilentool BigQuery Data Transfer Service BigLake

Das Extract, Load und Transform (ELT)-Datenpipeline-Muster

Extract, Load und Transform (ELT)-Architektur SQL-Skripting und -Planung mit BigQuery Dataform

Das Extract, Transform und Load (ETL)-Datenpipeline-Muster

Extract, Transform und Load (ETL)-Architektur Google Cloud GUI-Tools für ETL-Datenpipelines Batch-Datenverarbeitung mit Dataproc Optionen für die Streaming-Datenverarbeitung Bigtable und Datenpipelines

Automatisierungstechniken

Automatisierungsmuster und -optionen für Pipelines Cloud Scheduler und Workflows Cloud Composer Cloud Run Functions Eventarc

Einführung in modernes Data Engineering auf Google Cloud

Die Klassiker: Data Lakes und Data Warehouses Der moderne Ansatz: Data Lakehouse Die richtige Architektur wählen

Erstellen eines Data Lakehouse mit Cloud Storage, offenen Formaten und BigQuery

Erstellen einer Data Lake-Grundlage Einführung in das offene Tabellenformat Apache Iceberg BigQuery als zentrale Verarbeitungsmaschine Kombinieren von Betriebsdaten in AlloyDB Kombinieren von Betriebs- und Analysedaten mit föderierten Abfragen Praktischer Anwendungsfall

Modernisierung von Data Warehouses mit BigQuery und BigLake

BigQuery-Grundlagen Partitionierung und Clustering in BigQuery Einführung in BigLake und externe Tabellen

Erweiterte Lakehouse-Muster und Data Governance

Data Governance und Sicherheit in einer einheitlichen Plattform Demo: Data Loss Prevention Analysen und maschinelles Lernen auf dem Lakehouse Praktische Lakehouse-Architekturen und Migrationsstrategien

Labs und Best Practices

Überprüfung Best Practices

Wann Batch-Datenpipelines zu wählen sind

Batch-Datenpipelines und ihre Anwendungsfälle Verarbeitung und häufige Herausforderungen

Skalierbare Batch-Datenpipelines entwerfen und erstellen

Batch-Pipelines entwerfen Große Datentransformationen Dataflow und Serverless für Apache Spark Datenverbindungen und Orchestrierung Eine Apache Spark-Pipeline ausführen Batch-Pipeline-Leistung optimieren

Datenqualität in Batch-Datenpipelines kontrollieren

Batch-Datenvalidierung und -bereinigung Fehler protokollieren und analysieren Schema-Evolution für Batch-Pipelines Datenintegrität und Duplizierung Deduplizierung mit Serverless für Apache Spark Deduplizierung mit Dataflow

Batch-Datenpipelines orchestrieren und überwachen

Orchestrierung für die Batch-Verarbeitung Cloud Composer Vereinheitlichte Beobachtbarkeit Alarme und Fehlerbehebung Visuelle Pipeline-Verwaltung

Kurseinführung

Lernziele des Kurses Kursvoraussetzungen Der Anwendungsfall, das Unternehmen, die Herausforderung und die Mission

Streaming-Anwendungsfälle und Referenzarchitekturen

Einführung in Streaming-Datenpipelines auf Google Cloud Streaming ETL Streaming AI/ML Streaming-Anwendungen Reverse ETL

Detaillierte Produktanalysen

Architektonische Überlegungen für Pub/Sub und Managed Service für Apache Kafka Dataflow: Das Verarbeitungs-Kraftpaket BigQuery: Die Analyse-Engine Bigtable: Die Lösung für Betriebsdaten

Wichtige Erkenntnisse

Was Sie erreicht haben Nächste Schritte

Data Engineering in der Google Cloud

Language

Data Engineering in der Google Cloud

Voraussetzungen

Was Sie lernen werden