3 Tage EN / DE Max 16

Serverless Data Processing mit Dataflow

Dieses Training richtet sich an Big-Data-Experten, die ihr Verständnis von Dataflow erweitern möchten, um ihre Datenverarbeitungsanwendungen zu verbessern. Beginnend mit den Grundlagen erklärt dieses Training, wie Apache Beam und Dataflow zusammenarbeiten, um Ihre Datenverarbeitungsanforderungen ohne das Risiko eines Vendor Lock-ins zu erfüllen. Der Abschnitt zur Entwicklung von Pipelines behandelt, wie Sie Ihre Geschäftslogik in Datenverarbeitungsanwendungen umwandeln, die auf Dataflow ausgeführt werden können. Dieses Training gipfelt in einem Fokus auf Operationen, der die wichtigsten Lektionen für den Betrieb einer Datenanwendung auf Dataflow überprüft, einschließlich Überwachung, Fehlerbehebung, Tests und Zuverlässigkeit.

€1.900,00 exkl. MwSt

Individuelle Terminplanung

Die Kurse finden als dedizierte Gruppen-Sessions statt. Nach Ihrer Buchung koordinieren wir einen Termin, der zu Ihrem Team passt.

Voraussetzungen

  • „Batch-Datenpipelines erstellen“ abgeschlossen.
  • „Robuste Streaming-Analyse-Systeme erstellen“ abgeschlossen.

Was Sie lernen werden

  • Demonstrieren Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen.
  • Fassen Sie die Vorteile des Beam Portability Frameworks zusammen und aktivieren Sie es für Ihre Dataflow-Pipelines.
  • Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen.
  • Aktivieren Sie Flexible Resource Scheduling für eine kostengünstigere Leistung.
  • Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Job.
  • Implementieren Sie Best Practices für eine sichere Datenverarbeitungsumgebung.
  • Wählen und optimieren Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline.
  • Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern.
  • Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames.
  • Führen Sie Überwachung, Fehlerbehebung, Tests und CI/CD für Dataflow-Pipelines durch.

Kursablauf
Kurseinführung Beam- und Dataflow-Auffrischung
Beam-Portabilität Runner v2 Container-Umgebungen Sprachübergreifende Transformationen
Dataflow Shuffle Service Dataflow Streaming Engine Flexible Ressourcenzuweisung
IAM Quote
Datenlokalität Shared VPC Private IPs CMEK
Beam-Grundlagen Dienstprogramm-Transformationen DoFn-Lebenszyklus
Fenster Wasserzeichen Trigger
Quellen und Senken Text IO und File IO BigQuery IO PubSub IO Kafka IO Bigtable IO Avro IO Splittable DoFn
Beam-Schemata Codebeispiele
State API Timer API Zusammenfassung
Schemata Umgang mit nicht verarbeitbaren Daten Fehlerbehandlung AutoValue Code Generator Umgang mit JSON-Daten Nutzung des DoFn-Lebenszyklus Pipeline-Optimierungen
Dataflow und Beam SQL Windowing in SQL Beam DataFrames
Beam-Notebooks
Jobliste Jobinformationen Jobgraph Jobmetriken Metrik-Explorer
Protokollierung Fehlerberichterstattung
Workflow zur Fehlerbehebung Arten von Problemen
Pipeline-Design Datenform Quellen, Senken und externe Systeme Shuffle und Streaming Engine
Übersicht Testen und CI/CD Unit-Tests Integrationstests Artefakt-Erstellung Bereitstellung
Einführung in die Zuverlässigkeit Überwachung Geolokalisierung Disaster Recovery Hochverfügbarkeit
Klassische Templates Flexible Templates Verwendung flexibler Templates Von Google bereitgestellte Templates
Zusammenfassung
Serverless Data Processing mit Dataflow