Inhaltsverzeichnis
- Kurzprofil
- Rahmendaten
- Zielgruppe
- Voraussetzungen
- Lernziele
- Inhalte nach Tagen
- Capstone-Projekt
- Technische Umgebung
- Artefakte und Templates
Kurzprofil
Die Intensivwoche fasst das gesamte Seminarportfolio zu Apache Avro als End-to-End-Track zusammen. Von Grundlagen über Schema Evolution und Java-Implementierung bis zu Event Streaming, Data Lake und Betriebsaspekten entsteht ein durchgängiges Systembild. Ein Capstone-Projekt verbindet alle Themen in einer realistischen Mini-Architektur.
Rahmendaten
- Dauer: 5 Tage
- Niveau: Grundlagen bis Fortgeschritten
- Format: Intensivtraining mit aufeinander aufbauenden Labs
Zielgruppe
- Teams mit Bedarf an vollständiger Avro-Kompetenz in kurzer Zeit
- Plattform- und Architekturteams, die Standards definieren
- Entwicklung und Data Engineering mit End-to-End-Verantwortung
Voraussetzungen
- Programmierpraxis (Java empfohlen, Python möglich)
- Grundverständnis verteilter Systeme
Lernziele
- Avro-Datenverträge von der Modellierung bis zum Betrieb beherrschen
- Kompatibilitätsregeln sicher anwenden und automatisieren
- Avro in Java implementieren, testen und optimieren
- Streaming- und Data-Lake-Integrationen konsistent gestalten
- Governance, Observability und Runbooks für produktive Umgebungen aufbauen
Inhalte nach Tagen
Tag 1: Avro-Grundlagen und Schema-Design
- Schema-Sprache, Records/Unions/Defaults/Logical Types
- Writer/Reader-Auflösung, Serialisierungspfade, Container-Dateien
- Tooling: Validierung, Inspektion, Build-Integration
Tag 2: Schema Evolution & Compatibility
- Kompatibilitätsmodelle und sichere Evolutionsmuster
- Breaking-Change-Katalog und Migrationsstrategien
- Kompatibilitätsmatrix, Review-Checklisten, CI-Gate
Tag 3: Entwicklerworkshop Java
- Generic/Specific/Reflect APIs, Code-Generierung
- Serialisierung/Deserialisierung in Services und Libraries
- Tests, Golden Messages, Performance-Tuning
Tag 4: Event Streaming und Registry-Konzepte
- Event-Schema-Design, Key/Value-Strategien
- Registry-Subjects, Kompatibilitätsmodi, Lifecycle
- Rollout-Strategien Producer/Consumer, Fehlerkanäle und Reprocessing
Tag 5: Data Lake, Qualität, Performance & Betrieb
- Avro-Dateien in Spark/Hadoop/Hive, Schema-on-Read, Partitionen
- Qualitätschecks, Observability, Diagnosepfade
- Governance- und Runbook-Bausteine, Abschluss mit Capstone
Capstone-Projekt
Das Capstone verbindet alle Inhalte zu einer Mini-Architektur mit Event Stream, Consumer-Service und analytischem Batch-Job.
Schritt-für-Schritt
- Domänenereignis auswählen und Schema v1 definieren (inkl. Konventionen, Defaults, Doc-Felder).
- Java-Producer implementieren und Events serialisieren.
- Registry-Strategie festlegen (Subject-Naming, Kompatibilitätsmodus) und Schema registrieren.
- Java-Consumer implementieren, Fehlertoleranz und Observability ergänzen (Schema-ID, Version, Fehlerkategorien).
- Schema v2 planen (kompatible Änderung), CI-Gate definieren und Rollout-Plan erstellen.
- Events zusätzlich als Avro-Dateien in eine Landing-Zone schreiben und mit Spark lesen.
- Qualitätsregeln definieren, Quarantäne-Strategie skizzieren und Runbook-Eintrag erstellen.
- Performance-Tuning durchführen (Kompression/Blockgröße, Encoder-Reuse) und Ergebnisse dokumentieren.
Technische Umgebung
- Java-Toolchain (Build, Tests), alternativ Python für Teil-Labs
- Kafka-Umgebung und Registry für Streaming-Labs
- Spark-Umgebung für Data-Lake-Labs
Artefakte und Templates
- Schema-Konventionsdokument und Naming-Regeln
- Kompatibilitätsmatrix-Template
- CI-Gate-Checkliste und Release-Workflow
- Rollout-Playbook Producer/Consumer
- Runbook-Skelett für Diagnose und Reprocessing
