Inhaltsverzeichnis
- Abstract
- Überblick
- Lernziele
- Zielgruppe
- Voraussetzungen
- Inhalte
- Praxis-Labs
- Technischer Rahmen
Abstract
Komplettpaket für Teams, die Arrow als Standard etablieren: von Grundlagen über Python/JVM‑Implementierung und Flight‑Services bis zu Interoperabilität, Performance‑Engineering und Betriebskonzepten.
Dauer: 6 Tage
Format: Präsenz oder Live-Online
Überblick
Die Masterclass kombiniert die Kernthemen aller Module in einer durchgehenden Fallstudie. Der Fokus liegt auf Architekturentscheidungen, robusten Datenverträgen und einem produktionsnahen Service‑Prototyp.
Der Umfang ist auf 6 Tage ausgelegt, um Breite abzudecken und gleichzeitig genügend Praxiszeit für ein integriertes Projekt bereitzustellen.
Lernziele
- Arrow‑Kernkonzepte sicher beherrschen und standardisieren
- Python‑Pipelines und JVM‑Komponenten auf Arrow ausrichten
- Flight‑Services inkl. Security und Observability implementieren
- Interop‑Verträge definieren und als Tests absichern
- Performance‑Engpässe messen, priorisieren und beheben
- Betriebskonzepte inkl. Release‑Policy und Incident‑Playbooks erstellen
Zielgruppe
- Cross‑funktionale Teams (Data Engineering, Backend, Plattform)
- Tech Leads und Architekturen für Datenplattformen
- Organisationen, die Arrow als Austauschstandard einführen
Voraussetzungen
- Programmierung in Python oder Java (beides vorteilhaft)
- Grundverständnis zu Datenpipelines und Service‑Architekturen
- Für sehr heterogene Teams: Vorkenntnisse aus dem Grundlagen‑Seminar hilfreich
Inhalte
Tag 1: Grundlagen und Datenmodell
- Speicherlayout, Datentypen, Schemas
- IPC‑Austausch, Kompatibilität
- Fallstudie: Referenz‑Schema und Beispiel‑Dataset
Tag 2–3: Python Data Engineering
- PyArrow Kernobjekte, Dataset‑API
- Parquet‑Layouts und Pushdown
- Compute‑Kernels für Transformation und Validierung
Tag 4: Flight & Flight SQL
- Service‑API Design, Ticketing/Endpoints
- Security, Parallelität, Backpressure
- SQL‑Schnittstelle für Abfragen
Tag 5: JVM‑Integration und Interop
- Arrow Java Vectors, Allocators
- IPC/Flight Interop zwischen Python und JVM
- Contract‑Tests und Schema‑Evolution
Tag 6: Performance und Produktion
- Benchmarking, Profiling, Tuning
- Observability, Runbooks, Release‑Policy
- Abschluss der Fallstudie: End‑to‑End‑Pipeline + Service
Praxis-Labs
Durchgehende Übungsstrecke: Arrow‑basiertes Datenprodukt
- Referenz‑Schema definieren und Contract‑Tests anlegen
- Python‑Pipeline: Dataset‑Scan, Transformation, Validierung, Parquet‑Write
- Flight‑Service: Datenbereitstellung und SQL‑Abfragen
- JVM‑Client/Komponente: Interop und Memory‑Safety
- Performance‑Iteration: Messung, Hypothesen, Tuning, Regressionstest
- Betriebspaket: Metriken, Logs, Traces, Alerting‑Signale, Runbook
Technischer Rahmen
- Python und Java Toolchain, Container optional
- Projektvorlagen und Übungen offline nutzbar
- Empfohlen: 16–32 GB RAM für komfortables Arbeiten
- Optional: Team‑CI‑Beispiel zur Einbindung in interne Entwicklungsprozesse
