Apache Arrow Masterclass – Intensivseminar Seminar Training Schulung Berlin, Hamburg, Köln, ...

Inhaltsverzeichnis

Abstract
Überblick
Lernziele
Zielgruppe
Voraussetzungen
Inhalte
Praxis-Labs
Technischer Rahmen

Abstract

Komplettpaket für Teams, die Arrow als Standard etablieren: von Grundlagen über Python/JVM‑Implementierung und Flight‑Services bis zu Interoperabilität, Performance‑Engineering und Betriebskonzepten.

Dauer: 6 Tage

Format: Präsenz oder Live-Online

Überblick

Die Masterclass kombiniert die Kernthemen aller Module in einer durchgehenden Fallstudie. Der Fokus liegt auf Architekturentscheidungen, robusten Datenverträgen und einem produktionsnahen Service‑Prototyp.

Der Umfang ist auf 6 Tage ausgelegt, um Breite abzudecken und gleichzeitig genügend Praxiszeit für ein integriertes Projekt bereitzustellen.

Lernziele

Arrow‑Kernkonzepte sicher beherrschen und standardisieren
Python‑Pipelines und JVM‑Komponenten auf Arrow ausrichten
Flight‑Services inkl. Security und Observability implementieren
Interop‑Verträge definieren und als Tests absichern
Performance‑Engpässe messen, priorisieren und beheben
Betriebskonzepte inkl. Release‑Policy und Incident‑Playbooks erstellen

Zielgruppe

Cross‑funktionale Teams (Data Engineering, Backend, Plattform)
Tech Leads und Architekturen für Datenplattformen
Organisationen, die Arrow als Austauschstandard einführen

Voraussetzungen

Programmierung in Python oder Java (beides vorteilhaft)
Grundverständnis zu Datenpipelines und Service‑Architekturen
Für sehr heterogene Teams: Vorkenntnisse aus dem Grundlagen‑Seminar hilfreich

Inhalte

Tag 1: Grundlagen und Datenmodell

Speicherlayout, Datentypen, Schemas
IPC‑Austausch, Kompatibilität
Fallstudie: Referenz‑Schema und Beispiel‑Dataset

Tag 2–3: Python Data Engineering

PyArrow Kernobjekte, Dataset‑API
Parquet‑Layouts und Pushdown
Compute‑Kernels für Transformation und Validierung

Tag 4: Flight & Flight SQL

Service‑API Design, Ticketing/Endpoints
Security, Parallelität, Backpressure
SQL‑Schnittstelle für Abfragen

Tag 5: JVM‑Integration und Interop

Arrow Java Vectors, Allocators
IPC/Flight Interop zwischen Python und JVM
Contract‑Tests und Schema‑Evolution

Tag 6: Performance und Produktion

Benchmarking, Profiling, Tuning
Observability, Runbooks, Release‑Policy
Abschluss der Fallstudie: End‑to‑End‑Pipeline + Service

Praxis-Labs

Durchgehende Übungsstrecke: Arrow‑basiertes Datenprodukt

Referenz‑Schema definieren und Contract‑Tests anlegen
Python‑Pipeline: Dataset‑Scan, Transformation, Validierung, Parquet‑Write
Flight‑Service: Datenbereitstellung und SQL‑Abfragen
JVM‑Client/Komponente: Interop und Memory‑Safety
Performance‑Iteration: Messung, Hypothesen, Tuning, Regressionstest
Betriebspaket: Metriken, Logs, Traces, Alerting‑Signale, Runbook

Technischer Rahmen

Python und Java Toolchain, Container optional
Projektvorlagen und Übungen offline nutzbar
Empfohlen: 16–32 GB RAM für komfortables Arbeiten
Optional: Team‑CI‑Beispiel zur Einbindung in interne Entwicklungsprozesse

Nach oben

Seminar Apache Arrow Masterclass – Intensivseminar