Seminar Apache Arrow Masterclass – Intensivseminar

Inhaltsverzeichnis

  • Abstract
  • Überblick
  • Lernziele
  • Zielgruppe
  • Voraussetzungen
  • Inhalte
  • Praxis-Labs
  • Technischer Rahmen

Abstract

Komplettpaket für Teams, die Arrow als Standard etablieren: von Grundlagen über Python/JVM‑Implementierung und Flight‑Services bis zu Interoperabilität, Performance‑Engineering und Betriebskonzepten.

Dauer: 6 Tage

Format: Präsenz oder Live-Online

Überblick

Die Masterclass kombiniert die Kernthemen aller Module in einer durchgehenden Fallstudie. Der Fokus liegt auf Architekturentscheidungen, robusten Datenverträgen und einem produktionsnahen Service‑Prototyp.

Der Umfang ist auf 6 Tage ausgelegt, um Breite abzudecken und gleichzeitig genügend Praxiszeit für ein integriertes Projekt bereitzustellen.

Lernziele

  • Arrow‑Kernkonzepte sicher beherrschen und standardisieren
  • Python‑Pipelines und JVM‑Komponenten auf Arrow ausrichten
  • Flight‑Services inkl. Security und Observability implementieren
  • Interop‑Verträge definieren und als Tests absichern
  • Performance‑Engpässe messen, priorisieren und beheben
  • Betriebskonzepte inkl. Release‑Policy und Incident‑Playbooks erstellen

Zielgruppe

  • Cross‑funktionale Teams (Data Engineering, Backend, Plattform)
  • Tech Leads und Architekturen für Datenplattformen
  • Organisationen, die Arrow als Austauschstandard einführen

Voraussetzungen

  • Programmierung in Python oder Java (beides vorteilhaft)
  • Grundverständnis zu Datenpipelines und Service‑Architekturen
  • Für sehr heterogene Teams: Vorkenntnisse aus dem Grundlagen‑Seminar hilfreich

Inhalte

Tag 1: Grundlagen und Datenmodell

  • Speicherlayout, Datentypen, Schemas
  • IPC‑Austausch, Kompatibilität
  • Fallstudie: Referenz‑Schema und Beispiel‑Dataset

Tag 2–3: Python Data Engineering

  • PyArrow Kernobjekte, Dataset‑API
  • Parquet‑Layouts und Pushdown
  • Compute‑Kernels für Transformation und Validierung

Tag 4: Flight & Flight SQL

  • Service‑API Design, Ticketing/Endpoints
  • Security, Parallelität, Backpressure
  • SQL‑Schnittstelle für Abfragen

Tag 5: JVM‑Integration und Interop

  • Arrow Java Vectors, Allocators
  • IPC/Flight Interop zwischen Python und JVM
  • Contract‑Tests und Schema‑Evolution

Tag 6: Performance und Produktion

  • Benchmarking, Profiling, Tuning
  • Observability, Runbooks, Release‑Policy
  • Abschluss der Fallstudie: End‑to‑End‑Pipeline + Service

Praxis-Labs

Durchgehende Übungsstrecke: Arrow‑basiertes Datenprodukt

  1. Referenz‑Schema definieren und Contract‑Tests anlegen
  2. Python‑Pipeline: Dataset‑Scan, Transformation, Validierung, Parquet‑Write
  3. Flight‑Service: Datenbereitstellung und SQL‑Abfragen
  4. JVM‑Client/Komponente: Interop und Memory‑Safety
  5. Performance‑Iteration: Messung, Hypothesen, Tuning, Regressionstest
  6. Betriebspaket: Metriken, Logs, Traces, Alerting‑Signale, Runbook

Technischer Rahmen

  • Python und Java Toolchain, Container optional
  • Projektvorlagen und Übungen offline nutzbar
  • Empfohlen: 16–32 GB RAM für komfortables Arbeiten
  • Optional: Team‑CI‑Beispiel zur Einbindung in interne Entwicklungsprozesse
Nach oben
Seminare als Stream SRI zertifiziert
© 2026 www.seminar-experts.de All rights reserved. | Kontakt | Impressum | Nach oben