Seminar Apache Arrow Kompaktseminar

Inhaltsverzeichnis

  • Abstract
  • Überblick
  • Lernziele
  • Zielgruppe
  • Voraussetzungen
  • Inhalte
  • Praxis-Labs
  • Technischer Rahmen

Abstract

Kompakter Einstieg mit ausgewogenem Mix aus Überblick und Praxis. Fokus auf gemeinsame Begriffe, sichere Interop‑Standards und einen lauffähigen Mini‑Prototyp für Pipeline und Service.

Dauer: 3 Tage

Format: Präsenz oder Live-Online

Überblick

Das Kompaktseminar ist für Teams gedacht, die schnell ein gemeinsames Verständnis aufbauen und unmittelbar nutzbare Standards definieren möchten.

Der Umfang von 3 Tagen ermöglicht Hands‑on‑Übungen ohne die Tiefe einer vollständigen Masterclass.

Lernziele

  • Arrow Kernkonzepte und Begriffe konsistent nutzen
  • PyArrow für typische Pipeline‑Aufgaben anwenden
  • Flight/Flight SQL als Service‑Schnittstelle einordnen und prototypisch nutzen
  • Interop‑Checklisten und Schema‑Konventionen festlegen
  • Erste Performance‑Hebel sicher anwenden

Zielgruppe

  • Gemischte Teams mit Bedarf an schneller Orientierung
  • Entscheider*innen, Architekturen und Senior Engineers
  • Organisationen in der Evaluations‑ oder Standardisierungsphase

Voraussetzungen

  • Allgemeines Verständnis von Datenpipelines und DataFrames/SQL
  • Grundkenntnisse in Python oder Java
  • Keine Arrow‑Vorkenntnisse erforderlich

Inhalte

Tag 1: Arrow Essentials

  • Speichermodell, Schemas, RecordBatches
  • IPC‑Austausch, typische Kompatibilitätsfallen
  • Konventionen für Datenverträge

Tag 2: Python Pipeline mit PyArrow

  • Dataset‑API und Parquet‑Write‑Strategien
  • Compute‑Kernels für Transformation/Validierung
  • Interop mit DataFrames

Tag 3: Services, Performance, Betriebseinordnung

  • Flight/Flight SQL Überblick und Mini‑Service
  • Performance‑Checkliste (Chunking, IO, Kopien)
  • Betriebliche Mindeststandards: Logs, Metriken, Tests

Praxis-Labs

Mini‑Projekt: Standardisierte Datenstrecke

  1. Referenz‑Schema und Naming‑Konventionen definieren
  2. PyArrow Pipeline: Scan, Filter, Transformation, Write
  3. IPC Export/Import zwischen zwei Komponenten testen
  4. Flight Mini‑Service bereitstellen und Abfrage ausführen
  5. Performance‑Verbesserung mit wenigen Stellhebeln messen
  6. Ergebnis als interne Checkliste und Template dokumentieren

Technischer Rahmen

  • Python Toolchain, optional Java Client
  • Lokale Umgebung oder Container
  • Übungsdaten und Templates offline verfügbar
  • Keine externen Systeme erforderlich
Nach oben
Seminare als Stream SRI zertifiziert
© 2026 www.seminar-experts.de All rights reserved. | Kontakt | Impressum | Nach oben