Seminar Apache Arrow

Inhaltsverzeichnis

  • Abstract
  • Herstellerprofil
  • Rolle in Datenplattformen
  • Seminarportfolio
  • Empfohlene Reihenfolge
  • Technischer Rahmen

Abstract

Apache Arrow ist eine offene Spezifikation und ein Ökosystem von Bibliotheken für spaltenorientierte In‑Memory‑Daten. Die Seite bündelt Seminarportfolio, Lernpfade und organisatorische Hinweise.

Schwerpunkt: Interoperabilität, Performance und produktionsreife Datenservices

Herstellerprofil

Apache Arrow ist ein Open‑Source‑Projekt im Apache‑Ökosystem. Kern ist ein standardisiertes spaltenorientiertes Speicherformat, das Zero‑Copy‑Datenaustausch zwischen Prozessen, Sprachen und Systemen ermöglicht.

Das Ökosystem umfasst Bibliotheken für mehrere Programmiersprachen, Austauschformate (IPC) sowie Protokolle für Hochgeschwindigkeits‑Datentransfer und Abfragezugriff (Flight und Flight SQL).

Rolle in Datenplattformen

Arrow dient als gemeinsamer Nenner zwischen Datenpipelines, Analyse‑Engines und ML‑Workloads. Durch einheitliche Schemas, standardisierte Buffer‑Layouts und vektorisiertes Rechnen werden Datentransfers, Serialisierungskosten und Kopien reduziert.

Typische Einsatzfelder sind Data Engineering, In‑Memory‑Analytics, Streaming‑Ingestion, Feature‑Engineering, Inter‑Service‑Kommunikation sowie hybride Architekturen zwischen Lakehouse und Echtzeit‑Services.

Seminarportfolio

  • Apache Arrow Grundlagen (2 Tage)
  • PyArrow & Python Data Engineering (3 Tage)
  • Apache Arrow Flight & Flight SQL (2 Tage)
  • Apache Arrow für Java und JVM (2 Tage)
  • Arrow in Analytics Engines: Polars, DuckDB, DataFusion (2 Tage)
  • Arrow Interoperabilität & Dateiformate: IPC, Parquet, C Data Interface (2 Tage)
  • Arrow Performance & Profiling (2 Tage)
  • Arrow Betrieb & Architektur in der Produktion (2 Tage)
  • Apache Arrow Masterclass – Intensivseminar (6 Tage)
  • Apache Arrow Kompaktseminar (3 Tage)

Empfohlene Reihenfolge

Die Reihenfolge hängt von Rolle und Zielsetzung ab. Bewährt sind drei Lernpfade.

Pfad Data Engineering

  • Apache Arrow Grundlagen
  • PyArrow & Python Data Engineering
  • Arrow Interoperabilität & Dateiformate
  • Arrow Performance & Profiling
  • Arrow Betrieb & Architektur in der Produktion

Pfad Data Services

  • Apache Arrow Grundlagen
  • Apache Arrow Flight & Flight SQL
  • Arrow Performance & Profiling
  • Arrow Betrieb & Architektur in der Produktion

Pfad JVM & Plattform

  • Apache Arrow Grundlagen
  • Apache Arrow für Java und JVM
  • Apache Arrow Flight & Flight SQL
  • Arrow Betrieb & Architektur in der Produktion

Für einen kompakten Einstieg eignet sich das Kompaktseminar. Für vollständige Breite mit durchgängiger Übungsstrecke eignet sich die Masterclass.

Technischer Rahmen

  • Trainingsumgebung: Linux, macOS oder Windows mit Container‑Runtime oder lokaler Python/JVM‑Installation
  • Empfohlen: 16 GB RAM, 4 CPU‑Kerne, ausreichend lokaler Speicher für Übungsdaten
  • Offline‑fähige Übungsdaten und Beispielprojekte werden bereitgestellt
  • Optional: Zugriff auf eine interne Testumgebung für Flight‑Services und CI‑Pipelines
Nach oben
Seminare als Stream SRI zertifiziert
© 2026 www.seminar-experts.de All rights reserved. | Kontakt | Impressum | Nach oben