Seminar / Training CUDA Advanced & Skalierung: Streams, Graphs, Cooperative Groups, Multi-GPU
Inhaltsverzeichnis
- Abstract
- Zielgruppe und Voraussetzungen
- Lernziele
- Inhalte und Module
- Praxisübungen
- Agenda
Abstract
Das Seminar behandelt fortgeschrittene CUDA-Techniken für hohe Auslastung, geringere Overheads und Skalierung auf mehrere GPUs. Schwerpunkte sind Concurrency mit Streams und Events, effiziente Pipeline-Architekturen, CUDA Graphs für niedrige Launch-Overheads sowie kooperative Programmiermodelle und Multi-GPU-Designprinzipien. Ein praxisnahes Capstone-Projekt zeigt, wie aus einem einfachen Kernel-Workflow eine skalierbare, messbar schnellere Verarbeitungspipeline entsteht.
Zielgruppe und Voraussetzungen
- Zielgruppe: CUDA-Entwicklung mit Performance- und Skalierungsanforderungen
- Voraussetzungen: sichere Grundlagen und Profiling-Erfahrung. Empfehlenswert: CUDA Programmierung Grundlagen: Kernels, Memory, Toolchain und CUDA Performance & Profiling: Nsight, Memory, Occupancy, Tuning
Lernziele
- Concurrency korrekt und messbar einsetzen
- Overheads durch Graph- und Batch-Strategien reduzieren
- Workload-Pipelines bauen: Overlap von Transfer und Compute
- Multi-GPU-Datenpartitionierung, Kommunikation und Synchronisation entwerfen
Inhalte und Module
- Streams und Events: Abhängigkeiten, Prioritäten, Synchronisationsfallen
- Asynchrone Transfers und Pipeline-Design: Double/Triple Buffering
- CUDA Graphs: Aufbau, Capture, Update-Strategien, Trade-offs
- Cooperative Groups (konzeptionell + Praxis): Gruppensynchronisation, kollektive Operationen
- Warp- und Block-Level-Patterns: effiziente Zusammenarbeit (fortgeschritten)
- Multi-GPU-Grundlagen: Partitionierung, Affinität, NUMA/PCIe-Topologie (konzeptionell)
- Kommunikationsmuster: Peer-to-Peer, Collectives (konzeptionell), Synchronisationsdesign
- Stabilität: Deadlocks, Heisenbugs, reproduzierbare Messung in konkurrierenden Pipelines
Praxisübungen
- Transfer und Compute überlappen, Messung der Auswirkung
- Kernel-Sequenz als Graph modellieren, Overhead vergleichen
- Daten splitten, Ergebnisse zusammenführen, Skalierungsgrenzen dokumentieren
- End-to-End-Pipeline von Baseline bis skalierter Variante mit Metrikreport
Agenda
- Tag 1
- Streams/Events und Concurrency-Design
- Übungen: Overlap Transfer/Compute
- Tag 2
- CUDA Graphs und Overhead-Reduktion
- Cooperative Groups und fortgeschrittene Patterns
- Übungen: Graph-Capture + Validierung
- Tag 3
- Multi-GPU-Designprinzipien und Fallstricke
- Übungen: Partitionierung + Skalierung messen
- Capstone-Integration und Review
Seminar und Anbieter vergleichen
Öffentliche Schulung
Diese Seminarform ist auch als Präsenzseminar bekannt und bedeutet, dass Sie in unseren Räumlichkeiten von einem Trainer vor Ort geschult werden. Jeder Teilnehmer hat einen Arbeitsplatz mit virtueller Schulungsumgebung. Öffentliche Seminare werden in deutscher Sprache durchgeführt, die Unterlagen sind teilweise in Englisch.
Inhausschulung
Diese Seminarform bietet sich für Unternehmen an, welche gleichzeitig mehrere Teilnehmer gleichzeitig schulen möchten. Der Trainer kommt zu Ihnen ins Haus und unterrichtet in Ihren Räumlichkeiten. Diese Seminare können auf Deutsch – bei Firmenseminaren ist auch Englisch möglich – gebucht werden.
Webinar
Diese Art der Schulung ist geeignet, wenn Sie die Präsenz eines Trainers nicht benötigen, nicht reisen können und über das Internet an einer Schulung teilnehmen möchten.
Fachbereichsleiter / Leiter der Trainer / Ihre Ansprechpartner
-

Lucas Beich
Telefon: + 49 (221) 74740055
E-Mail: lucas.beich@seminar-experts.de -

Paul Goldschmidt
Telefon: + 49 (221) 74740055
E-Mail: paul.goldschmidt@seminar-experts.de
Seminardetails
| Dauer: | 3 Tage ca. 6 h/Tag, Beginn 1. Tag: 10:00 Uhr, weitere Tage 09:00 Uhr |
| Preis: |
Öffentlich oder Live Stream: € 1.797 zzgl. MwSt. Inhaus: € 5.100 zzgl. MwSt. |
| Teilnehmeranzahl: | min. 2 - max. 8 |
| Teilnehmer: | CUDA-Entwicklung mit Performance- und Skalierungsanforderungen |
| Voraussetzungen: | sichere Grundlagen und Profiling-Erfahrung. Empfehlenswert: CUDA Programmierung Grundlagen: Kernels, Memory, Toolchain und CUDA Performance & Profiling: Nsight, Memory, Occupancy, Tuning |
| Standorte: | Stream Live, Inhaus/Firmenseminar, Berlin, Bremen, Darmstadt, Dresden, Erfurt, Essen, Flensburg, Frankfurt, Freiburg, Friedrichshafen, Hamburg, Hamm, Hannover, Jena, Kassel, Köln, Konstanz, Leipzig, Luxemburg, Magdeburg, Mainz, München, Münster, Nürnberg, Paderborn, Potsdam, Regensburg, Rostock, Stuttgart, Trier, Ulm, Wuppertal, Würzburg |
| Methoden: | Vortrag, Demonstrationen, praktische Übungen am System |
| Seminararten: | Öffentlich, Webinar, Inhaus, Workshop - Alle Seminare mit Trainer vor Ort, Webinar nur wenn ausdrücklich gewünscht |
| Durchführungsgarantie: | ja, ab 2 Teilnehmern |
| Sprache: | Deutsch - bei Firmenseminaren ist auch Englisch möglich |
| Seminarunterlage: | Dokumentation auf Datenträger oder als Download |
| Teilnahmezertifikat: | ja, selbstverständlich |
| Verpflegung: | Kalt- / Warmgetränke, Mittagessen (wahlweise vegetarisch) |
| Support: | 3 Anrufe im Seminarpreis enthalten |
| Barrierefreier Zugang: | an den meisten Standorten verfügbar |
| Weitere Informationen unter + 49 (221) 74740055 |
Seminartermine
Die Ergebnissliste kann durch Anklicken der Überschrift neu sortiert werden.
