elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

Accelerating massive data processing in Python with Heat (Tutorial)

Comito, Claudia und Hoppe, Fabian (2024) Accelerating massive data processing in Python with Heat (Tutorial). 4th conference for Research Software Engineering in Germany deRSE24, 2024-03-05 - 2024-03-07, Würzburg, Deutschland.

Dieses Archiv kann nicht den Volltext zur Verfügung stellen.

Kurzfassung

Manipulating and processing massive data sets is challenging. For the vast majority of research communities, the standard approach involves setting up Python pipelines to break up and analyze data in smaller chunks, an inefficient and prone-to-errors process. The problem is exacerbated on GPUs, because of the smaller available memory. Popular solutions to distribute NumPy/SciPy computations are based on task parallelism, introducing significant runtime overhead, complicating implementation, and often limiting GPU support to specific vendors. In this tutorial, we will show you an alternative based on data parallelism. The open-source library Heat [1] builds on PyTorch and mpi4py to simplify porting of NumPy/SciPy-based code to GPU (CUDA, ROCm, including multi-GPU, multi-node clusters). Under the hood, Heat distributes massive memory-intensive operations and algorithms via MPI communication, achieving significant speed-ups compared to task-distributed frameworks. On the surface however, Heat implements a NumPy-like API, is largely interoperable with the Python array ecosystem, and can be employed seamlessly as a backend to accelerate existing single-CPU pipelines, as well as develop new HPC applications from scratch. You will get an overview of: - Heat's basics: getting started with distributed I/O, data decomposition scheme, array operations - Existing functionalities: multi-node linear algebra, statistics, signal processing, machine learning... - DIY how-to: using existing Heat infrastructure to build your own multi-node, multi-GPU research software. We'll also touch upon Heat's implementation roadmap, and possible paths to collaboration.

elib-URL des Eintrags:https://elib.dlr.de/203210/
Dokumentart:Konferenzbeitrag (Anderer)
Titel:Accelerating massive data processing in Python with Heat (Tutorial)
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Comito, ClaudiaForschungszentrum JülichNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Hoppe, Fabianfabian.hoppe (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Datum:6 März 2024
Referierte Publikation:Ja
Open Access:Nein
Gold Open Access:Nein
In SCOPUS:Nein
In ISI Web of Science:Nein
Status:veröffentlicht
Stichwörter:HPC, Data Analytics, Machine Learning, Heat
Veranstaltungstitel:4th conference for Research Software Engineering in Germany deRSE24
Veranstaltungsort:Würzburg, Deutschland
Veranstaltungsart:nationale Konferenz
Veranstaltungsbeginn:5 März 2024
Veranstaltungsende:7 März 2024
Veranstalter :Universität Würzburg / de-RSE e.V. - Gesellschaft für Forschungssoftware
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Raumfahrt
HGF - Programmthema:Technik für Raumfahrtsysteme
DLR - Schwerpunkt:Raumfahrt
DLR - Forschungsgebiet:R SY - Technik für Raumfahrtsysteme
DLR - Teilgebiet (Projekt, Vorhaben):R - HPDA-Grundlagensoftware
Standort: Köln-Porz
Institute & Einrichtungen:Institut für Softwaretechnologie > High-Performance Computing
Institut für Softwaretechnologie
Hinterlegt von: Hoppe, Fabian
Hinterlegt am:18 Mär 2024 10:12
Letzte Änderung:24 Apr 2024 21:03

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.