elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

The Helmholtz Analytics Toolkit (Heat) and its role in the landscape of massively-parallel scientific Python

Comito, Claudia und Gutiérrez Hermosillo Muriedas, Juan Pedro und Götz, Markus und Hagemeier, Björn und Hoppe, Fabian und Knechtges, Philipp und Krajsek, Kai und Rüttgers, Alexander und Streit, Achim und Tarnawa, Michael (2024) The Helmholtz Analytics Toolkit (Heat) and its role in the landscape of massively-parallel scientific Python. 4th conference for Research Software Engineering in Germany deRSE24, 2024-03-05 - 2024-03-07, Würzburg, Deutschland.

Dieses Archiv kann nicht den Volltext zur Verfügung stellen.

Kurzfassung

When it comes to enhancing exploitation of massive data, machine learning methods are at the forefront of researchers’ awareness. Much less so is the need for, and the complexity of, applying these techniques efficiently across large-scale, memory-distributed data volumes. In fact, these aspects typical for the handling of massive data sets pose major challenges to the vast majority of research communities, in particular to those without a background in high-performance computing. Often, the standard approach involves breaking up and analyzing data in smaller chunks; this can be inefficient and prone to errors, and sometimes it might be inappropriate at all because the context of the overall data set can get lost. The Helmholtz Analytics Toolkit (Heat) library offers a solution to this problem by providing memory-distributed and hardware-accelerated array manipulation, data analytics, and machine learning algorithms in Python. The main objective is to make memory-intensive data analysis possible across various fields of research ---in particular for domain scientists being non-experts in traditional high-performance computing who nevertheless need to tackle data analytics problems going beyond the capabilities of a single workstation. The development of this interdisciplinary, general-purpose, and open-source scientific Python library started in 2018 and is based on collaboration of three institutions (German Aerospace Center DLR, Forschungszentrum Jülich FZJ, Karlsruhe Institute of Technology KIT) of the Helmholtz Association. The pillars of its development are... to enable memory distribution of n-dimensional arrays, to adopt PyTorch as process-local compute engine (hence supporting GPU-acceleration), to provide memory-distributed (i.e., multi-node, multi-GPU) array operations and algorithms, optimizing asynchronous MPI-communication (based on mpi4py) under the hood, and to wrap functionalities in NumPy- or scikit-learn-like API to achieve porting of existing applications with minimal changes and to enable the usage by non-experts in HPC. In this talk we will give an overview on the current state of our work. Moreover, focussing on the research software engineering perspective we will particularly address Heats role in the existing ecosystem of distributed computing in Python as well as technical and operational challenges in its further development.

elib-URL des Eintrags:https://elib.dlr.de/203209/
Dokumentart:Konferenzbeitrag (Vortrag)
Titel:The Helmholtz Analytics Toolkit (Heat) and its role in the landscape of massively-parallel scientific Python
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Comito, ClaudiaForschungszentrum JülichNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Gutiérrez Hermosillo Muriedas, Juan PedroKarlsruher Institut für TechnologieNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Götz, MarkusKarlsruher Institut für Technologie (KIT)https://orcid.org/0000-0002-2233-1041NICHT SPEZIFIZIERT
Hagemeier, BjörnForschungszentrum JülichNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Hoppe, Fabianfabian.hoppe (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Knechtges, PhilippPhilipp.Knechtges (at) dlr.dehttps://orcid.org/0000-0002-4849-0593155675503
Krajsek, KaiForschungszentrum Jülichhttps://orcid.org/0000-0003-3417-161XNICHT SPEZIFIZIERT
Rüttgers, AlexanderAlexander.Ruettgers (at) dlr.dehttps://orcid.org/0000-0001-6347-9272NICHT SPEZIFIZIERT
Streit, AchimForschungszentrum JülichNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Tarnawa, Michaelm.tarnawa (at) fz-juelich.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Datum:6 März 2024
Referierte Publikation:Ja
Open Access:Nein
Gold Open Access:Nein
In SCOPUS:Nein
In ISI Web of Science:Nein
Status:veröffentlicht
Stichwörter:Data Analytics, HPC, Machine Learning, Heat
Veranstaltungstitel:4th conference for Research Software Engineering in Germany deRSE24
Veranstaltungsort:Würzburg, Deutschland
Veranstaltungsart:nationale Konferenz
Veranstaltungsbeginn:5 März 2024
Veranstaltungsende:7 März 2024
Veranstalter :Universität Würzburg / de-RSE e.V. - Gesellschaft für Forschungssoftware
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Raumfahrt
HGF - Programmthema:Technik für Raumfahrtsysteme
DLR - Schwerpunkt:Raumfahrt
DLR - Forschungsgebiet:R SY - Technik für Raumfahrtsysteme
DLR - Teilgebiet (Projekt, Vorhaben):R - HPDA-Grundlagensoftware
Standort: Köln-Porz
Institute & Einrichtungen:Institut für Softwaretechnologie > High-Performance Computing
Institut für Softwaretechnologie
Hinterlegt von: Hoppe, Fabian
Hinterlegt am:18 Mär 2024 10:11
Letzte Änderung:24 Apr 2024 21:03

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.