elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

Selecting robust features for machine-learning applications using multidata causal discovery

Sudheesh, Saranya Ganesh und Beucler, Tom und Tam, Frederick Iat-Hin und Gomez, Milton S. und Runge, Jakob und Gerhardus, Andreas (2023) Selecting robust features for machine-learning applications using multidata causal discovery. Environmental data science, 2. Cambridge University Press. doi: 10.1017/eds.2023.21. ISSN 2634-4602.

[img] PDF - Verlagsversion (veröffentlichte Fassung)
2MB

Offizielle URL: https://www.cambridge.org/core/journals/environmental-data-science/article/selecting-robust-features-for-machinelearning-applications-using-multidata-causal-discovery/29C08A0FF7BFD2347768F315E041A143

Kurzfassung

Robust feature selection is vital for creating reliable and interpretable machine-learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally spurious links before passing the remaining causal features as inputs to ML models (multiple linear regression and random forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific tropical cyclones (TCs), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, noncausal ML, and other feature selection methods (lagged correlation and random), even slightly outperforming feature selection based on explainable artificial intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification.

elib-URL des Eintrags:https://elib.dlr.de/196209/
Dokumentart:Zeitschriftenbeitrag
Titel:Selecting robust features for machine-learning applications using multidata causal discovery
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Sudheesh, Saranya GaneshUniversity of LausanneNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Beucler, TomUniversity of Lausanne, Lausanne, Switzerlandhttps://orcid.org/0000-0002-5731-1040NICHT SPEZIFIZIERT
Tam, Frederick Iat-HinUniversity of LausanneNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Gomez, Milton S.University of LausanneNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Runge, JakobJakob.Runge (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Gerhardus, AndreasAndreas.Gerhardus (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Datum:Juli 2023
Erschienen in:Environmental data science
Referierte Publikation:Ja
Open Access:Ja
Gold Open Access:Nein
In SCOPUS:Nein
In ISI Web of Science:Nein
Band:2
DOI:10.1017/eds.2023.21
Verlag:Cambridge University Press
ISSN:2634-4602
Status:veröffentlicht
Stichwörter:causal feature selection; machine learning; multivariate time series analysis; tropical cyclones
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Raumfahrt
HGF - Programmthema:keine Zuordnung
DLR - Schwerpunkt:Raumfahrt
DLR - Forschungsgebiet:R - keine Zuordnung
DLR - Teilgebiet (Projekt, Vorhaben):R - keine Zuordnung
Standort: Jena
Institute & Einrichtungen:Institut für Datenwissenschaften > Datenanalyse und -intelligenz
Hinterlegt von: Gerhardus, Andreas
Hinterlegt am:26 Jul 2023 11:51
Letzte Änderung:01 Aug 2023 08:53

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.