elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Barrierefreiheit | Kontakt | English
Schriftgröße: [-] Text [+]

GC-DAM: Graph and Contextual Embeddings for Heterogeneous Data Asset Matching

Stäbler, Maximilian und Lange, Markus und Kipper, Samir und Langdon, Christoph und Köster, Frank (2025) GC-DAM: Graph and Contextual Embeddings for Heterogeneous Data Asset Matching. In: 22nd European Semantic Web Conference, ESWC 2025, Portoroz, Slovenia, June 1–5, 2025, Proceedings. CEUR-WS. Extended Semantic Web Conference (ESWC 2025), 2025-06-01 - 2025-06-06, Portorož, Slovenia. doi: 10.1007/978-3-031-94575-5. ISSN 0302-9743.

[img] PDF
5MB

Offizielle URL: https://ceur-ws.org/Vol-3977/

Kurzfassung

Data assets—such as datasets, data services, APIs, algorithms, and analytical models—are valuable digital resources that organizations use to create value, support decision-making, and optimize business processes. Matching and integrating these assets, despite differences in semantic languages, ontologies, or schemas, is essential for building scalable and interoperable dataspaces. However, existing approaches often focus solely on semantic similarities, overlooking structurally similar assets from other domains that could be highly relevant. To address this gap, we present Graph and Contextual Embeddings for Heterogeneous Data Asset Matching (GC-DAM). GC-DAM employs two embedding strategies to match data assets based on both semantic and structural attributes. Structural (morphological) features are automatically incorporated into a knowledge graph, enabling the identification of assets that are structurally similar to a query but may originate from different domains, while metadata descriptions capture the semantic (contextual) features. This dual approach overcomes the limitations of methods that rely solely on semantic descriptions. We validate our approach against a custom dataset of 10,000 Kaggle data assets. Our multimodal embedding achieves 77% agreement on our custom dataset, demonstrating its ability to identify structurally similar assets across diverse domains, even when they are semantically different. The dataset and code are publicly available to the research community.

elib-URL des Eintrags:https://elib.dlr.de/215766/
Dokumentart:Konferenzbeitrag (Vortrag)
Titel:GC-DAM: Graph and Contextual Embeddings for Heterogeneous Data Asset Matching
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Stäbler, MaximilianMaximilian.Staebler (at) dlr.dehttps://orcid.org/0000-0003-1311-3568213621460
Lange, Markusmarkus.lange (at) dlr.dehttps://orcid.org/0000-0001-7198-2871213621461
Kipper, Samirsamir.kipper (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Langdon, ChristophDrucker School of Business, U.S.A.NICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Köster, FrankFrank.Koester (at) dlr.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Datum:7 August 2025
Erschienen in:22nd European Semantic Web Conference, ESWC 2025, Portoroz, Slovenia, June 1–5, 2025, Proceedings
Referierte Publikation:Ja
Open Access:Ja
Gold Open Access:Nein
In SCOPUS:Nein
In ISI Web of Science:Nein
DOI:10.1007/978-3-031-94575-5
Verlag:CEUR-WS
ISSN:0302-9743
Status:veröffentlicht
Stichwörter:Multi-Modal-Embedding, Heterogeneous dataspaces, Knowledge Graphs, Automated Interoperability, LLM
Veranstaltungstitel:Extended Semantic Web Conference (ESWC 2025)
Veranstaltungsort:Portorož, Slovenia
Veranstaltungsart:internationale Konferenz
Veranstaltungsbeginn:1 Juni 2025
Veranstaltungsende:6 Juni 2025
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Verkehr
HGF - Programmthema:Verkehrssystem
DLR - Schwerpunkt:Verkehr
DLR - Forschungsgebiet:V VS - Verkehrssystem
DLR - Teilgebiet (Projekt, Vorhaben):V - DiVe - Digital organisiertes Verkehrssystem
Standort: Ulm
Institute & Einrichtungen:Institut für KI-Sicherheit
Hinterlegt von: Stäbler, Maximilian
Hinterlegt am:19 Aug 2025 13:34
Letzte Änderung:04 Mai 2026 13:13

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
OpenAIRE Validator logo electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.