elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

Language Model CNN-driven similarity matching and classification for HTML-embedded Product Data

Borst, Janos und Koerner, Erik und Opasjumruskit, Kobkaew und Niekler, Andreas (2020) Language Model CNN-driven similarity matching and classification for HTML-embedded Product Data. ISWC 2020, Online.

[img] PDF
231kB

Kurzfassung

The Semantic Web Challenge Mining the Web of HTMLembedded Product Data aims to benchmark current technologies on the data integration tasks (1) product matching and (2) product classification, as recent years have seen significant use of semantic annotations in the e-commerce domain, but often with inconsistencies, no complete coverage or conflicting information. We introduce a transformer-based approach for textual product matching and extend it with an CNN for product classification. We compare the influence of different input feature combinations against prediction performance and introduce a technique to augment the classification task with additional information. We are able to outperform baseline results using text-only approaches.

elib-URL des Eintrags:https://elib.dlr.de/136247/
Dokumentart:Konferenzbeitrag (Vortrag)
Titel:Language Model CNN-driven similarity matching and classification for HTML-embedded Product Data
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Borst, JanosLeipzig University, Faculty of Mathematics and Computer Science, Institute of Computer Sciencehttps://orcid.org/0000-0002-9166-4069NICHT SPEZIFIZIERT
Koerner, ErikLeipzig University, Faculty of Mathematics and Computer Science, Institute of Computer Sciencehttps://orcid.org/0000-0002-5639-6177NICHT SPEZIFIZIERT
Opasjumruskit, KobkaewKobkaew.Opasjumruskit (at) dlr.dehttps://orcid.org/0000-0002-9206-6896NICHT SPEZIFIZIERT
Niekler, AndreasLeipzig University, Faculty of Mathematics and Computer Science, Institute of Computer Sciencehttps://orcid.org/0000-0002-3036-3318NICHT SPEZIFIZIERT
Datum:November 2020
Referierte Publikation:Nein
Open Access:Ja
Gold Open Access:Nein
In SCOPUS:Nein
In ISI Web of Science:Nein
Status:akzeptierter Beitrag
Stichwörter:product matching · product category classification · language models · natural language processing · text mining · deep learningproduct matching product category classification language models natural language processing text mining deep learning
Veranstaltungstitel:ISWC 2020
Veranstaltungsort:Online
Veranstaltungsart:internationale Konferenz
HGF - Forschungsbereich:keine Zuordnung
HGF - Programm:keine Zuordnung
HGF - Programmthema:keine Zuordnung
DLR - Schwerpunkt:keine Zuordnung
DLR - Forschungsgebiet:keine Zuordnung
DLR - Teilgebiet (Projekt, Vorhaben):keine Zuordnung
Standort: Jena
Institute & Einrichtungen:Institut für Datenwissenschaften > Sichere Digitale Systeme
Institut für Datenwissenschaften > Softwaresysteme für die Digitalisierung
Hinterlegt von: Opasjumruskit, Kobkaew
Hinterlegt am:25 Sep 2020 09:14
Letzte Änderung:25 Sep 2020 09:14

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.