Sirin, Yunus Emre (2024) Semi-automatische Annotation von Webdaten mit Georeferenzierung. Bachelorarbeit, Hochschule Bonn-Rhein-Sieg.
![]() |
PDF
6MB |
Kurzfassung
Der praktische Bezug zur Geoinformatik in meinem Praktikum bei dem Deutschen Zentrum für Luftund Raumfahrt (kurz: DLR) in der Abteilung „Intelligente und verteilte Softwaresysteme“ am Institut für Softwaretechnologie hat mich dazu veranlasst, auf Absprache mit meinem externen Betreuer, dem Herrn Dr. Tobias Hecking, dieses Thema zu wählen. Das Thema meiner Bachelorarbeit hat unter anderem seinen Ursprung im europäischen Projekt OpenWebSearch.EU, das sich zum Ziel gesetzt hat, Europas Unabhängigkeit im Suchmaschinenmarkt zu fördern, in dem ein offenes Web-Index (auf Englisch „Open Web Index“ und kurz: OWI) geschaffen und eine auf europäischen Werten basierende Web-Such- und Analyse- Infrastruktur (auf Englisch „Open Web Search and Analysis Infrastructure“ und kurz: OWSAI) entwickelt wird. Diese Infrastruktur soll eine demokratische, transparente und innovative Alternative zu den bestehenden marktbeherrschenden Anbietern wie Google oder Microsoft sein. Dadurch wird in Europa die Möglichkeit geboten werden, das Web systematisch als Ressource zu nutzen, insbesondere für KI-Innovationen und Forschungsprojekte, ohne auf externe Anbieter angewiesen zu sein. Eine der zentralen Herausforderungen bei der Umsetzung des Projektes besteht darin, geographische Informationen, die derzeit in großem Maßstab nicht verfügbar sind, aus Webdaten zu extrahieren. Daher hatte ich Rahmen meines Praxisprojektes die Aufgabe, ein Annotationstool zu entwickeln, mit dem geographische Daten auf verknüpften Text- und Kartenansichten angezeigt sowie Georeferenzen manuell annotiert und verwaltet werden können. Um die Effizienz bei der Annotation größerer Datenmengen zu steigern, soll dieses Werkzeug um ein großes Sprachmodell (auf Englisch „Large Language Model“ und kurz: LLM) erweitert werden, welches Daten automatisiert vorannotiert. Diese initialen Annotationen können bei Bedarf manuell korrigiert werden, wodurch sowohl die Annotationen verbessert werden als auch das LLM nachtrainiert werden kann. Die Herausforderung, ein Annotationstool mit einem integrierten LLM zu entwickeln, fasziniert mich. Obwohl LLMs in vielen Bereichen der Sprachverarbeitung bedeutende Fortschritte erzielt haben, ist ihre Anwendung in der (semi-)automatischen Georeferenzierung bisher nur vereinzelt untersucht worden.
elib-URL des Eintrags: | https://elib.dlr.de/215491/ | ||||||||
---|---|---|---|---|---|---|---|---|---|
Dokumentart: | Hochschulschrift (Bachelorarbeit) | ||||||||
Zusätzliche Informationen: | Part of the OpenWebSearch@EU project as well as OpenSearch@DLR2.0 | ||||||||
Titel: | Semi-automatische Annotation von Webdaten mit Georeferenzierung | ||||||||
Autoren: |
| ||||||||
DLR-Supervisor: |
| ||||||||
Datum: | Dezember 2024 | ||||||||
Erschienen in: | Semi-automatische Annotation von Webdaten mit Georeferenzierung | ||||||||
Open Access: | Ja | ||||||||
Seitenanzahl: | 54 | ||||||||
Status: | veröffentlicht | ||||||||
Stichwörter: | Geoparsing, Annotation, Large Language Models, Active Learning | ||||||||
Institution: | Hochschule Bonn-Rhein-Sieg | ||||||||
Abteilung: | Informatik | ||||||||
HGF - Forschungsbereich: | keine Zuordnung | ||||||||
HGF - Programm: | keine Zuordnung | ||||||||
HGF - Programmthema: | keine Zuordnung | ||||||||
DLR - Schwerpunkt: | Digitalisierung | ||||||||
DLR - Forschungsgebiet: | D DAT - Daten | ||||||||
DLR - Teilgebiet (Projekt, Vorhaben): | D - OpenSearch@DLR | ||||||||
Standort: | Köln-Porz | ||||||||
Institute & Einrichtungen: | Institut für Softwaretechnologie | ||||||||
Hinterlegt von: | Farzana, Sheikh Mastura | ||||||||
Hinterlegt am: | 30 Jul 2025 14:27 | ||||||||
Letzte Änderung: | 30 Jul 2025 14:27 |
Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags