elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Barrierefreiheit | Kontakt | English
Schriftgröße: [-] Text [+]

KI-gestützte, akkurate Visualisierung von Szenen aus strukturierten Szenenbeschreibungen in Textform

Schnaubelt, Yannik (2025) KI-gestützte, akkurate Visualisierung von Szenen aus strukturierten Szenenbeschreibungen in Textform. Masterarbeit, Carl von Ossietzky Universität Oldenburg.

[img] PDF - Nur DLR-intern zugänglich
82MB

Kurzfassung

Inspiriert durch die Erfolge von generativer KI ist in dieser Arbeit ein Verfahren entwickelt worden, welches Abbildungen von strukturierten Szenenbeschreibungen in Textform mittels Diffusionsmodellen erzeugt und evaluiert. Das Verfahren besteht aus vier Komponenten: einem Datensatzgenerator, mehreren Trainingsskripten, einer Evaluationsumgebung sowie drei verschiedenen Ansätzen zur Generierung der Abbildungen. Jeder Ansatz verwendet genau ein Diffusionsmodell (Controlnet (CN), Open-Set Grounded Text-to-Image Generation (GLIGEN) oder Stable Diffusion (SD)) und nimmt die strukturierte Szenenbeschreibung in Textform entgegen und übersetzt diese in das erwartete Conditioning für das jeweilige Modell. Daraufhin generiert dieses basierend auf dem Conditioning die Abbildung. Die Evaluationsumgebung erlaubt es, für die drei genannten Modelle eine automatische Evaluation basierend auf den drei im Rahmen dieser Arbeit entwickelten Metriken: "Pixel-Mean Squared Error (MSE)", "Pixel-Kanten-MSE" und "Objekterkennung und Intersection over Union (IoU)" effizient durchzuführen. Anhand von fünf Experimenten werden das Verfahren und die ausgewählten Modelle in Bezug auf die akkurate Abbildung von strukturierten Szenenbeschreibungen in Textform evaluiert. Die Experimente zeigen, dass alle Ansätze in der Lage sind, Bilder zu generieren, die den Referenzbildern ähneln. Trotzdem werden von keinem Ansatz alle Kriterien einer akkuraten Abbildung erfüllt. Erwähnenswert ist, dass der Ansatz mit dem CN in den Experimenten die Form, die Größe, die Rotation und die Position eines Objektes am besten trifft. Das entwickelte Vorgehen ist erweiterbar, sodass in Zukunft weitere Experimente ohne großen Aufwand durchgeführt werden können.

elib-URL des Eintrags:https://elib.dlr.de/216597/
Dokumentart:Hochschulschrift (Masterarbeit)
Titel:KI-gestützte, akkurate Visualisierung von Szenen aus strukturierten Szenenbeschreibungen in Textform
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Schnaubelt, Yannikyannik.schnaubelt (at) uni-oldenburg.deNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
DLR-Supervisor:
BeitragsartDLR-SupervisorInstitution oder E-Mail-AdresseDLR-Supervisor-ORCID-iD
Thesis advisorde Graaff, Thiesthies.degraaff (at) dlr.dehttps://orcid.org/0009-0006-5918-9524
Datum:2025
Open Access:Nein
Seitenanzahl:186
Status:veröffentlicht
Stichwörter:Machine Learning, Generative AI, Text-to-Image, Conditioning
Institution:Carl von Ossietzky Universität Oldenburg
Abteilung:Department für Informatik
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Verkehr
HGF - Programmthema:Straßenverkehr
DLR - Schwerpunkt:Verkehr
DLR - Forschungsgebiet:V ST Straßenverkehr
DLR - Teilgebiet (Projekt, Vorhaben):V - V&V4NGC - Methoden, Prozesse und Werkzeugketten für die Validierung & Verifikation von NGC
Standort: Oldenburg
Institute & Einrichtungen:Institut für Systems Engineering für zukünftige Mobilität > Systems Theory and Design
Hinterlegt von: de Graaff, Thies
Hinterlegt am:19 Sep 2025 06:37
Letzte Änderung:19 Sep 2025 06:37

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
OpenAIRE Validator logo electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.