Schnaubelt, Yannik (2025) KI-gestützte, akkurate Visualisierung von Szenen aus strukturierten Szenenbeschreibungen in Textform. Masterarbeit, Carl von Ossietzky Universität Oldenburg.
![]() |
PDF
- Nur DLR-intern zugänglich
82MB |
Kurzfassung
Inspiriert durch die Erfolge von generativer KI ist in dieser Arbeit ein Verfahren entwickelt worden, welches Abbildungen von strukturierten Szenenbeschreibungen in Textform mittels Diffusionsmodellen erzeugt und evaluiert. Das Verfahren besteht aus vier Komponenten: einem Datensatzgenerator, mehreren Trainingsskripten, einer Evaluationsumgebung sowie drei verschiedenen Ansätzen zur Generierung der Abbildungen. Jeder Ansatz verwendet genau ein Diffusionsmodell (Controlnet (CN), Open-Set Grounded Text-to-Image Generation (GLIGEN) oder Stable Diffusion (SD)) und nimmt die strukturierte Szenenbeschreibung in Textform entgegen und übersetzt diese in das erwartete Conditioning für das jeweilige Modell. Daraufhin generiert dieses basierend auf dem Conditioning die Abbildung. Die Evaluationsumgebung erlaubt es, für die drei genannten Modelle eine automatische Evaluation basierend auf den drei im Rahmen dieser Arbeit entwickelten Metriken: "Pixel-Mean Squared Error (MSE)", "Pixel-Kanten-MSE" und "Objekterkennung und Intersection over Union (IoU)" effizient durchzuführen. Anhand von fünf Experimenten werden das Verfahren und die ausgewählten Modelle in Bezug auf die akkurate Abbildung von strukturierten Szenenbeschreibungen in Textform evaluiert. Die Experimente zeigen, dass alle Ansätze in der Lage sind, Bilder zu generieren, die den Referenzbildern ähneln. Trotzdem werden von keinem Ansatz alle Kriterien einer akkuraten Abbildung erfüllt. Erwähnenswert ist, dass der Ansatz mit dem CN in den Experimenten die Form, die Größe, die Rotation und die Position eines Objektes am besten trifft. Das entwickelte Vorgehen ist erweiterbar, sodass in Zukunft weitere Experimente ohne großen Aufwand durchgeführt werden können.
elib-URL des Eintrags: | https://elib.dlr.de/216597/ | ||||||||
---|---|---|---|---|---|---|---|---|---|
Dokumentart: | Hochschulschrift (Masterarbeit) | ||||||||
Titel: | KI-gestützte, akkurate Visualisierung von Szenen aus strukturierten Szenenbeschreibungen in Textform | ||||||||
Autoren: |
| ||||||||
DLR-Supervisor: |
| ||||||||
Datum: | 2025 | ||||||||
Open Access: | Nein | ||||||||
Seitenanzahl: | 186 | ||||||||
Status: | veröffentlicht | ||||||||
Stichwörter: | Machine Learning, Generative AI, Text-to-Image, Conditioning | ||||||||
Institution: | Carl von Ossietzky Universität Oldenburg | ||||||||
Abteilung: | Department für Informatik | ||||||||
HGF - Forschungsbereich: | Luftfahrt, Raumfahrt und Verkehr | ||||||||
HGF - Programm: | Verkehr | ||||||||
HGF - Programmthema: | Straßenverkehr | ||||||||
DLR - Schwerpunkt: | Verkehr | ||||||||
DLR - Forschungsgebiet: | V ST Straßenverkehr | ||||||||
DLR - Teilgebiet (Projekt, Vorhaben): | V - V&V4NGC - Methoden, Prozesse und Werkzeugketten für die Validierung & Verifikation von NGC | ||||||||
Standort: | Oldenburg | ||||||||
Institute & Einrichtungen: | Institut für Systems Engineering für zukünftige Mobilität > Systems Theory and Design | ||||||||
Hinterlegt von: | de Graaff, Thies | ||||||||
Hinterlegt am: | 19 Sep 2025 06:37 | ||||||||
Letzte Änderung: | 19 Sep 2025 06:37 |
Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags