Bektas, Ali (2025) Large Language Models in Software Engineering: A Critical Review of Evaluation Strategies. Masterarbeit, FU Berlin.
|
PDF
2MB |
Kurzfassung
Die Entwicklung von auf Transformern basierenden großen Sprachmodellen (LLMs) hat die Softwareentwicklung (SE) maßgeblich beeinflusst und Fortschritte in Bereichen wie Anforderungsmanagement, Fehlererkennung und API-Dokumentation ermöglicht – neben der Code-Generierung, die bislang im Fokus vieler Entwicklungen stand. In den letzten Jahren hat die Forschung in diesem Bereich erheblich zugenommen, wobei zahlreiche Studien untersuchen, wie LLMs auf verschiedene Aufgaben der Softwareentwicklung angewendet werden können. Während einige Übersichtsarbeiten die Nutzung von LLMs in der SE [21, 13, 90] sowie bestehende Ansätze zur Evaluation von LLMs [6, 17, 8] zusammenfassen, fehlt bisher eine detaillierte Analyse der Evaluierungsstrategien, die speziell auf SE-Aufgaben zugeschnitten sind. Eine solche Analyse ist jedoch entscheidend, um sicherzustellen, dass die Bewertung von LLM-basierten Lösungen deren Praxistauglichkeit in der SE realistisch widerspiegelt. Diese Arbeit untersucht systematisch die in der LLM-basierten SE-Forschung eingesetzten Evaluierungsstrategien. Dabei wurde ein strukturierter Ansatz in sechs Phasen verfolgt, um 41 nicht-code zentrierte Studien aus dem von Hou et al. [21] identifizierten Korpus kritisch zu analysieren. Die Ergebnisse zeigen, dass die Zuverlässigkeit der Evaluierungen moderat ist: Zwar wurde eine grundsätzliche methodische Sorgfalt eingehalten, doch beeinträchtigten Herausforderungen wie mangelnde Generalisierbarkeit und Transparenz der Datensätze die Ergebnisse. Die Relevanz der Evaluierungen wurde hingegen als moderat bis hoch eingeschätzt, wobei die Metriken in unterschiedlichem Maße an die spezifischen Aufgaben angepasst waren, für die sie die Qualität der Lösungen bewerten sollten. Häufig mussten Forschende Kompromisse zwischen der schnellen Entwicklung von Lösungen und einer rigorosen Evaluierung eingehen, was zu grundlegenden Einschränkungen bei den Baseline-Ansätzen führte. Die Studie identifiziert zentrale Ansatzpunkte zur Verbesserung der Evaluierungspraxis. Eine stärkere Zusammenarbeit zwischen Wissenschaft und Industrie ist entscheidend, um Datenlücken zu schließen und Methoden zur Erstellung repräsentativer Datensätze zu entwickeln, die industrielle Workflows widerspiegeln, dabei jedoch Vertraulichkeitsanforderungen berücksichtigen. Durch die Synthese bewährter Ansätze können aufgabenspezifische Best Practices entwickelt werden, die besser mit den Zielen der SE-Aufgaben übereinstimmen. Darüber hinaus kann die Berücksichtigung von LLM-spezifischen Eigenschaften, wie der Variabilität in Wahrscheinlichkeitsverteilungen und dem Einfluss von Temperatureinstellungen, die Zuverlässigkeit der Evaluierungen verbessern und die realen Leistungsfähigkeiten präziser abbilden. Durch die Identifizierung dieser Schwachstellen und die Umsetzung der vorgeschlagenen Verbesserungen bietet diese Arbeit praxisorientierte Empfehlungen, um die Zuverlässigkeit und Relevanz von LLM-Evaluierungsstrategien in der SE zu steigern. Diese Fortschritte sind von zentraler Bedeutung, um sicherzustellen, dass LLM-basierte Lösungen sowohl in der Forschung als auch in industriellen Anwendungen wirkungsvolle und nachhaltige Ergebnisse liefern.
| elib-URL des Eintrags: | https://elib.dlr.de/217570/ | ||||||||
|---|---|---|---|---|---|---|---|---|---|
| Dokumentart: | Hochschulschrift (Masterarbeit) | ||||||||
| Titel: | Large Language Models in Software Engineering: A Critical Review of Evaluation Strategies | ||||||||
| Autoren: |
| ||||||||
| DLR-Supervisor: |
| ||||||||
| Datum: | März 2025 | ||||||||
| Open Access: | Ja | ||||||||
| Seitenanzahl: | 109 | ||||||||
| Status: | veröffentlicht | ||||||||
| Stichwörter: | LLM, Review, KI, Evaluation | ||||||||
| Institution: | FU Berlin | ||||||||
| HGF - Forschungsbereich: | Luftfahrt, Raumfahrt und Verkehr | ||||||||
| HGF - Programm: | Raumfahrt | ||||||||
| HGF - Programmthema: | Technik für Raumfahrtsysteme | ||||||||
| DLR - Schwerpunkt: | Raumfahrt | ||||||||
| DLR - Forschungsgebiet: | R SY - Technik für Raumfahrtsysteme | ||||||||
| DLR - Teilgebiet (Projekt, Vorhaben): | R - Aufgaben SISTEC | ||||||||
| Standort: | Berlin-Adlershof | ||||||||
| Institute & Einrichtungen: | Institut für Softwaretechnologie Institut für Softwaretechnologie > Intelligente und verteilte Systeme | ||||||||
| Hinterlegt von: | Haupt, Carina | ||||||||
| Hinterlegt am: | 15 Okt 2025 14:33 | ||||||||
| Letzte Änderung: | 15 Okt 2025 14:33 |
Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags