Large Language Models in Software Engineering: A Critical Review of Evaluation Strategies

Bektas, Ali (2025) Large Language Models in Software Engineering: A Critical Review of Evaluation Strategies. Masterarbeit, FU Berlin.

PDF
2MB

Kurzfassung

Die Entwicklung von auf Transformern basierenden großen Sprachmodellen (LLMs) hat die Softwareentwicklung (SE) maßgeblich beeinflusst und Fortschritte in Bereichen wie Anforderungsmanagement, Fehlererkennung und API-Dokumentation ermöglicht – neben der Code-Generierung, die bislang im Fokus vieler Entwicklungen stand. In den letzten Jahren hat die Forschung in diesem Bereich erheblich zugenommen, wobei zahlreiche Studien untersuchen, wie LLMs auf verschiedene Aufgaben der Softwareentwicklung angewendet werden können. Während einige Übersichtsarbeiten die Nutzung von LLMs in der SE [21, 13, 90] sowie bestehende Ansätze zur Evaluation von LLMs [6, 17, 8] zusammenfassen, fehlt bisher eine detaillierte Analyse der Evaluierungsstrategien, die speziell auf SE-Aufgaben zugeschnitten sind. Eine solche Analyse ist jedoch entscheidend, um sicherzustellen, dass die Bewertung von LLM-basierten Lösungen deren Praxistauglichkeit in der SE realistisch widerspiegelt. Diese Arbeit untersucht systematisch die in der LLM-basierten SE-Forschung eingesetzten Evaluierungsstrategien. Dabei wurde ein strukturierter Ansatz in sechs Phasen verfolgt, um 41 nicht-code zentrierte Studien aus dem von Hou et al. [21] identifizierten Korpus kritisch zu analysieren. Die Ergebnisse zeigen, dass die Zuverlässigkeit der Evaluierungen moderat ist: Zwar wurde eine grundsätzliche methodische Sorgfalt eingehalten, doch beeinträchtigten Herausforderungen wie mangelnde Generalisierbarkeit und Transparenz der Datensätze die Ergebnisse. Die Relevanz der Evaluierungen wurde hingegen als moderat bis hoch eingeschätzt, wobei die Metriken in unterschiedlichem Maße an die spezifischen Aufgaben angepasst waren, für die sie die Qualität der Lösungen bewerten sollten. Häufig mussten Forschende Kompromisse zwischen der schnellen Entwicklung von Lösungen und einer rigorosen Evaluierung eingehen, was zu grundlegenden Einschränkungen bei den Baseline-Ansätzen führte. Die Studie identifiziert zentrale Ansatzpunkte zur Verbesserung der Evaluierungspraxis. Eine stärkere Zusammenarbeit zwischen Wissenschaft und Industrie ist entscheidend, um Datenlücken zu schließen und Methoden zur Erstellung repräsentativer Datensätze zu entwickeln, die industrielle Workflows widerspiegeln, dabei jedoch Vertraulichkeitsanforderungen berücksichtigen. Durch die Synthese bewährter Ansätze können aufgabenspezifische Best Practices entwickelt werden, die besser mit den Zielen der SE-Aufgaben übereinstimmen. Darüber hinaus kann die Berücksichtigung von LLM-spezifischen Eigenschaften, wie der Variabilität in Wahrscheinlichkeitsverteilungen und dem Einfluss von Temperatureinstellungen, die Zuverlässigkeit der Evaluierungen verbessern und die realen Leistungsfähigkeiten präziser abbilden. Durch die Identifizierung dieser Schwachstellen und die Umsetzung der vorgeschlagenen Verbesserungen bietet diese Arbeit praxisorientierte Empfehlungen, um die Zuverlässigkeit und Relevanz von LLM-Evaluierungsstrategien in der SE zu steigern. Diese Fortschritte sind von zentraler Bedeutung, um sicherzustellen, dass LLM-basierte Lösungen sowohl in der Forschung als auch in industriellen Anwendungen wirkungsvolle und nachhaltige Ergebnisse liefern.

elib-URL des Eintrags:

https://elib.dlr.de/217570/

Dokumentart:

Hochschulschrift (Masterarbeit)

Titel:

Large Language Models in Software Engineering: A Critical Review of Evaluation Strategies

Autoren:

Autoren	Institution oder E-Mail-Adresse	Autoren-ORCID-iD	ORCID Put Code
Bektas, Ali	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT

DLR-Supervisor:

Beitragsart	DLR-Supervisor	Institution oder E-Mail-Adresse	DLR-Supervisor-ORCID-iD
Thesis advisor	Haupt, Carina	Carina.Haupt (at) dlr.de	https://orcid.org/0000-0001-6447-1379

Datum:

März 2025

Open Access:

Seitenanzahl:

109

Status:

veröffentlicht

Stichwörter:

LLM, Review, KI, Evaluation

Institution:

FU Berlin

HGF - Forschungsbereich:

Luftfahrt, Raumfahrt und Verkehr

HGF - Programm:

Raumfahrt

HGF - Programmthema:

Technik für Raumfahrtsysteme

DLR - Schwerpunkt:

Raumfahrt

DLR - Forschungsgebiet:

R SY - Technik für Raumfahrtsysteme

DLR - Teilgebiet (Projekt, Vorhaben):

R - Aufgaben SISTEC

Standort:

Berlin-Adlershof

Institute & Einrichtungen:

Institut für Softwaretechnologie
Institut für Softwaretechnologie > Intelligente und verteilte Systeme

Hinterlegt von:

Haupt, Carina

Hinterlegt am:

15 Okt 2025 14:33

Letzte Änderung:

15 Okt 2025 14:33

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags