elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Barrierefreiheit | Kontakt | English
Schriftgröße: [-] Text [+]

Large Language Models in Software Engineering: A Critical Review of Evaluation Strategies

Bektas, Ali (2025) Large Language Models in Software Engineering: A Critical Review of Evaluation Strategies. Masterarbeit, FU Berlin.

[img] PDF
2MB

Kurzfassung

Die Entwicklung von auf Transformern basierenden großen Sprachmodellen (LLMs) hat die Softwareentwicklung (SE) maßgeblich beeinflusst und Fortschritte in Bereichen wie Anforderungsmanagement, Fehlererkennung und API-Dokumentation ermöglicht – neben der Code-Generierung, die bislang im Fokus vieler Entwicklungen stand. In den letzten Jahren hat die Forschung in diesem Bereich erheblich zugenommen, wobei zahlreiche Studien untersuchen, wie LLMs auf verschiedene Aufgaben der Softwareentwicklung angewendet werden können. Während einige Übersichtsarbeiten die Nutzung von LLMs in der SE [21, 13, 90] sowie bestehende Ansätze zur Evaluation von LLMs [6, 17, 8] zusammenfassen, fehlt bisher eine detaillierte Analyse der Evaluierungsstrategien, die speziell auf SE-Aufgaben zugeschnitten sind. Eine solche Analyse ist jedoch entscheidend, um sicherzustellen, dass die Bewertung von LLM-basierten Lösungen deren Praxistauglichkeit in der SE realistisch widerspiegelt. Diese Arbeit untersucht systematisch die in der LLM-basierten SE-Forschung eingesetzten Evaluierungsstrategien. Dabei wurde ein strukturierter Ansatz in sechs Phasen verfolgt, um 41 nicht-code zentrierte Studien aus dem von Hou et al. [21] identifizierten Korpus kritisch zu analysieren. Die Ergebnisse zeigen, dass die Zuverlässigkeit der Evaluierungen moderat ist: Zwar wurde eine grundsätzliche methodische Sorgfalt eingehalten, doch beeinträchtigten Herausforderungen wie mangelnde Generalisierbarkeit und Transparenz der Datensätze die Ergebnisse. Die Relevanz der Evaluierungen wurde hingegen als moderat bis hoch eingeschätzt, wobei die Metriken in unterschiedlichem Maße an die spezifischen Aufgaben angepasst waren, für die sie die Qualität der Lösungen bewerten sollten. Häufig mussten Forschende Kompromisse zwischen der schnellen Entwicklung von Lösungen und einer rigorosen Evaluierung eingehen, was zu grundlegenden Einschränkungen bei den Baseline-Ansätzen führte. Die Studie identifiziert zentrale Ansatzpunkte zur Verbesserung der Evaluierungspraxis. Eine stärkere Zusammenarbeit zwischen Wissenschaft und Industrie ist entscheidend, um Datenlücken zu schließen und Methoden zur Erstellung repräsentativer Datensätze zu entwickeln, die industrielle Workflows widerspiegeln, dabei jedoch Vertraulichkeitsanforderungen berücksichtigen. Durch die Synthese bewährter Ansätze können aufgabenspezifische Best Practices entwickelt werden, die besser mit den Zielen der SE-Aufgaben übereinstimmen. Darüber hinaus kann die Berücksichtigung von LLM-spezifischen Eigenschaften, wie der Variabilität in Wahrscheinlichkeitsverteilungen und dem Einfluss von Temperatureinstellungen, die Zuverlässigkeit der Evaluierungen verbessern und die realen Leistungsfähigkeiten präziser abbilden. Durch die Identifizierung dieser Schwachstellen und die Umsetzung der vorgeschlagenen Verbesserungen bietet diese Arbeit praxisorientierte Empfehlungen, um die Zuverlässigkeit und Relevanz von LLM-Evaluierungsstrategien in der SE zu steigern. Diese Fortschritte sind von zentraler Bedeutung, um sicherzustellen, dass LLM-basierte Lösungen sowohl in der Forschung als auch in industriellen Anwendungen wirkungsvolle und nachhaltige Ergebnisse liefern.

elib-URL des Eintrags:https://elib.dlr.de/217570/
Dokumentart:Hochschulschrift (Masterarbeit)
Titel:Large Language Models in Software Engineering: A Critical Review of Evaluation Strategies
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Bektas, AliNICHT SPEZIFIZIERTNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
DLR-Supervisor:
BeitragsartDLR-SupervisorInstitution oder E-Mail-AdresseDLR-Supervisor-ORCID-iD
Thesis advisorHaupt, CarinaCarina.Haupt (at) dlr.dehttps://orcid.org/0000-0001-6447-1379
Datum:März 2025
Open Access:Ja
Seitenanzahl:109
Status:veröffentlicht
Stichwörter:LLM, Review, KI, Evaluation
Institution:FU Berlin
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Raumfahrt
HGF - Programmthema:Technik für Raumfahrtsysteme
DLR - Schwerpunkt:Raumfahrt
DLR - Forschungsgebiet:R SY - Technik für Raumfahrtsysteme
DLR - Teilgebiet (Projekt, Vorhaben):R - Aufgaben SISTEC
Standort: Berlin-Adlershof
Institute & Einrichtungen:Institut für Softwaretechnologie
Institut für Softwaretechnologie > Intelligente und verteilte Systeme
Hinterlegt von: Haupt, Carina
Hinterlegt am:15 Okt 2025 14:33
Letzte Änderung:15 Okt 2025 14:33

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
OpenAIRE Validator logo electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.