elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Impressum | Datenschutz | Kontakt | English
Schriftgröße: [-] Text [+]

Bereinigung der Trainingsdaten für faires Machine Learning: Anwendung eines Genetischen Algorithmus

Hilger, Lena und Leuschel, Michael und Jentzsch, Sophie F. (2022) Bereinigung der Trainingsdaten für faires Machine Learning: Anwendung eines Genetischen Algorithmus. Bachelorarbeit, Heinrich Heine Universität Düsseldorf.

[img] PDF - Nur DLR-intern zugänglich
2MB

Kurzfassung

Die Motivation der vorliegenden Arbeit ist die Frage, ob ein Genetischer Algorithmus (GA) zur Fairness-Optimierung von Machine Learning (ML) eingesetzt werden kann. GAs bieten eine effiziente Suchstrategie in nur schwer überblickbaren Lösungsräumen von Optimierungproblemen. Diese Eigenschaft soll genutzt werden, um die Identifizierung diskriminierter Trainingsdatenpunkte im ML-Kontext zu ermöglichen. Darauf basierend sollen die Trainingsdaten bereinigt werden, um möglichst faire ML-Modelle zu generieren. Um dieses Ziel zu erreichen, wurde im Ansatz von Verma et al. [VEJ21] die zentrale Vorgehensweise zur Identifizierung diskriminierter Datenpunkte durch einen speziellen GA ersetzt. Dieser wurde im Rahmen der vorliegenden Arbeit entwickelt und betrachtet für jeden Trainingsdatenpunkt sogenannte erweiterte Counterfactual Explanations (CEs) als Lösungskandidaten im Suchraum. Er beinhaltet die Suche nach CEs, die möglichst eine maximale Ähnlichkeit zum jeweiligen Trainingsdatenpunkt aufweisen. Aufgrund festgelegter Eigenschaften stellen die maximierten CEs simulierte Datenpunkte dar, für die ein initial trainiertes Modell unfaire Vorhersagen generiert. Der Gesamtablauf zur Erhöhung der Fairness beinhaltete zunächst die Ausführung des beschriebenen GAs. Im zweiten Schritt wurden die Trainingsdatenpunkte hinsichtlich ihres Einflusses auf die unfairen Vorhersagen der CEs sortiert. Trainingsdatenpunkte mit größtem Einfluss wurden anschließend iterativ entfernt, um ein finales, neu trainiertes Modell mit minimaler verbleibender Diskriminierung in den Vorhersagen zu erhalten. Der zweite Schritt sowie die iterative Entfernung der Datenpunkte wurden analog zur bereits erwähnten Methodik von Verma et al. [VEJ21] durchgeführt. Für die Evaluation der GA-basierten Vorgehensweise erfolgte der direkte Vergleich zur Baseline ohne Entfernung von Datenpunkten sowie zur ursprünglichen Methodik von Verma et al. innerhalb einer Replikation. Die Ergebnisse der GA-basierten Methodik zeigten einen Anstieg der erreichten Fairness, je mehr Datenpunkte entfernt wurden. Auch für die finale Auswahl der Modelle war im Vergleich zur Baseline tendenziell eine Erhöhung der Fairness zu beobachten. Diese fiel außerdem größer aus als für die von Verma et al. entwickelte Methodik. Insgesamt war keine Verschlechterung der Vorhersageleistung zu beobachten. Der GA-basierte Ansatz ließ ein Potential zur erfolgreichen Bereinigung der Trainingsdaten erkennen. Die berichteten Ergebnisse deuten an, dass diskriminierte Datenpunkte durch den Einsatz des GA in geeigneter Weise erkannt werden können. Kritisch zu beurteilen ist der Informationsverlust durch die hohe Anzahl entfernter Datenpunkte. Dieser macht deutlich, dass der Auswahlprozess eines finalen Modells bei der iterativen Entfernung noch nicht optimal ist. Zudem müssen mögliche methodische Unterschiede bei der Replikation berücksichtigt werden, die die Interpretation des Vergleichs beider Ansätze erschweren. Zukünftige Arbeiten sollten den GA-basierten Ansatz innerhalb weiterer Experimente evaluieren, die methodische Anpassungen sowie Vergleiche zu bestehenden Methoden der Fairness-Erhöhung im ML-Kontext beinhalten. Dabei sollte das Ziel eines optimalen TradeOffs zwischen Informationsverlust und erreichter Fairness verfolgt werden.

elib-URL des Eintrags:https://elib.dlr.de/186582/
Dokumentart:Hochschulschrift (Bachelorarbeit)
Titel:Bereinigung der Trainingsdaten für faires Machine Learning: Anwendung eines Genetischen Algorithmus
Autoren:
AutorenInstitution oder E-Mail-AdresseAutoren-ORCID-iDORCID Put Code
Hilger, LenaHeinrich Heine Universität DüsseldorfNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Leuschel, MichaelHeinrich Heine Universität DüsseldorfNICHT SPEZIFIZIERTNICHT SPEZIFIZIERT
Jentzsch, Sophie F.Sophie.Jentzsch (at) dlr.dehttps://orcid.org/0000-0001-6217-8814NICHT SPEZIFIZIERT
Datum:2022
Referierte Publikation:Nein
Open Access:Nein
Seitenanzahl:60
Status:veröffentlicht
Stichwörter:Genetische Algorithmen, Fairness, Machine Learning, Counterfactual Explanations
Institution:Heinrich Heine Universität Düsseldorf
Abteilung:INSTITUT FÜR INFORMATIK
HGF - Forschungsbereich:Luftfahrt, Raumfahrt und Verkehr
HGF - Programm:Raumfahrt
HGF - Programmthema:Technik für Raumfahrtsysteme
DLR - Schwerpunkt:Raumfahrt
DLR - Forschungsgebiet:R SY - Technik für Raumfahrtsysteme
DLR - Teilgebiet (Projekt, Vorhaben):R - Aufgaben SISTEC
Standort: Köln-Porz
Institute & Einrichtungen:Institut für Simulations- und Softwaretechnik
Institut für Softwaretechnologie > Intelligente und verteilte Systeme
Hinterlegt von: Jentzsch, Sophie Freya
Hinterlegt am:01 Jun 2022 11:08
Letzte Änderung:03 Jun 2022 13:10

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags

Blättern
Suchen
Hilfe & Kontakt
Informationen
electronic library verwendet EPrints 3.3.12
Gestaltung Webseite und Datenbank: Copyright © Deutsches Zentrum für Luft- und Raumfahrt (DLR). Alle Rechte vorbehalten.