Hilger, Lena and Leuschel, Michael and Jentzsch, Sophie F. (2022) Bereinigung der Trainingsdaten für faires Machine Learning: Anwendung eines Genetischen Algorithmus. Bachelor's, Heinrich Heine Universität Düsseldorf.
PDF
- Only accessible within DLR
2MB |
Abstract
Die Motivation der vorliegenden Arbeit ist die Frage, ob ein Genetischer Algorithmus (GA) zur Fairness-Optimierung von Machine Learning (ML) eingesetzt werden kann. GAs bieten eine effiziente Suchstrategie in nur schwer überblickbaren Lösungsräumen von Optimierungproblemen. Diese Eigenschaft soll genutzt werden, um die Identifizierung diskriminierter Trainingsdatenpunkte im ML-Kontext zu ermöglichen. Darauf basierend sollen die Trainingsdaten bereinigt werden, um möglichst faire ML-Modelle zu generieren. Um dieses Ziel zu erreichen, wurde im Ansatz von Verma et al. [VEJ21] die zentrale Vorgehensweise zur Identifizierung diskriminierter Datenpunkte durch einen speziellen GA ersetzt. Dieser wurde im Rahmen der vorliegenden Arbeit entwickelt und betrachtet für jeden Trainingsdatenpunkt sogenannte erweiterte Counterfactual Explanations (CEs) als Lösungskandidaten im Suchraum. Er beinhaltet die Suche nach CEs, die möglichst eine maximale Ähnlichkeit zum jeweiligen Trainingsdatenpunkt aufweisen. Aufgrund festgelegter Eigenschaften stellen die maximierten CEs simulierte Datenpunkte dar, für die ein initial trainiertes Modell unfaire Vorhersagen generiert. Der Gesamtablauf zur Erhöhung der Fairness beinhaltete zunächst die Ausführung des beschriebenen GAs. Im zweiten Schritt wurden die Trainingsdatenpunkte hinsichtlich ihres Einflusses auf die unfairen Vorhersagen der CEs sortiert. Trainingsdatenpunkte mit größtem Einfluss wurden anschließend iterativ entfernt, um ein finales, neu trainiertes Modell mit minimaler verbleibender Diskriminierung in den Vorhersagen zu erhalten. Der zweite Schritt sowie die iterative Entfernung der Datenpunkte wurden analog zur bereits erwähnten Methodik von Verma et al. [VEJ21] durchgeführt. Für die Evaluation der GA-basierten Vorgehensweise erfolgte der direkte Vergleich zur Baseline ohne Entfernung von Datenpunkten sowie zur ursprünglichen Methodik von Verma et al. innerhalb einer Replikation. Die Ergebnisse der GA-basierten Methodik zeigten einen Anstieg der erreichten Fairness, je mehr Datenpunkte entfernt wurden. Auch für die finale Auswahl der Modelle war im Vergleich zur Baseline tendenziell eine Erhöhung der Fairness zu beobachten. Diese fiel außerdem größer aus als für die von Verma et al. entwickelte Methodik. Insgesamt war keine Verschlechterung der Vorhersageleistung zu beobachten. Der GA-basierte Ansatz ließ ein Potential zur erfolgreichen Bereinigung der Trainingsdaten erkennen. Die berichteten Ergebnisse deuten an, dass diskriminierte Datenpunkte durch den Einsatz des GA in geeigneter Weise erkannt werden können. Kritisch zu beurteilen ist der Informationsverlust durch die hohe Anzahl entfernter Datenpunkte. Dieser macht deutlich, dass der Auswahlprozess eines finalen Modells bei der iterativen Entfernung noch nicht optimal ist. Zudem müssen mögliche methodische Unterschiede bei der Replikation berücksichtigt werden, die die Interpretation des Vergleichs beider Ansätze erschweren. Zukünftige Arbeiten sollten den GA-basierten Ansatz innerhalb weiterer Experimente evaluieren, die methodische Anpassungen sowie Vergleiche zu bestehenden Methoden der Fairness-Erhöhung im ML-Kontext beinhalten. Dabei sollte das Ziel eines optimalen TradeOffs zwischen Informationsverlust und erreichter Fairness verfolgt werden.
Item URL in elib: | https://elib.dlr.de/186582/ | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Document Type: | Thesis (Bachelor's) | ||||||||||||||||
Title: | Bereinigung der Trainingsdaten für faires Machine Learning: Anwendung eines Genetischen Algorithmus | ||||||||||||||||
Authors: |
| ||||||||||||||||
Date: | 2022 | ||||||||||||||||
Refereed publication: | No | ||||||||||||||||
Open Access: | No | ||||||||||||||||
Number of Pages: | 60 | ||||||||||||||||
Status: | Published | ||||||||||||||||
Keywords: | Genetische Algorithmen, Fairness, Machine Learning, Counterfactual Explanations | ||||||||||||||||
Institution: | Heinrich Heine Universität Düsseldorf | ||||||||||||||||
Department: | INSTITUT FÜR INFORMATIK | ||||||||||||||||
HGF - Research field: | Aeronautics, Space and Transport | ||||||||||||||||
HGF - Program: | Space | ||||||||||||||||
HGF - Program Themes: | Space System Technology | ||||||||||||||||
DLR - Research area: | Raumfahrt | ||||||||||||||||
DLR - Program: | R SY - Space System Technology | ||||||||||||||||
DLR - Research theme (Project): | R - Tasks SISTEC | ||||||||||||||||
Location: | Köln-Porz | ||||||||||||||||
Institutes and Institutions: | Institut of Simulation and Software Technology Institute of Software Technology > Intelligent and Distributed Systems | ||||||||||||||||
Deposited By: | Jentzsch, Sophie Freya | ||||||||||||||||
Deposited On: | 01 Jun 2022 11:08 | ||||||||||||||||
Last Modified: | 03 Jun 2022 13:10 |
Repository Staff Only: item control page