Bereinigung der Trainingsdaten für faires Machine Learning: Anwendung eines Genetischen Algorithmus

Hilger, Lena und Leuschel, Michael und Jentzsch, Sophie F. (2022) Bereinigung der Trainingsdaten für faires Machine Learning: Anwendung eines Genetischen Algorithmus. Bachelorarbeit, Heinrich Heine Universität Düsseldorf.

PDF - Nur DLR-intern zugänglich
2MB

Kurzfassung

Die Motivation der vorliegenden Arbeit ist die Frage, ob ein Genetischer Algorithmus (GA) zur Fairness-Optimierung von Machine Learning (ML) eingesetzt werden kann. GAs bieten eine effiziente Suchstrategie in nur schwer überblickbaren Lösungsräumen von Optimierungproblemen. Diese Eigenschaft soll genutzt werden, um die Identifizierung diskriminierter Trainingsdatenpunkte im ML-Kontext zu ermöglichen. Darauf basierend sollen die Trainingsdaten bereinigt werden, um möglichst faire ML-Modelle zu generieren. Um dieses Ziel zu erreichen, wurde im Ansatz von Verma et al. [VEJ21] die zentrale Vorgehensweise zur Identifizierung diskriminierter Datenpunkte durch einen speziellen GA ersetzt. Dieser wurde im Rahmen der vorliegenden Arbeit entwickelt und betrachtet für jeden Trainingsdatenpunkt sogenannte erweiterte Counterfactual Explanations (CEs) als Lösungskandidaten im Suchraum. Er beinhaltet die Suche nach CEs, die möglichst eine maximale Ähnlichkeit zum jeweiligen Trainingsdatenpunkt aufweisen. Aufgrund festgelegter Eigenschaften stellen die maximierten CEs simulierte Datenpunkte dar, für die ein initial trainiertes Modell unfaire Vorhersagen generiert. Der Gesamtablauf zur Erhöhung der Fairness beinhaltete zunächst die Ausführung des beschriebenen GAs. Im zweiten Schritt wurden die Trainingsdatenpunkte hinsichtlich ihres Einflusses auf die unfairen Vorhersagen der CEs sortiert. Trainingsdatenpunkte mit größtem Einfluss wurden anschließend iterativ entfernt, um ein finales, neu trainiertes Modell mit minimaler verbleibender Diskriminierung in den Vorhersagen zu erhalten. Der zweite Schritt sowie die iterative Entfernung der Datenpunkte wurden analog zur bereits erwähnten Methodik von Verma et al. [VEJ21] durchgeführt. Für die Evaluation der GA-basierten Vorgehensweise erfolgte der direkte Vergleich zur Baseline ohne Entfernung von Datenpunkten sowie zur ursprünglichen Methodik von Verma et al. innerhalb einer Replikation. Die Ergebnisse der GA-basierten Methodik zeigten einen Anstieg der erreichten Fairness, je mehr Datenpunkte entfernt wurden. Auch für die finale Auswahl der Modelle war im Vergleich zur Baseline tendenziell eine Erhöhung der Fairness zu beobachten. Diese fiel außerdem größer aus als für die von Verma et al. entwickelte Methodik. Insgesamt war keine Verschlechterung der Vorhersageleistung zu beobachten. Der GA-basierte Ansatz ließ ein Potential zur erfolgreichen Bereinigung der Trainingsdaten erkennen. Die berichteten Ergebnisse deuten an, dass diskriminierte Datenpunkte durch den Einsatz des GA in geeigneter Weise erkannt werden können. Kritisch zu beurteilen ist der Informationsverlust durch die hohe Anzahl entfernter Datenpunkte. Dieser macht deutlich, dass der Auswahlprozess eines finalen Modells bei der iterativen Entfernung noch nicht optimal ist. Zudem müssen mögliche methodische Unterschiede bei der Replikation berücksichtigt werden, die die Interpretation des Vergleichs beider Ansätze erschweren. Zukünftige Arbeiten sollten den GA-basierten Ansatz innerhalb weiterer Experimente evaluieren, die methodische Anpassungen sowie Vergleiche zu bestehenden Methoden der Fairness-Erhöhung im ML-Kontext beinhalten. Dabei sollte das Ziel eines optimalen TradeOffs zwischen Informationsverlust und erreichter Fairness verfolgt werden.

elib-URL des Eintrags:

https://elib.dlr.de/186582/

Dokumentart:

Hochschulschrift (Bachelorarbeit)

Titel:

Bereinigung der Trainingsdaten für faires Machine Learning: Anwendung eines Genetischen Algorithmus

Autoren:

Autoren	Institution oder E-Mail-Adresse	Autoren-ORCID-iD	ORCID Put Code
Hilger, Lena	Heinrich Heine Universität Düsseldorf	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT
Leuschel, Michael	Heinrich Heine Universität Düsseldorf	NICHT SPEZIFIZIERT	NICHT SPEZIFIZIERT
Jentzsch, Sophie F.	Sophie.Jentzsch (at) dlr.de	https://orcid.org/0000-0001-6217-8814	NICHT SPEZIFIZIERT

Datum:

2022

Referierte Publikation:

Nein

Open Access:

Nein

Seitenanzahl:

Status:

veröffentlicht

Stichwörter:

Genetische Algorithmen, Fairness, Machine Learning, Counterfactual Explanations

Institution:

Heinrich Heine Universität Düsseldorf

Abteilung:

INSTITUT FÜR INFORMATIK

HGF - Forschungsbereich:

Luftfahrt, Raumfahrt und Verkehr

HGF - Programm:

Raumfahrt

HGF - Programmthema:

Technik für Raumfahrtsysteme

DLR - Schwerpunkt:

Raumfahrt

DLR - Forschungsgebiet:

R SY - Technik für Raumfahrtsysteme

DLR - Teilgebiet (Projekt, Vorhaben):

R - Aufgaben SISTEC

Standort:

Köln-Porz

Institute & Einrichtungen:

Institut für Simulations- und Softwaretechnik
Institut für Softwaretechnologie > Intelligente und verteilte Systeme

Hinterlegt von:

Jentzsch, Sophie Freya

Hinterlegt am:

01 Jun 2022 11:08

Letzte Änderung:

03 Jun 2022 13:10

Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags