Thelen, Jana (2019) Methoden der Netzwerkanalyse im Topic Modeling. Masterarbeit, Universität zu Köln.
PDF
2MB |
Kurzfassung
Durch die Digitalisierung liegen immer mehr Sammlungen von Dokumenten in elektonischer Form vor. Es ist sehr aufwendig diese alle zu lesen, um die Hauptthemen und damit den Inhalt des Textes wiederzugeben. Topic Modeling, als eine wichtige Technik im Text Mining, kann die thematische Struktur einer großen Sammlung an Textdokumenten zusammenfassen. Um Topics in einer Dokumentensammlung zu bestimmen, können unterschiedliche Topic Modeling Methoden angewendet werden: Es gibt probabilistisch begründete Methoden des Topic Modelings. Unter diesen ist LDA (Latent Dirichlet Allocation) eine sehr verbreitete und häufig verwendete. Alternativ dazu wird von unterschiedlichen Autoren in neuerer Zeit ein anderer Zugang zum Topic Modeling vorgeschlagen, der Sammlungen von Dokumenten als Netzwerke auffasst und Themen mit Methoden der Community Detection zu identifizieren versucht. Hauptanliegen dieser Arbeit ist es, verschiedene Varianten dieses Ansatzes gegenüberzustellen und aussichtsreiche Modelle auf Probleme, die für den DLR Think Tank relevant sind, anzuwenden - insbesondere im Bereich der Trenderkennung. Deshalb werden die Verfahren an zwei Datensätzen aus diesem Kontext erprobt, nämlich den Kleinen Anfragen an die Bundesregierung und den Publikationen der elib DLR-Publikationsdatenbank. Es zeigt sich, dass hierbei insbesondere Community Detection über die Optimierung der Netzwerk-Modularität mittels Louvain-Algorithmus bessere Ergebnisse als die State-of-the-Art-Methode LDA liefert.
elib-URL des Eintrags: | https://elib.dlr.de/141146/ | ||||||||
---|---|---|---|---|---|---|---|---|---|
Dokumentart: | Hochschulschrift (Masterarbeit) | ||||||||
Titel: | Methoden der Netzwerkanalyse im Topic Modeling | ||||||||
Autoren: |
| ||||||||
Datum: | Dezember 2019 | ||||||||
Referierte Publikation: | Ja | ||||||||
Open Access: | Ja | ||||||||
Seitenanzahl: | 115 | ||||||||
Status: | veröffentlicht | ||||||||
Stichwörter: | Text Mining, Komplexe Netzwerke, Topic Modeling, Community Detection | ||||||||
Institution: | Universität zu Köln | ||||||||
Abteilung: | Mathematisches Institut | ||||||||
HGF - Forschungsbereich: | keine Zuordnung | ||||||||
HGF - Programm: | keine Zuordnung | ||||||||
HGF - Programmthema: | keine Zuordnung | ||||||||
DLR - Schwerpunkt: | keine Zuordnung | ||||||||
DLR - Forschungsgebiet: | keine Zuordnung | ||||||||
DLR - Teilgebiet (Projekt, Vorhaben): | keine Zuordnung | ||||||||
Standort: | Köln-Porz | ||||||||
Institute & Einrichtungen: | Think Tank | ||||||||
Hinterlegt von: | Hamm, Dr. Andreas | ||||||||
Hinterlegt am: | 26 Feb 2021 15:11 | ||||||||
Letzte Änderung: | 29 Mär 2021 12:37 |
Nur für Mitarbeiter des Archivs: Kontrollseite des Eintrags