Thelen, Jana (2019) Methoden der Netzwerkanalyse im Topic Modeling. Master's, Universität zu Köln.
|
PDF
2MB |
Abstract
Durch die Digitalisierung liegen immer mehr Sammlungen von Dokumenten in elektonischer Form vor. Es ist sehr aufwendig diese alle zu lesen, um die Hauptthemen und damit den Inhalt des Textes wiederzugeben. Topic Modeling, als eine wichtige Technik im Text Mining, kann die thematische Struktur einer großen Sammlung an Textdokumenten zusammenfassen. Um Topics in einer Dokumentensammlung zu bestimmen, können unterschiedliche Topic Modeling Methoden angewendet werden: Es gibt probabilistisch begründete Methoden des Topic Modelings. Unter diesen ist LDA (Latent Dirichlet Allocation) eine sehr verbreitete und häufig verwendete. Alternativ dazu wird von unterschiedlichen Autoren in neuerer Zeit ein anderer Zugang zum Topic Modeling vorgeschlagen, der Sammlungen von Dokumenten als Netzwerke auffasst und Themen mit Methoden der Community Detection zu identifizieren versucht. Hauptanliegen dieser Arbeit ist es, verschiedene Varianten dieses Ansatzes gegenüberzustellen und aussichtsreiche Modelle auf Probleme, die für den DLR Think Tank relevant sind, anzuwenden - insbesondere im Bereich der Trenderkennung. Deshalb werden die Verfahren an zwei Datensätzen aus diesem Kontext erprobt, nämlich den Kleinen Anfragen an die Bundesregierung und den Publikationen der elib DLR-Publikationsdatenbank. Es zeigt sich, dass hierbei insbesondere Community Detection über die Optimierung der Netzwerk-Modularität mittels Louvain-Algorithmus bessere Ergebnisse als die State-of-the-Art-Methode LDA liefert.
| Item URL in elib: | https://elib.dlr.de/141146/ | ||||||||
|---|---|---|---|---|---|---|---|---|---|
| Document Type: | Thesis (Master's) | ||||||||
| Title: | Methoden der Netzwerkanalyse im Topic Modeling | ||||||||
| Authors: |
| ||||||||
| Date: | December 2019 | ||||||||
| Refereed publication: | Yes | ||||||||
| Open Access: | Yes | ||||||||
| Number of Pages: | 115 | ||||||||
| Status: | Published | ||||||||
| Keywords: | Text Mining, Komplexe Netzwerke, Topic Modeling, Community Detection | ||||||||
| Institution: | Universität zu Köln | ||||||||
| Department: | Mathematisches Institut | ||||||||
| HGF - Research field: | other | ||||||||
| HGF - Program: | other | ||||||||
| HGF - Program Themes: | other | ||||||||
| DLR - Research area: | no assignment | ||||||||
| DLR - Program: | no assignment | ||||||||
| DLR - Research theme (Project): | no assignment | ||||||||
| Location: | Köln-Porz | ||||||||
| Institutes and Institutions: | Think Tank | ||||||||
| Deposited By: | Hamm, Dr. Andreas | ||||||||
| Deposited On: | 26 Feb 2021 15:11 | ||||||||
| Last Modified: | 29 Mar 2021 12:37 |
Repository Staff Only: item control page