elib
DLR-Header
DLR-Logo -> http://www.dlr.de
DLR Portal Home | Imprint | Privacy Policy | Contact | Deutsch
Fontsize: [-] Text [+]

Methoden der Netzwerkanalyse im Topic Modeling

Thelen, Jana (2019) Methoden der Netzwerkanalyse im Topic Modeling. Master's, Universität zu Köln.

[img] PDF
2MB

Abstract

Durch die Digitalisierung liegen immer mehr Sammlungen von Dokumenten in elektonischer Form vor. Es ist sehr aufwendig diese alle zu lesen, um die Hauptthemen und damit den Inhalt des Textes wiederzugeben. Topic Modeling, als eine wichtige Technik im Text Mining, kann die thematische Struktur einer großen Sammlung an Textdokumenten zusammenfassen. Um Topics in einer Dokumentensammlung zu bestimmen, können unterschiedliche Topic Modeling Methoden angewendet werden: Es gibt probabilistisch begründete Methoden des Topic Modelings. Unter diesen ist LDA (Latent Dirichlet Allocation) eine sehr verbreitete und häufig verwendete. Alternativ dazu wird von unterschiedlichen Autoren in neuerer Zeit ein anderer Zugang zum Topic Modeling vorgeschlagen, der Sammlungen von Dokumenten als Netzwerke auffasst und Themen mit Methoden der Community Detection zu identifizieren versucht. Hauptanliegen dieser Arbeit ist es, verschiedene Varianten dieses Ansatzes gegenüberzustellen und aussichtsreiche Modelle auf Probleme, die für den DLR Think Tank relevant sind, anzuwenden - insbesondere im Bereich der Trenderkennung. Deshalb werden die Verfahren an zwei Datensätzen aus diesem Kontext erprobt, nämlich den Kleinen Anfragen an die Bundesregierung und den Publikationen der elib DLR-Publikationsdatenbank. Es zeigt sich, dass hierbei insbesondere Community Detection über die Optimierung der Netzwerk-Modularität mittels Louvain-Algorithmus bessere Ergebnisse als die State-of-the-Art-Methode LDA liefert.

Item URL in elib:https://elib.dlr.de/141146/
Document Type:Thesis (Master's)
Title:Methoden der Netzwerkanalyse im Topic Modeling
Authors:
AuthorsInstitution or Email of AuthorsAuthor's ORCID iD
Thelen, JanaUNSPECIFIEDUNSPECIFIED
Date:December 2019
Refereed publication:Yes
Open Access:Yes
Gold Open Access:No
In SCOPUS:No
In ISI Web of Science:No
Number of Pages:115
Status:Published
Keywords:Text Mining, Komplexe Netzwerke, Topic Modeling, Community Detection
Institution:Universität zu Köln
Department:Mathematisches Institut
HGF - Research field:other
HGF - Program:other
HGF - Program Themes:other
DLR - Research area:no assignment
DLR - Program:no assignment
DLR - Research theme (Project):no assignment
Location: Köln-Porz
Institutes and Institutions:Think Tank
Deposited By: Hamm, Andreas
Deposited On:26 Feb 2021 15:11
Last Modified:29 Mar 2021 12:37

Repository Staff Only: item control page

Browse
Search
Help & Contact
Information
electronic library is running on EPrints 3.3.12
Copyright © 2008-2017 German Aerospace Center (DLR). All rights reserved.