Please use this identifier to cite or link to this item: http://dx.doi.org/10.18419/opus-10696
Authors: Buttgereit, Lars
Title: Wird dieser Tweet gelöscht? : Ein Ansatz zur automatischen Vorhersage durch maschinelles Lernen
Issue Date: 2019
metadata.ubs.publikation.typ: Abschlussarbeit (Bachelor)
metadata.ubs.publikation.seiten: 82
URI: http://elib.uni-stuttgart.de/handle/11682/10713
http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-107134
http://dx.doi.org/10.18419/opus-10696
Abstract: In sozialen Netzwerken wie Twitter werden täglich viele Beiträge bzw. Tweets erstellt. Davon werden einige im Nachhinein wieder gelöscht. Allerdings können durch die Löschung eines Tweets negative Folgen entstehen, weshalb ein System zur Erkennung solcher Tweets erstellt werden soll. Dafür wird in dieser Arbeit untersucht, wie gut es möglich ist, mit verschiedenen Featuremengen eine Löschung bereits im Voraus zu erkennen. Dabei werden Bag-of-Words-Feature, Nutzernamen der Ersteller und Emotionen in den Tweets als Featuremengen untersucht. Dafür wurde jeweils ein eigener Klassifikator für jede Featuremenge erstellt. Diese werden mit einer logistischen Regression als Klassifikationsalgorithmus erzeugt. Damit wird die Erkennung für einen gelöschten Tweet für jede Featuremenge einzeln untersucht. Außerdem werden die verschiedenen Klassifikatoren anschließend unterschiedlich miteinander kombiniert, um eine Verbesserung der Klassifizierung zu erreichen. Weiter werden die Tests mit zwei Datensätzen durchgeführt. Diese sind zum einen ein Twitterdatensatz mit Tweets von allen Nutzern (TweetAllNut) und zum andern ein Twitterdatensatz ohne Tweets von gelöschten Nutzern (OhneTweetGelNut). Hierbei wird der Korpus OhneTweetGel-Nut als realistischeres Abbild für die Löschung von Tweets angesehen, weil weniger Tweets mit störenden Eigenschaften vorhanden sind. Damit konnte bei der Nutzung der Bag-of-Words-Feature ein Recall von 0,42 und eine Precision von 0,16 erreicht werden. Wurde zusätzlich die Emotion mit einbezogen, konnte ein Recall von 0,47 und eine Precision von 0,13 erzielt werden. Mit allen Featuremengen können Werte von 0,41 beim Recall und von 0,70 bei der Precision erzeugt werden.Aus den Ergebnissen ist ersichtlich, dass eine Erkennung nur mit Features aus dem Text des Tweets, nur eingeschränkt möglich ist. Dabei haben hier die Emotionen und die Bag-of-Words-Feature nur eine geringe Verbesserung erzielt, gegenüber den Bag-of-Words-Features alleine. Weiter ist dieses Nutzernamenmodell trotz guter Werte in den Evaluationsmetriken nur eingeschränkt für diese Problemstellung nutzbar, weil mehrere Probleme mit diesem Modell entdeckt wurden. Außerdem konnte durch die Kombination aller Modelle keine Verbesserung gegenüber allen Einzelmodellen erzeugt werden.
Appears in Collections:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Files in This Item:
File Description SizeFormat 
Bachelorarbeit.pdf5,62 MBAdobe PDFView/Open


Items in OPUS are protected by copyright, with all rights reserved, unless otherwise indicated.