Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-9867
Autor(en): Xu, MIn
Titel: Automatische Kategorisierung von Autoren in Bezug auf Arzneimittel in Twitter
Erscheinungsdatum: 2016
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: ix, 59
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-98845
http://elib.uni-stuttgart.de/handle/11682/9884
http://dx.doi.org/10.18419/opus-9867
Zusammenfassung: Mit der rasch wachsenden Popularität von Twitter werden auch immer mehr unterschiedliche Themen diskutiert. Dies lässt sich auch im Bezug auf die Wirkung von Arzneimitteln beobachten. Es ist daher sehr interessant herauszufinden, welche sozialen Gruppen dazu neigen, bestimmte Arzneimittel in Twitter zu diskutieren und welche Arzneimittel am meisten in Twitter diskutiert werden. Deshalb bietet es sich an, mit Verwendung der Technologie der Textklassifikation, die große Anzahl von Tweets zu kategorisieren. In dieser Arbeit wird das hauptsächlich mit dem Maximum Entropy Klassifikator realisiert, mit den sich die Autoren der Tweets erkennen lassen. Da das Maximum Entropy Modell eine Vielzahl der relevanten oder irrelevanten Kenntnis der Wahrscheinlichkeiten umfassend beobachten kann, erzielt der Maximum Entropy Klassifikator im Vergleich zum naiven Bayes-Klassifikator in dieser Arbeit ein besseres Ergebnis bei der Multi-Klassen-Klassifikation. Die Beeinflussung auf die Leistungen des Maximum Entropy Klassifikator unter der Verwendungen von verschiedenen Methoden, wie Information Gain & Mutual Information und LDA-Topic Model, zur Auswahl der Merkmale und unterschiedlicher Anzahl an Merkmalen wird verglichen und analysiert. Die Ergebnissen zeigen, dass die Methoden Information Gain & Mutual Information und LDA-Topic-Model gute praktische Ansätze sind, mit denen die Merkmale kurzer Texte erkannt werden können. Mit dem Maximum Entropy Klassifikator wird eine durchschnittliche Testgenauigkeit von 79.8% erreicht.
With the rapidly growing popularity of Twitter there is also a growing amount of themes being discussed. This can also be observed relating to the effect of drugs. Therefore it is really interesting to figure out what social groups are tend to discuss drugs and what drugs are discussed the most in Twitter. To do so it makes sense to use the technology of text classification to categorize the huge amount of tweets. In this paper the detection of a tweet‘s author is realized by the Maximum Entropy Classificator. The Maximum Entropy Modell is able to observe the variety of relevant an irrelevant acquirements of probability. It archieves better results compared to the Naive Bayes Classificator in multi-class-classification. The effect on the performance of the MaxEnt-classificator using different methods like Information Gain & Mutual Information and LDA-Topic Model for choosing characteristics and the use of different quantities of characteristics will be compared and analyzed. The results show that the methods Information Gain & Mutual Information and LDA-Topic-Model are good practical approaches for detecting characteristics of short texts. The test-precission of the Maximum Entropy Classificator reaches an average of 79,8%.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Automatische Kategorisierung von Autoren in Bezug auf Arzneimittel in Twitter.pdf1,47 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.