Analyse der Repräsentanz von BERT-basierten Class-Embeddings in unbalancierten Datensätzen mittels Active Learning

dc.contributor.authorMujko, Alp
dc.date.accessioned2023-10-19T14:13:21Z
dc.date.available2023-10-19T14:13:21Z
dc.date.issued2023de
dc.description.abstractDas Sprachmodell BERT (Bidirectional Encoder Representations from Transformers) ist ein neuronales Netzwerk, das für die Verarbeitung von Textdaten ausgelegt ist und aufgrund seiner Fähigkeit, sowohl die Vorwärts- als auch die Rückwärtsrichtung des Kontexts zu berücksichtigen, als sehr leistungsfähig bei Aufgaben im Bereich der natürlichen Sprachverarbeitung gilt. In dieser Arbeit nutzen wir dessen Transformer-Architektur, um geeignete Dokumenten-Embeddings für Texte zu generieren. Aus diesen leiten wir für jede Klasse an Dokumenten ein Class-Embedding ab, das stellvertretend für die jeweilige Klasse steht. Um die Repräsentanz der erzeugten Class-Embeddings zu untersuchen, verwenden wir diese in einem Active Learning Szenario, um neue unbekannte Dokumente zu labeln. Wir stellen fest, dass die berechneten Class-Embeddings ihre Klasse sinngemäß repräsentieren und folglich den Embedding-Raum sinnvoll partitionieren. Darüber hinaus liefert der Abstand zwischen den Class-Embeddings Aufschluss über die semantische Ähnlichkeit zwischen den Klassen.de
dc.identifier.other1867296470
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-136732de
dc.identifier.urihttp://elib.uni-stuttgart.de/handle/11682/13673
dc.identifier.urihttp://dx.doi.org/10.18419/opus-13654
dc.language.isodede
dc.rightsinfo:eu-repo/semantics/openAccessde
dc.subject.ddc004de
dc.titleAnalyse der Repräsentanz von BERT-basierten Class-Embeddings in unbalancierten Datensätzen mittels Active Learningde
dc.typebachelorThesisde
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnikde
ubs.institutInstitut für Maschinelle Sprachverarbeitungde
ubs.publikation.seiten60de
ubs.publikation.typAbschlussarbeit (Bachelor)de

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Bachelorarbeit_Alp_Mujko.pdf
Size:
1.32 MB
Format:
Adobe Portable Document Format
Description:

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.3 KB
Format:
Item-specific license agreed upon to submission
Description: