Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
http://dx.doi.org/10.18419/opus-13654
Autor(en): | Mujko, Alp |
Titel: | Analyse der Repräsentanz von BERT-basierten Class-Embeddings in unbalancierten Datensätzen mittels Active Learning |
Erscheinungsdatum: | 2023 |
Dokumentart: | Abschlussarbeit (Bachelor) |
Seiten: | 60 |
URI: | http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-136732 http://elib.uni-stuttgart.de/handle/11682/13673 http://dx.doi.org/10.18419/opus-13654 |
Zusammenfassung: | Das Sprachmodell BERT (Bidirectional Encoder Representations from Transformers) ist ein neuronales Netzwerk, das für die Verarbeitung von Textdaten ausgelegt ist und aufgrund seiner Fähigkeit, sowohl die Vorwärts- als auch die Rückwärtsrichtung des Kontexts zu berücksichtigen, als sehr leistungsfähig bei Aufgaben im Bereich der natürlichen Sprachverarbeitung gilt. In dieser Arbeit nutzen wir dessen Transformer-Architektur, um geeignete Dokumenten-Embeddings für Texte zu generieren. Aus diesen leiten wir für jede Klasse an Dokumenten ein Class-Embedding ab, das stellvertretend für die jeweilige Klasse steht. Um die Repräsentanz der erzeugten Class-Embeddings zu untersuchen, verwenden wir diese in einem Active Learning Szenario, um neue unbekannte Dokumente zu labeln. Wir stellen fest, dass die berechneten Class-Embeddings ihre Klasse sinngemäß repräsentieren und folglich den Embedding-Raum sinnvoll partitionieren. Darüber hinaus liefert der Abstand zwischen den Class-Embeddings Aufschluss über die semantische Ähnlichkeit zwischen den Klassen. |
Enthalten in den Sammlungen: | 05 Fakultät Informatik, Elektrotechnik und Informationstechnik |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
Bachelorarbeit_Alp_Mujko.pdf | 1,35 MB | Adobe PDF | Öffnen/Anzeigen |
Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.