Automatisierte Generierung von Trainingsdaten für die Informationsextraktion aus deutschen Geschäftsdokumenten auf Basis von Sprachmodellen

Burkhardt, Jannik

Automatisierte Generierung von Trainingsdaten für die Informationsextraktion aus deutschen Geschäftsdokumenten auf Basis von Sprachmodellen

Files

Masterarbeit_Jannik_Burkhardt.pdf (1.26 MB)

Date

2023

Authors

Burkhardt, Jannik

Abstract

Generative KI hat seit der Veröffentlichung von ChatGPT im Dezember 2022 enorme Popularität erlangt. Ihr Potenzial ist immens und schon heute wird diese neue Technik in viele Produkte und Anwendungen integriert. In dieser Arbeit wird untersucht, welchen Einfluss automatisiert annotierte Trainingsdaten und von ChatGPT generierte Trainingsdaten auf das Finetuning von Sprachmodellen haben, wenn nur wenige handannotierte Daten vorhanden sind. Die mit den Methoden verbundenen Vorteile und Hindernisse werden am Beispiel der Relation Extraction aus deutschen Geschäftsdokumenten in Erfahrung gebracht. Es wird gezeigt, dass die Daten von ChatGPT von Fehlern bereinigt werden müssen, diese Daten dann jedoch die Leistung des Sprachmodells signifikant verbessern gegenüber einem Sprachmodell, das nur auf wenigen handannotierten Daten basiert.

URI

http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-138626
http://elib.uni-stuttgart.de/handle/11682/13862
http://dx.doi.org/10.18419/opus-13843

Collections

05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Full item page

Automatisierte Generierung von Trainingsdaten für die Informationsextraktion aus deutschen Geschäftsdokumenten auf Basis von Sprachmodellen

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By