Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-11940
Autor(en): Evci, Hasan
Titel: Extracting and segmenting high-variance references from PDF documents with BERT
Erscheinungsdatum: 2021
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: xiii, 61
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-119570
http://elib.uni-stuttgart.de/handle/11682/11957
http://dx.doi.org/10.18419/opus-11940
Zusammenfassung: The extraction and segmentation of references from scientific articles is a core task of modern digital libraries. Once references are extracted and segmented, the bibliographic information can be made publicly available and linked, enabling efficient literature study. However, references often vary in their structure and content. This makes the extraction and segmentation of references a challenging but valuable task. The purpose of this thesis is to investigate whether Bidirectional Encoder Representations from Transformers (BERT) is suitable for the extraction and segmentation of bibliographic references. Therefore, we follow a deep learning approach for the extraction and segmentation of references from PDF documents. We use a neural network architecture based on BERT, a deep language representation model that has significantly increased performance on many natural language processing tasks. Over the BERT output, we put a linear-chain Conditional Random Field. We experiment with different BERT models and input formats and also examine two approaches for reference extraction and segmentation. The experiments are evaluated on a challenging dataset that contains both English and German social science publications with highly varying references. Our results show that the best performing BERT models were pre-trained on similar data to the data that we used for the fine-tuning of the BERT models on the task of reference extraction and reference segmentation. Moreover, our findings show that long, context-based input sequences yield the best results. The extraction model identifies and extracts references with an average F1-score of 81.9%. References are segmented with an average F1-score of 93.6%. We show that our models compare well to one other previously published work. Our conclusion is that BERT is a suitable choice for reference extraction and reference segmentation.
Die Extraktion und Segmentierung von Referenzen aus wissenschaftlichen Artikeln ist eine Kernaufgabe moderner digitaler Bibliotheken. Sobald Referenzen extrahiert und segmentiert sind, können bibliografische Informationen öffentlich zugänglich gemacht und verlinkt werden. Dies ermöglicht ein effizientes Literaturstudium. Allerdings unterscheiden sich Referenzen oft in ihrer Struktur und ihrem Inhalt. Dies macht die Extraktion und Segmentierung von Referenzen zu einer anspruchsvollen, aber wertvollen Aufgabe. In dieser Arbeit soll untersucht werden, ob sich Bidirectional Encoder Representations from Transformers (BERT) für die Extraktion und Segmentierung von bibliographischen Referenzen eignet. Dazu wird ein Deep-Learning Ansatz für die Extraktion und Segmentierung von Referenzen aus PDF-Dokumenten verfolgt. Es wird eine neuronale Netzwerkarchitektur verwendet, die auf BERT basiert. BERT ist ein tiefes Sprachrepräsentationsmodell, das die Leistung bei vielen Aufgaben zur Verarbeitung natürlicher Sprache deutlich erhöht hat. Über die Ausgabe von BERT wird eine Linear-Chain Conditional Random Field gelegt. Es werden Experimente mit verschiedenen BERT-Modellen und Eingabeformaten durchgeführt und es werden zwei Ansätze zur Referenzextraktion und -segmentierung untersucht. Die Experimente werden anhand eines anspruchsvollen Datensatzes ausgewertet, der sowohl englische als auch deutsche sozialwissenschaftliche Publikationen mit stark variierenden Referenzen enthält. Unsere Ergebnisse zeigen, dass die leistungsstärksten BERT-Modelle auf ähnlichen Daten vortrainiert wurden wie die Daten, die wir für die Feinabstimmung der BERT-Modelle für die Aufgabe der Referenzextraktion und -segmentierung verwendet haben. Zudem zeigen unsere Ergebnisse, dass lange, kontextbasierte Eingabesequenzen die besten Ergebnisse liefern. Das Extraktionsmodell identifiziert und extrahiert Referenzen mit einem durchschnittlichen F1-Score von 81,9%. Referenzen werden mit einem durchschnittlichen F1-Score von 93,6% segmentiert. Es wird gezeigt, dass die ausgewählten Modelle gut mit einer anderen zuvor veröffentlichten Arbeit vergleichbar sind. Die Schlussfolgerung ist, dass BERT eine geeignete Wahl für die Extraktion und Segmentierung von Referenzen ist.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
211221_EVCI - B.Sc.Inf_BachelorThesis_ExtractingReferencesFromPDFDocumentsWithBERT.pdf1,21 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.