Question and answer dataset corpus for cryptography

dc.contributor.authorDietz, Tilman
dc.date.accessioned2025-10-08T10:10:13Z
dc.date.issued2025
dc.description.abstractLarge language models (LLMs) have demonstrated remarkable performance across a wide range of Natural Language Processing tasks, like text summarization, machine translation, and question answering. Their architecture, which is grounded in large-scale transformer models that are trained on diverse textual corpora, enables LLMs modeling complex linguistic structures and contextual relationships. These capabilities have driven innovation in computer science-related tasks like code generation, code repair, and code translation as well as in language-centric applications. Despite their general proficiency, LLMs continue to struggle in domains like mathematics and cryptography that require structured multi-step reasoning. In the field of cybersecurity, LLMs are used for threat detection, incident response, and the training of employees and end users. However, their ability to perform cryptographic tasks remains under-explored. To address this gap, we introduce CryptoQA, a high-quality, large-scale dataset containing over one million question-answer-pairs covering all major areas of cryptography and related topics. The data set is curated from large-scale web-scraped cryptographic contents such as textbooks, research articles, and educational materials. Each entry is enriched with metadata, providing scalable and consistent annotations without the cost of human labeling. In addition to curating the dataset, we evaluate state of the art LLMs on cryptographic knowledge and their reasoning abilities. Our initial evaluations of state of the art models reveal significant performance gaps, highlighting the need for continued research and specialized training to enable effective LLM integration in cryptographic applications.en
dc.description.abstractLarge Language Models (LLMs) haben eine bemerkenswerte Leistungen in einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung, wie Textzusammenfassung, maschinelle Übersetzung und Beantwortung von Fragen, gezeigt. Ihre Architektur, die auf groß angelegten Transformationsmodellen basiert, welche auf verschiedenen Textkorpora trainiert werden, ermöglicht LLMs die Modellierung komplexer linguistischer Strukturen und kontextueller Beziehungen. Diese Fähigkeiten haben Innovationen unter anderem in der Informatik, wie z. B. die Generierung von Code, die Reparatur von Code und die Übersetzung von Code, sowie in sprachzentrierten Anwendungen vorangetrieben. Trotz ihrer allgemeinen Fähigkeiten haben LLMs in Bereichen wie Mathematik und Kryptographie , die strukturiertes, mehrstufiges Denken erfordern, weiterhin Schwierigkeiten. Im Bereich der Cybersicherheit werden LLMs für die Erkennung von Bedrohungen, die Reaktion auf Zwischenfälle und die Schulung von Mitarbeitern und Endbenutzern eingesetzt. Ihre Fähigkeit, kryptografische Aufgaben auszuführen, ist jedoch noch wenig erforscht. Um diese Lücke zu schließen, stellen wir CryptoQA vor, einen qualitativ hochwertigen, groß angelegten Datensatz mit über einer Million Frage-Antwort-Paaren, die alle wichtigen Bereiche der Kryptographie und verwandter Themen abdecken. Der Datensatz wurde aus umfangreichen, im Internet gescrapten kryptografischen Inhalten wie Lehrbüchern, Forschungsartikeln und Lehrmaterialien zusammengestellt. Jeder Eintrag ist mit Metadaten angereichert, so dass skalierbare und konsistente Annotationen ohne die Kosten der menschlichen Beschriftung möglich sind. Zusätzlich zur Kuratierung des Datensatzes evaluieren wir moderne LLMs in Bezug auf kryptografisches Wissen und ihre Schlussfolgerungsfähigkeiten. Unsere ersten Auswertungen der dieser Modelle zeigen erhebliche Leistungslücken auf, was den Bedarf an fortgesetzter Forschung und speziellem Training für eine effektive Integration von LLMs in kryptografische Anwendungen verdeutlicht.de
dc.identifier.urihttp://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-171910de
dc.identifier.urihttps://elib.uni-stuttgart.de/handle/11682/17191
dc.identifier.urihttps://doi.org/10.18419/opus-17172
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subject.ddc004
dc.titleQuestion and answer dataset corpus for cryptographyen
dc.typebachelorThesis
ubs.fakultaetInformatik, Elektrotechnik und Informationstechnik
ubs.institutInstitut für Informationssicherheit
ubs.publikation.noppnyesde
ubs.publikation.seiten78
ubs.publikation.typAbschlussarbeit (Bachelor)
ubs.unilizenzOK

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Bachelorarbeit_Dietz_Tilman.pdf
Size:
2.83 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.3 KB
Format:
Item-specific license agreed upon to submission
Description: