Question and answer dataset corpus for cryptography
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Large language models (LLMs) have demonstrated remarkable performance across a wide range of Natural Language Processing tasks, like text summarization, machine translation, and question answering. Their architecture, which is grounded in large-scale transformer models that are trained on diverse textual corpora, enables LLMs modeling complex linguistic structures and contextual relationships. These capabilities have driven innovation in computer science-related tasks like code generation, code repair, and code translation as well as in language-centric applications. Despite their general proficiency, LLMs continue to struggle in domains like mathematics and cryptography that require structured multi-step reasoning. In the field of cybersecurity, LLMs are used for threat detection, incident response, and the training of employees and end users. However, their ability to perform cryptographic tasks remains under-explored. To address this gap, we introduce CryptoQA, a high-quality, large-scale dataset containing over one million question-answer-pairs covering all major areas of cryptography and related topics. The data set is curated from large-scale web-scraped cryptographic contents such as textbooks, research articles, and educational materials. Each entry is enriched with metadata, providing scalable and consistent annotations without the cost of human labeling. In addition to curating the dataset, we evaluate state of the art LLMs on cryptographic knowledge and their reasoning abilities. Our initial evaluations of state of the art models reveal significant performance gaps, highlighting the need for continued research and specialized training to enable effective LLM integration in cryptographic applications.
Large Language Models (LLMs) haben eine bemerkenswerte Leistungen in einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung, wie Textzusammenfassung, maschinelle Übersetzung und Beantwortung von Fragen, gezeigt. Ihre Architektur, die auf groß angelegten Transformationsmodellen basiert, welche auf verschiedenen Textkorpora trainiert werden, ermöglicht LLMs die Modellierung komplexer linguistischer Strukturen und kontextueller Beziehungen. Diese Fähigkeiten haben Innovationen unter anderem in der Informatik, wie z. B. die Generierung von Code, die Reparatur von Code und die Übersetzung von Code, sowie in sprachzentrierten Anwendungen vorangetrieben. Trotz ihrer allgemeinen Fähigkeiten haben LLMs in Bereichen wie Mathematik und Kryptographie , die strukturiertes, mehrstufiges Denken erfordern, weiterhin Schwierigkeiten. Im Bereich der Cybersicherheit werden LLMs für die Erkennung von Bedrohungen, die Reaktion auf Zwischenfälle und die Schulung von Mitarbeitern und Endbenutzern eingesetzt. Ihre Fähigkeit, kryptografische Aufgaben auszuführen, ist jedoch noch wenig erforscht. Um diese Lücke zu schließen, stellen wir CryptoQA vor, einen qualitativ hochwertigen, groß angelegten Datensatz mit über einer Million Frage-Antwort-Paaren, die alle wichtigen Bereiche der Kryptographie und verwandter Themen abdecken. Der Datensatz wurde aus umfangreichen, im Internet gescrapten kryptografischen Inhalten wie Lehrbüchern, Forschungsartikeln und Lehrmaterialien zusammengestellt. Jeder Eintrag ist mit Metadaten angereichert, so dass skalierbare und konsistente Annotationen ohne die Kosten der menschlichen Beschriftung möglich sind. Zusätzlich zur Kuratierung des Datensatzes evaluieren wir moderne LLMs in Bezug auf kryptografisches Wissen und ihre Schlussfolgerungsfähigkeiten. Unsere ersten Auswertungen der dieser Modelle zeigen erhebliche Leistungslücken auf, was den Bedarf an fortgesetzter Forschung und speziellem Training für eine effektive Integration von LLMs in kryptografische Anwendungen verdeutlicht.