Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-13953
Autor(en): Hollenbeck, Jo
Titel: GPT-4-based visualization reasoning dataset
Erscheinungsdatum: 2024
Dokumentart: Abschlussarbeit (Bachelor)
Seiten: 46
URI: http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-139726
http://elib.uni-stuttgart.de/handle/11682/13972
http://dx.doi.org/10.18419/opus-13953
Zusammenfassung: Grafische Darstellungen von Daten, wie Diagramme und Tabellen, sind eine weit verbreitete Methode, um Daten strukturiert und verständlich zusammenzufassen. Mit dem Fortschritt in der Künstlichen Intelligenz wurden viele Modelle entwickelt, die Nutzern Antworten auf ihre Fragen bezüglich dieser visuellen Daten liefern. Die Analyse der Modelle zeigt, dass sowohl die Evaluation der Genauigkeit als auch die Transparenz hinsichtlich der Schritte zum Erlangen des Ergebnisses unzureichend sind. Diese beiden Schwachstellen wurden in dieser Arbeit adressiert. Die verwendete KI ist das Modell von OpenAI, GPT-4. Tabellen werden in reiner Textform übermittelt und Diagramme als Bilder hochgeladen. Eine erweiterte Eingabe garantiert eine Begründung der Antwort seitens der KI. Mit den gesammelten Daten werden quantitative Analysen durchgeführt, um die numerischen Daten und ihren Einfluss auf die Antwort zu untersuchen. Darüber hinaus wird eine qualitative Analyse durchgeführt, um die Qualität der Antwort in Bezug auf Klarheit, Relevanz und Begründung zu bestimmen. Zusätzlich werden Antworten auf Tabellen und Diagramme verglichen, um tiefere Einblicke in die Leistung des Modells zu erhalten und mögliche Schwachstellen zu identifizieren. Die Ergebnisse zeigen, dass GPT-4 bei den meisten Diagrammarten beeindruckend genau arbeitet, mit Ausnahme von Liniendiagrammen und insbesondere Grafiken mit hoher Informationsdichte. Das Modell erreicht eine durchweg gute Antwortqualität, sowohl bei rein textbasierten als auch bei bildbasierten Eingaben. Diese Arbeit zeigt, dass GPT-4 bei Aufgaben auf visuellen Darstellungen gut abschneidet, aber bei komplexen Diagrammen Verbesserungspotenzial aufweist.
Visual data, such as charts and tables, is a widely used method to summarise data clearly. With the ascent of Artificial Intelligence lots of models have been created that provide users with answers to their questions on visual data. An analysis of the latest research reveals that the model accuracy and the reasoning of the results are still insufficient. These two major aspects are tackled in this work. The AI model used is OpenAI's large language model GPT-4. Tables are presented as text-only input, and charts are uploaded as images to GPT-4. A modified prompt guarantees a step-by-step reasoning as output. With the collected data, quantitative analyses are conducted to evaluate the numerical data and its influence on the response. Moreover, a qualitative analysis is performed determining the quality of answer in terms of clarity, relevance and reasoning. Additionally, responses on tables and charts are compared to get deeper insights on the model's performance. Notable results are GPT-4's outstanding performance on the accuracy of the input formats, except for line charts and charts containing dense information. The model consistently produces good-quality answers when provided with either text-only or image-text input. This work demonstrates that GPT-4 performs well on visual data methods, but especially for complex chart images it exhibits room for improvement.
Enthalten in den Sammlungen:05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Bachelorarbeit_Jo_Hollenbeck.pdf1,01 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.