Shaping the future : the transformative potential of AI in computer science VET programs

Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

The recent surge in the field of generative artificial intelligence (GenAI) has the potential to bring about transformative changes across a range of sectors, including software engineering and education. In light of the considerable power of these tools and their largely freely available accessibility, there has been a notable discourse surrounding their potential integration within the domain of vocational education and training (VET) in computer science, with the possibility of substantial implications for the landscape of learning and programming. As GenAI tools, such as OpenAI's ChatGPT, are increasingly utilised in software engineering, it becomes imperative to understand the impact of these technologies on the next generation of software developers. This study was thus designed to examine the transformative impact of ChatGPT (GPT-4o model) on computer science VET programmes, with a specific focus on the influence of GenAI on vocational students engaged in the process of becoming experts in the field of software development. The study employed a twofold methodological approach, comprising web scraping and data mining from LeetCode, with the objective of comparing the software quality produced by LeetCode users with that generated by GPT-4o. Additionally, a quasi-experiment was conducted with 27 vocational students to ascertain whether ChatGPT facilitates or impedes the students' software development process. In order to gain insight into these matters, this study addresses three key research questions: (1) whether GPT-4o produces software of superior quality to that produced by humans, (2) how ChatGPT assists vocational astudents in completing software engineering tasks, and (3) how vocational students interact with ChatGPT and the challenges they face. In order to respond to the first research question, data were gathered on 2,321 LeetCode coding problems. A total of 57,238 validated user solutions were collated, while a total of 2,086 valid solutions were generated by GPT-4o. A total of 958,574 lines of code (LOC) were analysed through the SonarQube and LeetCode APIs with the objective of evaluating four quality metrics: (1) code quality (number of code smells per LOC), (2) code understandability (cognitive complexity score per LOC), (3) time behaviour (runtime rank), and (4) resource utilisation (memory usage rank). The findings indicate that GPT-4o does not present a considerable impediment to code quality, understandability, or runtime when generating code on a limited scale. Notably, the generated code even exhibits significantly lower values across all three metrics in comparison to the user-written code. However, no significantly superior values were observed for the generated code in terms of memory usage in comparison to the user code, which contravened the expectations. Furthermore, it was demonstrated that GPT-4o encountered challenges in generalising to problems that were not included in the training data set. Following an initial investigation into the quality of the generated code in comparison to that of users of LeetCode, a further investigation was conducted into the use of ChatGPT by 27 vocational students in a quasi-experimental design. As part of the investigation, a code base with a shopping cart theme was created, in which the participants were tasked to complete four typical software engineering tasks within a timeframe of 120 minutes. Consequently, the following properties were identified: (1) effectiveness (proportion of successfully completed tasks), (2) comprehension score for code and task (proportion of correctly answered questions), (3) cognitive load (dimensions of the NASA TLX), (4) code quality (number of code smells per LOC), (5) code understandability (cognitive complexity score per LOC), (6) application area of GenAI in the solution of software engineering tasks, and (7) perceived challenges in the application of GenAI. The results are dichotomous in nature. On the one hand, increased effectiveness, improved software quality and, in some cases, lower cognitive load when using ChatGPT were observed among vocational students. However, on the other hand, these results are tempered by a significant educational pitfall: the equivalent or lower comprehension score for code and task for participants who used ChatGPT to solve tasks, which undermines the positive outcomes. Furthermore, it was shown that the mere generation of solutions without adaptation of the information may already constitute an integrated application strategy among vocational students. The overuse of ChatGPT may have the disadvantage of losing deeper knowledge about the task, the code, and the context of the code. The potential for the powerful ChatGPT tool to exert a positive influence on vocational students is considerable, yet the consequences of inadequate use - as demonstrated herein - may lead to a reduction in educational quality. Consequently, further scientific research and insights are required in order to gain a deeper understanding of the impact of ChatGPT on the educational landscape.


Der jüngste Boom im Bereich der generativen künstlichen Intelligenz (GenAI) hat das Potenzial, transformative Veränderungen in einer Reihe von Sektoren zu bewirken, einschließlich der Softwareentwicklung und der Bildung. Angesichts der enormen Leistungsfähigkeit dieser Werkzeuge und ihrer weitgehenden freien Verfügbarkeit hat sich eine bemerkenswerte Diskussion über ihre mögliche Integration in die berufliche Aus- und Weiterbildung im Bereich der Informatik entwickelt, die erhebliche Auswirkungen auf die Landschaft des Lernens und Programmierens haben könnte. Da GenAI-Tools wie ChatGPT von OpenAI zunehmend in der Softwareentwicklung eingesetzt werden, ist es wichtig, die Auswirkungen dieser Technologien auf die nächste Generation von Softwareentwicklern zu verstehen. Diese Studie wurde daher konzipiert, um die transformativen Auswirkungen von ChatGPT (GPT-4o-Modell) auf IT-Berufsausbildungsprogramme zu untersuchen, mit besonderem Schwerpunkt auf dem Einfluss von GenAI auf Fachinformatiker und Fachinformatikerinnen in der Anwendungsentwicklung. Die Studie verwendet einen zweigleisigen methodischen Ansatz, der Web Scraping und Data Mining von LeetCode beinhaltet, mit dem Ziel, die von LeetCode-Nutzern produzierte Softwarequalität mit der von GPT-4o zu vergleichen. Zusätzlich wurde ein Quasi-Experiment mit 27 Berufsschülern durchgeführt, um herauszufinden, ob ChatGPT den Softwareentwicklungsprozess der Schüler erleichtert oder behindert. Um einen Einblick in diese Sachverhalte zu erhalten, beschäftigt sich diese Studie mit drei zentralen Forschungsfragen: (1) ob GPT-4o Software von besserer Qualität erzeugt als von Menschen produzierte Software, (2) ob ChatGPT Berufsschüler bei der Bewältigung von Softwareentwicklungsaufgaben unterstützt und (3) wie Berufsschüler mit ChatGPT interagieren und welchen Herausforderungen sie dabei begegnen. Zur Beantwortung der ersten Forschungsfrage wurden Daten zu 2.321 LeetCode Programmierproblemen gesammelt. Insgesamt wurden 57.238 validierte Benutzerlösungen gesammelt, während insgesamt 2.086 gültige Lösungen von GPT-4o generiert wurden. Insgesamt wurden 958.574 Codezeilen (LOC) über die SonarQube- und LeetCode-APIs analysiert, um vier Qualitätsmetriken zu bewerten: (1) Codequalität (Anzahl der Code Smells pro LOC), (2) Verständlichkeit des Codes (kognitiver Komplexitätswert pro LOC), (3) Zeitverhalten (runtime rank) und (4) Ressourcennutzung (memory usage rank). Die Ergebnisse zeigen, dass GPT-4o bei der Generierung von Code in begrenztem Umfang keine nennenswerten Beeinträchtigungen der Codequalität, der Verständlichkeit oder der Laufzeit darstellt. Bemerkenswert ist, dass der generierte Code im Vergleich zum benutzergeschriebenen Code sogar signifikant niedrigere Werte in allen drei Metriken aufweist. Entgegen den Erwartungen konnten jedoch keine signifikant besseren Werte für den generierten Code im Vergleich zum benutzergeschriebenen Code in Bezug auf den Speicherverbrauch festgestellt werden. Außerdem zeigte sich, dass GPT-4o Schwierigkeiten bei der Generalisierung auf Probleme hatte, die nicht im Trainingsdatensatz enthalten waren. Nach einer ersten Untersuchung der Qualität des generierten Codes im Vergleich zu der von LeetCode-Nutzern wurde die Untersuchung der Nutzung von ChatGPT durch 27 Berufsschüler in einem quasi-experimentellen Design durchgeführt. Als Teil der Untersuchung wurde eine Codebasis mit dem Thema eines shopping cart erstellt, in der die Teilnehmer vier typische Software-Engineering-Aufgaben in einem Zeitrahmen von 120 Minuten lösen sollten. Dabei wurden die folgenden Merkmale identifiziert: (1) Effektivität (Anteil erfolgreich abgeschlossener Aufgaben), (2) Verständniswert für Code und Aufgabe (Anteil richtig beantworteter Fragen), (3) kognitive Belastung (Dimensionen des NASA TLX), (4) Codequalität (Anzahl der Code Smells pro LOC), (5) Codeverständlichkeit (kognitiver Komplexitätswert pro LOC), (6) Anwendungsbereich von GenAI bei der Lösung von Software-Engineering-Aufgaben und (7) wahrgenommene Herausforderungen bei der Anwendung von GenAI. Die Ergebnisse sind zwiespältig. Auf der einen Seite wurden eine höhere Effektivität, eine bessere Softwarequalität und in einigen Fällen eine geringere kognitive Belastung bei der Verwendung von ChatGPT durch die Berufsschüler festgestellt. Auf der anderen Seite werden diese Ergebnisse durch einen wichtigen Aspekt der Lehre abgeschwächt: Die Teilnehmer, die ChatGPT zum Lösen von Aufgaben verwendeten, erzielten die gleiche oder eine niedrigere Bewertung für das Verständnis des Codes und der Aufgabe, was die positiven Ergebnisse untergräbt. Darüber hinaus konnte gezeigt werden, dass die einfache Generierung von Lösungen ohne Anpassung der Informationen bereits eine integrierte Anwendungsstrategie unter Berufsschülern darstellen kann. Die übermäßige Nutzung von ChatGPT kann den Nachteil haben, dass tieferes Wissen über die Aufgabe, den Code und den Kontext des Codes verloren geht. Das Potenzial des leistungsfähigen ChatGPT-Tools, einen positiven Einfluss auf Berufsschüler auszuüben, ist beträchtlich, aber die Folgen einer unzureichenden Nutzung - wie hier gezeigt - können zu einer Verringerung der Ausbildungsqualität führen. Daher sind weitere wissenschaftliche Untersuchungen und Erkenntnisse erforderlich, um ein tieferes Verständnis der Auswirkungen von ChatGPT auf die Bildungslandschaft zu erlangen.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By