Validating the threats to validity in program comprehension experiments

Muñoz Barón, Marvin

Validating the threats to validity in program comprehension experiments

Files

Primary master-thesis_MarvinMunozBaron.pdf (868.86 KB)

Date

2022

Authors

Muñoz Barón, Marvin

Abstract

HINTERGRUND: Der Entwurf von empirischen Softwareentwicklungsmethoden setzt die Existenz von Beweisen voraus, um die angewandte Methodik auf empirische Fakten zu stützen. Das Verstehen der Faktoren, die experimentelle Ergebnisse beeinflussen können, wie man geeignete Stichproben und Versuchsobjekte auswählt und wie man statistische Methoden korrekt anwendet, ist Voraussetzung zur Entwicklung fundierter Forschungsmethoden. Dies gilt insbesondere in einem Bereich wie dem des Programmverstehens, bei dem hunderte verschiedene kontextuelle Faktoren die Validität der erzielten Ergebnisse beeinflussen können. Hier haben Forscher oft Intuitionen darüber, was die Validität ihrer Studien gefährden könnte, haben aber keine Beweise, um ihre Behauptungen zu unterstützen. ZIEL: Diese Studie untersucht die Risikofaktoren für die Validität von Experimenten über das Programmverstehen, um Beweise für ihre Existenz zu sammeln, den Kontext und die Art zu verstehen, in dem sie auftreten und schließlich Forschern zu helfen, kontrollierte Experimente mit hoher Validität zu entwerfen. METHODEN: Zunächst führen wir ein systematisches Review über bestehende Experimente zum Programmverstehen durch und fassen zusammen, welche Risikofaktoren für die Validität sie nennen. Anschließend gehen wir den drei am häufigsten genannten Faktoren nach, indem wir im begrenzten Umfang systematische Reviews durchführen und die gesammelten Beweise mithilfe eines Evidenzprofils auswerten, um ihren Einfluss als Faktor zu untersuchen. ERGEBNIS: Wir fanden heraus, dass nur 31 von 409 (8 %) individuellen Risikofaktoren mit entsprechenden Beweisen aufgeführt wurden. Für die drei häufigsten Faktoren - Programmiererfahrung, Programmlänge und das Maß für Verständnis - haben wir außerdem festgestellt, dass kontextbezogene Faktoren wie die Messmethoden, die individuellen Merkmale der Bevölkerungsstichprobe und die konkreten experimentellen Aufgaben die Art und Weise verändern, wie sich ein Faktor auf die Ergebnisse einer Studie auswirkt. FAZIT: Risikofaktoren für die Validität sind in hohem Maße kontextabhängig und müssen daher auf unterschiedliche Weise kontrolliert werden. Forscher sollten sich bei ihrer Entscheidungsfindung auf vorhandene Evidenz stützen und explizit darauf eingehen, warum ein Faktor die Validität gefährdet und wie sie im Kontext ihrer Studie kontrolliert wurde. Aus diesem Grund benötigen wir strukturierte Richtlinien für die Meldung von Risikofaktoren für die Validität und öffentliche Wissensdatenbanken, die Faktoren, Beweise und Mitigationsmaßnahmen für Experimente zum Programmverständnis enthalten.

BACKGROUND: Designing empirical software engineering methodologies presupposes the existence of evidence to base actions on empirical fact. Understanding what factors may influence experiment results, how to select appropriate samples and study subjects, and how to correctly apply statistical methods is a prerequisite for developing a methodology based on established research. This is especially true in a field such as program comprehension, where hundreds of different contextual factors can alter the validity of the obtained results. Here, researchers often have intuitions about what might threaten the validity of their studies but do not have the evidence to support their claims. OBJECTIVE: This study examines the threats to validity in program comprehension experiments to collect evidence of their existence, to understand the context and nature in which they occur, and to ultimately assist researchers in designing controlled experiments with high validity. METHODS: First, we conduct a systematic review surveying existing program comprehension experiments and summarizing what threats to validity they report. We then follow up on the three most commonly cited threats, performing small-scale systematic reviews and evaluating the collected evidence using an evidence profile to investigate their influence as a threat. RESULTS: We found that only 31 out of 409 (8 %) individual threat mentions were reported with supporting evidence. Furthermore, for the three most common threats, programming experience, program length and comprehension measures, we found that contextual factors such as how measurements are made, the individual characteristics of the population sample, and what concrete tasks are employed all change the way a threat impacts the results of a study. CONCLUSION: Threats to validity are highly context-dependent and as such must be controlled in different ways. Researchers should use existing evidence to inform their decision-making and explicitly address both why a threat poses a danger and how they controlled it in the context of their study. To this end, we need structured guidelines for reporting threats to validity and public knowledge bases that contain threats, evidence, and mitigation techniques for program comprehension experiments.

URI

http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-ds-122283
http://elib.uni-stuttgart.de/handle/11682/12228
http://dx.doi.org/10.18419/opus-12211

Collections

05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Full item page

Validating the threats to validity in program comprehension experiments

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By