05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Permanent URI for this collectionhttps://elib.uni-stuttgart.de/handle/11682/6

Browse

Search Results

Now showing 1 - 3 of 3
  • Thumbnail Image
    ItemOpen Access
    AssistML : an approach to manage, recommend and reuse ML solutions
    (2023) Villanueva Zacarias, Alejandro Gabriel; Reimann, Peter; Weber, Christian; Mitschang, Bernhard
    The adoption of machine learning (ML) in organizations is characterized by the use of multiple ML software components. When building ML systems out of these software components, citizen data scientists face practical requirements which go beyond the known challenges of ML, e. g.,  data engineering or parameter optimization. They are expected to quickly identify ML system options that strike a suitable trade-off across multiple performance criteria. These options also need to be understandable for non-technical users. Addressing these practical requirements represents a problem for citizen data scientists with limited ML experience. This calls for a concept to help them identify suitable ML software combinations. Related work, e. g.,  AutoML systems, are not responsive enough or cannot balance different performance criteria. This paper explains how AssistML, a novel concept to recommend ML solutions, i. e.,  software systems with ML models, can be used as an alternative for predictive use cases. Our concept collects and preprocesses metadata of existing ML solutions to quickly identify the ML solutions that can be reused in a new use case. We implement AssistML  and evaluate it with two exemplary use cases. Results show that AssistML can recommend ML solutions in line with users’ performance preferences in seconds. Compared to AutoML, AssistML offers citizen data scientists simpler, intuitively explained ML solutions in considerably less time. Moreover, these solutions perform similarly or even better than AutoML models.
  • Thumbnail Image
    ItemOpen Access
    Datenanalysen für industrielle Anwendungsfälle : Datencharakteristika und Nutzung von Domänenwissen
    (2025) Reimann, Peter; Mitschang, Bernhard (Prof. Dr.-Ing. habil.)
    Der inhaltliche Schwerpunkt der vorliegenden Arbeit liegt im Bereich des Datenmanagements sowie der Datenanalyse für industrielle Anwendungsfälle aus dem produzierenden Gewerbe. Die in solchen industriellen Anwendungsfällen verfügbaren Daten weisen komplexe Charakteristika auf, die gängige Verfahren zum Datenmanagement und zur Datenanalyse vor Herausforderungen stellen. Beispiele für solche Datencharakteristika sind, dass häufig nur sehr wenige Daten zur Verfügung stehen oder dass die hohe Produktvielfalt in Unternehmen zu einer höheren Anzahl und Komplexität der in den Daten auftretenden Muster führen kann. In dieser Arbeit werden die häufigsten domänenspezifischen und komplexen Datencharakteristika vorgestellt und kategorisiert. Zudem wird aufgezeigt, dass diese Datencharakteristika, wenn sie nicht adäquat adressiert werden, zu mäßigen Analyseergebnissen führen, z.B. zu einer geringen Vorhersagegenauigkeit in einer Klassifikation. Als weiterer Schwerpunkt wird in dieser Arbeit der Stand der Wissenschaft hinsichtlich grundlegender Ansätze zur Nutzung von formal repräsentiertem Domänenwissen in die drei Schritte Datenakquise, Datenvorbereitung und Datenanalyse von Datenanalyseprozessen untersucht. Es wird diskutiert, inwieweit diese Ansätze die komplexen Datencharakteristika industrieller Anwendungsfälle adressieren können, um somit die Qualität von Analyseergebnissen zu erhöhen. Betrachtete Wissensrepräsentationsformen sind Fallbasen, Regelbasen, Glossare, semantische Netze wie Ontologien oder Wissensgraphen, probabilistische Graphen sowie mathematische Simulationsmodelle. Die untersuchten Ansätze schließen u.a. Ansätze zur Nutzung einer Regelbasis, semantischer Netze oder Simulationsmodelle zum Feature-Engineering, zur Festlegung der Labels in Daten oder für weitere Schritte der Datenakquise, Datenvorbereitung oder der Datenanalyse ein. Die Diskussionen werden mit Evaluationsergebnissen auf Basis realer industrieller Anwendungsfälle und Daten untermauert.
  • Thumbnail Image
    ItemOpen Access
    Exploiting domain knowledge to address class imbalance and a heterogeneous feature space in multi-class classification
    (2023) Hirsch, Vitali; Reimann, Peter; Treder-Tschechlov, Dennis; Schwarz, Holger; Mitschang, Bernhard
    Real-world data of multi-class classification tasks often show complex data characteristics that lead to a reduced classification performance. Major analytical challenges are a high degree of multi-class imbalance within data and a heterogeneous feature space, which increases the number and complexity of class patterns. Existing solutions to classification or data pre-processing only address one of these two challenges in isolation. We propose a novel classification approach that explicitly addresses both challenges of multi-class imbalance and heterogeneous feature space together. As main contribution, this approach exploits domain knowledge in terms of a taxonomy to systematically prepare the training data. Based on an experimental evaluation on both real-world data and several synthetically generated data sets, we show that our approach outperforms any other classification technique in terms of accuracy. Furthermore, it entails considerable practical benefits in real-world use cases, e.g., it reduces rework required in the area of product quality control.