Leveraging large language models for latent intention recognition and next action prediction

Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Autonomous agents that operate within graphical user interfaces (GUIs) have a significant potential to improve user experience. To achieve this, such agents must be customized and proactive. Understanding user intentions through their interactions and engagements with GUIs enables these agents to better fulfill user needs. This work introduces a novel LLM-based framework, Mistral-Intention, that accurately recognizes latent user intentions from their interactions. A key innovation is the integration of a sub-goal generation step, using prompt engineering to decompose user tasks into actionable steps, enhancing the model's interpretative capabilities and extendability. Furthermore, the incorporation of a keyword extraction-based loss significantly refines the model's focus on critical information of user actions such as typed values, ensuring comprehensive and relevant intention recognition. We evaluate Mistral-Intention using a range of metrics, including manual metrics and automatic methods based on GPT-4o, against a modified version of the state-of-the-art task automation framework, namely SYNAPSE. Results from extensive testing on the MIND2WEB and MoTIF datasets highlight Mistral-Intention's superior performance in intention recognition across various GUI environments. Furthermore, we implement an LLM-based computer agent capable of predicting the user's next action. We have addressed the challenges faced while developing such agents, such as the limited context window, and understanding the current GUI environment. Our LLM-based agent exhibits an improvement of 15.30% in the element accuracy and 13.20% in operation F1 over the previous state-of-the-art method in MindAct on MIND2WEB. Our work not only pushes the boundaries of computational HCI but also opens new pathways for developing more intuitive and effective user-center interaction solutions.


Autonome Agenten, die innerhalb grafischer Benutzeroberflächen (GUIs) arbeiten, haben ein erhebliches Potenzial, die Benutzererfahrung zu verbessern. Um dies zu erreichen, müssen solche Agenten angepasst und proaktiv sein. Das Verständnis der Benutzerabsichten durch ihre Interaktionen und Engagements mit GUIs ermöglicht es diesen Agenten, die Bedürfnisse der Benutzer besser zu erfüllen. Diese Arbeit führt einen neuartigen LLM-basierten Rahmen ein, Mistral-Intention, der latente Benutzerabsichten aus ihren Interaktionen genau erkennt. Eine Schlüsselinnovation ist die Integration eines Schrittes zur Erzeugung von Teilzielen, der durch Prompt-Engineering die Benutzeraufgaben in handelbare Schritte zerlegt und so die interpretativen Fähigkeiten und die Erweiterbarkeit des Modells verbessert. Darüber hinaus verfeinert die Einführung eines verlustbasierten Ansatzes zur Schlüsselwortextraktion den Fokus des Modells auf kritische Informationen von Benutzeraktionen wie eingegebene Werte und gewährleistet eine umfassende und relevante Erkennung der Absichten. Wir evaluieren Mistral-Intention anhand einer Reihe von Metriken, einschließlich manueller Metriken und automatischer Methoden basierend auf GPT-4o, gegenüber einer modifizierten Version des modernsten Frameworks zur Aufgabenautomatisierung, nämlich SYNAPSE. Ergebnisse aus umfangreichen Tests auf den Datensätzen MIND2WEB und MoTIF unterstreichen die überlegene Leistung von Mistral-Intention bei der Absichtserkennung in verschiedenen GUI-Umgebungen. Darüber hinaus implementieren wir einen LLM-basierten Computeragenten, der in der Lage ist, die nächste Aktion des Benutzers vorherzusagen. Wir haben die Herausforderungen angegangen, die bei der Entwicklung solcher Agenten entstehen, wie das begrenzte Kontextfenster und das Verständnis der aktuellen GUI-Umgebung. Unser LLM-basierter Agent zeigt eine Verbesserung von 15,30% in der Elementgenauigkeit und 13,20% in der Betriebs-F1 gegenüber der bisherigen modernsten Methode in MindAct auf MIND2WEB. Unsere Arbeit erweitert nicht nur die Grenzen der computergestützten Mensch-Computer-Interaktion, sondern eröffnet auch neue Wege für die Entwicklung intuitiverer und effektiverer Lösungen für die benutzerzentrierte Interaktion.

Description

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By