Zwei Studien von QESTIT, entwickelt im T.A.R.G.E.T.-Projekt gemeinsam mit dem Blekinge Institute of Technology und Synteda, wurden auf der renommierten ICST-Konferenz 2025 in Neapel vorgestellt – einem der wichtigsten Foren für Softwaretest, Verifikation und Validierung. Die Erkenntnisse aus der Forschung fließen jetzt direkt in die Praxis ein: Unsere Qualitätssicherungsexperten bei QESTIT prüfen die Lösungen in realen Projektszenarien.
Die ICST 2025 fand in Neapel statt und steht seit Jahren für international führende Forschung und innovative Ansätze im Bereich Softwaretest.
1. STUDIE
LLMs im Vergleich – Multi-Agenten-System für GUI-Testgenerierung im Praxistest
Überblick:
Kann der gezielte Einsatz unterschiedlicher KI-Modelle die Qualität von Testautomatisierung verbessern? Diese Frage stand im Mittelpunkt einer Studie im Rahmen von T.A.R.G.E.T. Untersucht wurde, ob ein Multi-Agenten-System mit heterogenen LLMs (Large Language Models) besseren Output liefert als ein System mit nur einem Modell.
Pathfinder – mit vier spezialisierten Testagenten:
Der entwickelte Prototyp "PathFinder" besteht aus vier autonomen Agenten mit zwei Kernaufgaben:
Zum Einsatz kamen die LLMs Mistral, Gemm2 und LLama3. Getestet wurde auf vier verschiedenen E-Commerce-Seiten. Das Ziel: Evaluieren, ob die Modellvielfalt zu einer höheren Testqualität führt.
Ergebnis: Ein Modell pro Website liefert die besten Resultate
Die Ergebnisse zeigten, dass sich die Hypothese beim Testen einer einzelnen Website nicht bestätigte: Wenn alle Agenten dasselbe LLM verwendeten, waren die Resultate besser als bei einer gemischten Nutzung. Ein möglicher Grund: Die Modelle „sprechen unterschiedliche Sprachen“ und setzen verschiedene Schwerpunkte in der Analyse der Benutzeroberfläche.
Zum Beispiel fokussierte LLama auf die Struktur von Webkomponenten, während Gemm2 Nutzerinteraktionen wie Klicks in den Vordergrund stellte. Diese Inkonsistenzen behinderten die Zusammenarbeit der Agenten.
Aber: Ein Modell-Mix lohnt sich bei vielfältigen Testumgebungen
Wenn jedoch mehrere Websites oder komplexe Systemlandschaften getestet werden sollen, kann der Einsatz verschiedener LLMs klare Vorteile bringen, da unterschiedliche LLMs sich unter variierenden Bedingungen oder Nutzungsszenarien besser ergänzen.
2. STUDIE
Intelligente Auswertung automatisierter GUI-Tests mit LLMs
Funktionsweise:
Der Prototyp: Scout mit KI-Unterstützung
Das Forschungsteam integrierte die Lösung in das akademische Test-Tool Scout, das es ermöglicht, Tests durch Interaktionen mit einer Webanwendung aufzuzeichnen und damit intuitiver zu gestalten.
Einsatz von generativer KI
Das System analysierte die getestete Webanwendung, sammelte relevante Kontextdaten (z. B. Funktionsbeschreibungen, Abläufe, mögliche Nutzungsszenarien) und ergänzte damit die Testberichte. Gleichzeitig verbesserte diese Informationen das interne Testmodell von Scout, was das Systemverständnis stärkte.
Ergebnis: Klarere Reports, besseres Verständnis
Das Experiment zeigte, dass die LLM-gestützten Berichte von den Teilnehmenden als hilfreicher und verständlicher empfunden wurden.
Mehrwert auch über Scout hinaus:
Auch wenn Scout der Ausgangspunkt war – das Prinzip lässt sich übertragen. Intelligente, kontextreiche Testberichte sind ein Gewinn für jede QS-Umgebung.
Zur offiziellen Projektbeschreibung von T.A.R.G.E.T.