Lexikon

Usability Testing: Affective Interfaces

Intuitive Bedienbarkeit gehört heute bei Softwareinterfaces zur Mindestanforderung, und durch die momentan rasante Weiterentwicklung von Smartphones und Tablet PCs wird in Zukunft spontane – ad hoc – Interaktion enorm an Bedeutung gewinnen. Usability Testing ist ein Bereich im Fachgebiet Mensch-Maschine-Interaktion, der genau jene Interaktionen untersucht und Methoden bereitstellt, die Bedienbarkeit eines Softwareinterfaces oder einer Webseite zu messen und zu quantifizieren. Gerade in letzter Zeit haben sich in diesem Zusammenhang einige spannende Entwicklungen ergeben, die es zulassen, nicht nur explizite Steuerungskommandos (wie zum Beispiel Mausklicks und Tastaturanschläge) bei der Nutzung eines Interfaces messen, sondern auch auf weitere Aspekte wie Aufmerksamkeit des Benutzers, Stresslevel oder emotionale Reaktionen einzugehen. Damit können Computerinterfaces in Zukunft nicht nur im Hinblick auf Performanz optimiert werden, sondern auch in Bezug auf psychologische und emotionale Aspekte.

Wir beginnen unsere kurze Betrachtung mit den klassischen Methoden des Usability Testing, da diese nach wie vor zum Standardrepertoire heutiger Evaluierungsansätze zählen.

Usability Studien

Qualitativ

Das generelle Ziel von Usability Studien ist es, Anforderungen an - oder Probleme bei - der Handhabung eines Interfaces abzuleiten bzw. aufzudecken (siehe z.B. [5], [8]). Hierzu werden häufig Ansätze verwendet, um qualitative Aussagen über die Güte des Interfaces treffen zu können, beispielsweise

  •  Fragebögen: Während oder nach der Nutzung des Interfaces füllen die Benutzer Fragebögen aus.
  •  Interviewtechniken: Die Nutzer werden im Anschluss an die Benutzung interviewt und spezifisch nach ihren Erfahrungen gefragt.
  •  Feldbeobachtung: Hier wird die mehr oder weniger authentische Arbeit mit dem Interface direkt am Arbeitsplatz beobachtet.
  •  Think-aloud-Methode: Während der Bedienung des Interfaces teilt der Nutzer dem Experimentator mit, was er gerade denkt, vorhat und versucht durchzuführen.
  •  Videoüberwachung: Die Interaktion mit dem Interface wird meist im Usability Labor aus ein oder mehreren Perspektiven kontinuierlich mit Kameras aufgezeichnet.

Diese Methoden liefern größtenteils unstrukturierte Daten, die im Nachgang der Experimente oft langwierig aufbereitet werden müssen, um qualitative Aussagen über die Güte eines Interfaces treffen zu können, oder auch um daraus Anforderungen an die Gestaltung eines Interfaces abzuleiten.

Quantitativ

Um quantitative Daten über die Güte eines Interfaces zu erhalten, werden meist spezielle Interaktionsarten erfasst und darauf basierend Performanzmaße berechnet. Aufgezeichnet werden beispielsweise zeitliche Abfolgen von Mausbewegungen, Klicks und Klickpfaden, Scrolling, Tastaturanschlägen und applikationsspezifischen Ereignissen wie z.B. Seitenwechseln in Browsern. Die Analyse der so erhaltenen Daten erlaubt es, typische Performanzmaße zu berechnen wie

  •   Zeit zur Erfüllung einer gegebenen Aufgabe,
  •   Anzahl an Aufgaben/Operationen, die in einem gegebenen Zeitrahmen durchgeführt werden können, 
  •   Verhältnis zwischen erfolgreichen und nicht erfolgreichen Operationen,
  •  Zeit, eine fehlerhafte Operation zu revidieren,
  •  Anzahl der Features in dem Interface, die benutzt / nicht benutzt wurden.

Anhand dieser Performanzmaße können konkurrierende Interfaces direkt miteinander verglichen werden. Das Ziel hierbei ist, ein Interface durch mehrere Test- und Adaptationszyklen so zu optimieren, dass sich damit schließlich entsprechende Aufgabenstellungen möglichst effizient lösen lassen.

Moderne Mensch-Maschine Interfaces als Maßinstrumente

Insgesamt haben sich die qualitativen und quantitativen Methoden zur Bewertung der Güte von Softwareinterfaces bewährt; sie gehen jedoch mit dem Nachteil einher, ein relativ einseitiges Bild zu erzeugen. Durch ihren Einsatz können Softwareinterfaces zwar im Hinblick auf Effizienz, Zeit und Geradlinigkeit der Interaktion optimiert werden, dies sind jedoch häufig nicht die einzigen Kriterien, die für einen Anwender eines Softwareinterfaces von Bedeutung sind.

Eine immer wichtigere Rolle spielen psychologische Faktoren wie Aufmerksamkeit und emotionale Reaktionen. Diese schlagen sich zwar auch in effizienzbasierten Performanzmaßen indirekt nieder - beispielsweise dauert es meist länger, ein Softwareinterface zu bedienen, über das man sich ständig ärgert - allerdings können die zugrunde liegenden emotionalen oder aufmerksamkeitsabhängigen Zustände nicht direkt identifiziert werden. In diesem Zusammenhang wurden in jüngster Zeit Messmethoden weiterentwickelt, anhand derer psychologische Faktoren expliziter erfassbar und quantifizierbar sind. Darunter fallen insbesondere Aufmerksamkeit, Ablenkungsgrad, Konzentration und emotionaler Status – wichtige Erweiterungen für den bisher fast einzigen Optimierungsfaktor Performanz. Zu ihrer Erfassung eignen sich besonders die im Folgenden beschriebenen Methoden.

Eyetracking

Eyetracker haben sich in den letzten Jahren enorm weiterentwickelt, sind einfach in der Bedienung geworden und weisen eine hohe Robustheit im Hinblick auf unterschiedliche Augentypen, Brillen und Kontaktlinsen auf. Abbildung 1 zeigt einen modernen Remote–Eyetracker: ein Monitor, der unmerklich mit mehreren Infrarotlichtquellen und zwei infrarotsensitiven Kameras ausgestattet ist. Die für das menschliche Auge unsichtbaren Infrarotlichter erzeugen spezifische Reflektionsmuster auf der Hornhaut des Auges, die die Kamera wahrnehmen kann. Durch weitere Bildverarbeitungsschritte kann schließlich der genaue Blickpunkt der Augen und somit das vornehmliche Zentrum der visuellen Aufmerksamkeit auf dem zu testenden Interface bestimmt werden.

Es existieren mehrere Alternativen, die von einem Eyetracker produzierten Daten auszuwerten (siehe [4]). Die wohl einfachste Möglichkeit ist, Blickdaten samt Bildschirmvideo (Screencast) während der Interaktion zu speichern, um diese später manuell auszuwerten.

Dies gibt zwar erste Hinweise auf schlecht platzierte Bedienelemente, allerdings ist eine komplette Auswertung auf Basis dieser Methode insbesondere über mehrere Nutzer hinweg weitestgehend unsystematisch und aufwendig. Strukturierter ist die Definition von sogenannten Areas of Interest (AOIs, z.B. für eine typische Webseite: Navigationsleiste, Titelleiste, Inhaltsteil, etc.). Durch diese kann quantitativ die Menge an visueller Aufmerksamkeit auf verschiedenen Bereichen gemessen, visualisiert und systematisch ausgewertet werden.

Um Aussagen über die Dynamik des Blickverhaltens treffen zu können, werden häufig Scanpath Analysen eingesetzt, welche den zeitlichen Ablauf der Blickbewegungen verdeutlichen. In Verbindung mit AOIs können weitere Maße wie „Anzahl der Blicke pro AOI“, „Zeit bis Ersteintritt in AOI“, etc. berechnet werden, die es ermöglichen festzustellen, welche Elemente eines Interfaces zu welchen Zeitpunkten besonders die Aufmerksamkeit der Nutzer anziehen.

Insgesamt kann mit Hilfe von Eyetracking sehr genau bestimmt werden, wie die visuelle Aufmerksamkeit während der Bedienung eines Softwareinterfaces geleitet wird. Schließlich kann man Hinweise auf falsch platzierte Elemente oder auch auf generelle Vorgehensweisen der Benutzer bei der Bedienung eines Interfaces erhalten.

EEG

Eine aktuelle Entwicklung im Bereich der Mensch-Maschine-Schnittstellen sind leichtgewichtige Elektroenzephalographen (EEGs), die relativ einfach in der Benutzung und zudem kabellos sind – bisherige EEG Messungen konnten nur mit sehr aufwendigen Gerätschaften durchgeführt werden, beispielsweise mit gelbasierten, kabelgebundenen Elektrodenkappen.

In Abbildung 2 ist ein Bluetooth-basiertes EEG Headset mit 14 Sensoren dargestellt. Die Sensoren stellen eine Verbindung zur Kopfhaut mit salzlösungsgetränkten Filzkontakten her und sind fest am Gerät fixiert – dies erleichtert deren Platzierung und das Aufsetzen des EEGs.

Elektrische Spannungsschwankungen an verschiedenen Stellen der Kopfoberfläche werden von den Sensoren registriert und per Bluetooth zur Analyse an einen Computer gesendet. Die Spannungsschwankungen haben hauptsächlich zwei Ursachen und tragen informative Signale zu

  1. Neuronenaktivität in bestimmten Gehirnarealen und
  2. Muskelbewegungen vor allem der Gesichtsmuskulatur.

Durch Fouriertransformation, Filterung und weitere Analyseschritte können Amplituden und Muster spezifischer Frequenzbereiche gemessen werden, welche wiederum Hinweise auf kognitive Zustände enthalten (siehe auch [2]). Alphawellen oszillieren beispielsweise mit einer Frequenz von 8-14 Hz, sind während Entspannungsperioden besonders aktiv und werden durch mentale Anstrengungen verändert. Betawellen (14-30 Hz) treten besonders in Perioden mentaler Konzentration auf, während Delta- und Thetawellen meist mit Schlaf und Meditation assoziiert sind. Somit können EEG-Geräte zusätzlich zur aktiven Steuerung (Brain-Computer Interfaces, siehe z.B. [6]) auch zur Messung von kognitiven Zuständen eingesetzt werden.

Ebenfalls aufschlussreich ist die Messung von Bewegungen der Gesichtsmuskulatur. Durch Muskelaktivität werden ebenfalls Spannungsschwankungen erzeugt, die anhand der Elektroden des EEGs an der Kopfhaut registriert werden. Durch Auswertung dieser Daten kann man Rückschlüsse auf Gesichtsausdrücke wie z.B. Lachen, Grinsen, Stirnrunzeln, etc. ziehen und somit wertvolle Hinweise auf emotionale Zustände erhalten.

Webcam

Kameras gehören heute zum Standardrepertoire im Usability Testing. Insbesondere Webcams erlauben durch ihren günstigen Preis und ihre große Verbreitung Usability-Studien um wichtigen Daten zu bereichern. Da sie beispielsweise standardmäßig schon in vielen Laptops integriert sind und nicht weiter eingestellt werden müssen, würden sie sich sehr gut zum längerfristigen Einsatz in Feldstudien eignen.

Ein Beispiel für Daten, die mit einer Webcam erhoben werden können, ist die An- und Abwesenheit des Nutzers am Arbeitsplatz. Durch Gesichtserkennungsmethoden kann festgestellt werden, wann der Nutzer am Rechner sitzt und seine Aufmerksamkeit in Richtung des Bildschirms richtet. Information über An- und Abwesenheit ist besonders in Studien wichtig, die Arbeitsphasen enthalten, während derer die Nutzer keine Aktionen ausführen sondern nur passiv einen Vorgang auf einem Monitor beobachten. Hier ist es für die Auswertung häufig wichtig, zwischen Anwesenheits- und Abwesenheitsphasen zu unterscheiden.

Auch lassen sich mittels der aufgezeichneten Videos einige der bereits vorgestellten Techniken approximieren. Einfache Arten von Eyetracking beispielsweise sind mit Webcams zu einem gewissen Grad möglich [1]. Aufgrund der niedrigen Bildauflösungen und des fehlenden Infrarotlichts ist die Tracking-Genauigkeit zwar recht grob, kann aber über relative Blickbewegungen und über fokussierte Bildschirmquadranten Aufschluss geben.

Weiterhin lassen sich Gesichtsausdrücke und Emotionen erkennen, die beispielsweise auf Mundwinkeln, Augen- und Augenbrauenaktivität beruhen. Die Erkennung der Gesichtsmimik ist jedoch schwieriger quantifizierbar als mit EEG Geräten.

Weitere Sensoren

Um Hinweise speziell auf emotionale Erregungen oder den Stresslevel zu erhalten, haben sich Armbänder zur Hautwiderstands- und Hauttemperatur- und Pulsmessung bewährt. Die Ausprägungen dieser Signale können zwar stark von individuellen Eigenschaften der Nutzer abhängig sein, sie geben jedoch Hinweise auf Änderungen der emotionalen Gefühlslage wie z.B. Angst, Ärger oder Erstaunen. Indes ist zu beachten, dass diese Änderungen in der emotionalen Gefühlslage zwar erkannt, aber nicht voneinander unterschieden werden können.

Auch hier gibt es Armbänder, die sich über Bluetooth oder mit RFID Chips ansteuern lassen, nicht Kabelgebunden sind und damit einen relativ einfachen Einsatz in Studien zulassen.

Um körperliche Aktivität bei der Arbeit an einem Computer zu messen, können viele der normalerweise aktiv genutzten Geräte und Gegenstände mit weiteren bewegungs- und druckempfindlichen Sensoren ausgestattet werden. So gibt es etwa Computermäuse mit druckempfindlichen Buttons, anhand derer festgestellt werden kann, wie energisch gedrückt wird. Diese Daten können beispielsweise Hinweise auf emotionale Zustände wie Frustration geben (siehe [3]).

Weiterhin ist es möglich, Sitzkissen mit Drucksensoren auszustatten, um damit die Bewegung des Nutzers während des Sitzens zu messen. Solche Signale können Aufschluss über längerfristige Zustände wie z.B. Nervosität geben.

Interaktiver Einsatz von Affective Interfaces

Alle der vorgestellten Geräte und Methoden eignen sich sehr gut, um die Bedienbarkeit von Softwareinterfaces zu messen und auszuwerten, und zwar nicht nur im Hinblick auf Performanz und Effizienz sondern auch im Hinblick auf psychologische Auswirkungen.

Eine äußerst interessante Richtung für zukünftige Forschung ist zu untersuchen, inwieweit die gemessenen Signale über Aufmerksamkeit oder emotionale Zustände interaktiv und zur Laufzeit von Softwareinterfaces berücksichtigt werden können – eine Erweiterung eines Aspekts des sogenannten „affective computing“ [7]: Momentan reagieren Softwareinterfaces bezüglich des affektiven Benutzerzustandes immer gleich, wobei die Reaktionen fast ausschließlich durch Tastaturanschläge, Mauseingaben oder Computer-interne Events geregelt sind.

Es erscheint jedoch vielversprechend, gerade Schnittstellen, die dynamische Adaptionen basierend auf Reaktionen wie Stress und emotionalen Zuständen erlauben, nähere Beachtung zu schenken. Dies ermöglicht Programmen und Arbeitsumgebungen, Benutzer bei Problemlösungen nicht nur auf funktionaler Ebene zu unterstützen, sondern befähigt sie auch, dies in einem weiteren Sinne situationsangepasst zu tun. Beispielsweise könnte ein System feststellen, dass der Benutzer gerade konzentriert beschäftigt ist, und selbständig die Anzeige von eingehenden E-Mail- oder Instant Messaging Nachrichten verzögern.

Darüber hinaus würde eine weite Verbreitung solcher Geräte dazu beitragen, Usabilitystudien von punktuellen Beobachtungen in Laborsituationen und dedizierten Feldtests hin zu einer stetigen Feedback-Loop auf repräsentativen Daten aufbauend zu verschieben. Vergleichbares geschieht auf reiner Softwareebene heute schon in sogenannten „Customer Experience Programs“. Sofern die dazugehörige Datenaufzeichnung und Auswertung in einer anonymen und vertrauenswürdigen Art stattfindet eröffnen sich hier höchst interessante und repräsentative Mechanismen zur Interfaceverbesserung.

Für zukünftige Forschung gilt es also, emotionale Zustände im weiteren Sinne zur Laufzeit nutzbar zu machen und darauf basierend Paradigmen zu entwickeln, auf diese Daten zu reagieren, und diese zur Schnittstellenverbesserung zu aggregieren.

Referenzen

[1] Agustin, J. S.; Skovsgaard, H.; Hansen, J. P. & Hansen, D. W.: Low-cost gaze interaction: ready to deliver the promises. CHI '09: Proc. of the 27th international conference extended abstracts on human factors in computing systems, ACM, 2009, pp. 4453-4458.

[2] Berger, T.; Chapin, J.; Gerhardt, G.; McFarland, D.; Principe, J.; Soussou, W.; Taylor, D. & Tresco, P.: Brain-Computer Interfaces. Springer, 2008.

[3] Cooper, D. G.; Arroyo, I.; Woolf, B. P.; Muldner, K.; Burleson, W. & Christopherson, R.: Sensors model student self concept in the classroom. UMAP '09: Proc. of the international conference on user modeling and adaptive presentation, Springer, 2009.

[4] Duchowski, A. T.: Eye tracking methodology: Theory and practice. Springer, 2003.

[5] Nielsen, J.: Usability engineering. Morgan Kaufmann, 1993.

[6] Nijholt, A.; Tan, D.; Pfurtscheller, G.; Brunner, C.; del R. Millán, J.; Allison, B.; Graimann, B.; Popescu, F.; Blankertz, B. & Müller, K.: Brain-computer interfacing for intelligent systems. IEEE Intelligent Systems, IEEE Educational Activities Department, 2008, vol. 23, pp. 72-79.

[7] Picard, R. W.: Affective Computing. MIT Press, 2000.

[8] Shneiderman, B.; Plaisant, C.; Cohen, M. & Jacobs, S.: Designing the user interface: strategies for effective human-computer interaction. Addison-Wesley, 2009.

Autoren und Copyright

Georg Buscher, Ralf Bidert
Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI), Kaiserslautern
E-Mail

© 2010 Informatik Spektrum, Springer-Verlag Berlin Heidelberg