Beim Usability Testing können zwei große Kategorien von Tests unterschieden werden – nämlich summative Usability Tests (summiert Ergebnisse) und formative Usability Tests (“formen” das Design). Welche Testart man benötigt, hängt davon ab, was man herausfinden möchte. Schauen wir uns mal die beiden großen Usability Test Kategorien an.
Inhaltsverzeichnis:
- Summative Tests: Ist unser Produkt effizient?
- Typische Ergebnisse von summativen Tests basieren auf Zahlen
- Voraussetzungen summativer Tests
- Formative Tests: Wie erleben Nutzer*innen das Produkt / Design?
- Zusätzliche Infomationen gewinnen mit der Methode des Lautes Denkens /Thinking aloud
- Unmoderierte formative Tests
Summative Tests: Ist unser Produkt effizient?
Bei summativen Tests liegt der Fokus meist auf statistischen Kennzahlen. Hier geht es grob gesagt um Effizienz – also darum herauszufinden bzw zu messen – ob die gestaltete Lösung effizient ist.
Typische Fragen, die ein solcher Test beantwortet, sind z.B. ob das Design einem bestimmten Maßstab oder Kriterium entspricht. Dies können einerseits Fragen sein, welche die benötigte Zeit zur Erledigung einer Aufgabe betreffen wie z.B.
- Wie lange brauchen Proband*innen für Aufgabe X?
- Sind Proband*innen in der Lage, Aufgabe x in (z.B.) unter einer Minute zu erledigen?
Dies ist besonders relevant im industriellen Kontext, in der Medizin und immer wenn Geräte (Autos, Flugzeuge) gesteuert werden müssen – also überall da, wo Reaktionszeiten eine Rolle spielen. Summative Tests werden aber auch im Benchmarking eingesetzt – also um Vergleiche anzustellen. Typische Fragen wären hier z.B:
- Performt unser Produkt besser als das Produkt der Konkurrenz?
- Performt Design A besser als Design B?
- Klicken mehr Menschen bei Design A auf den Button als bei Design B?
Ein typischer Vertreter dieses Bereiches sind z. B. A/ B Tests.
Typische Ergebnisse von summativen Tests basieren auf Zahlen
- 40% unserer Anwender konnten die Aufgabe x in weniger als 30 Sekunden erledigen.
- Design A hat eine 40% höhere Fehlerquote als Design B.
- In Design A klicken 20% mehr Personen auf den Button als in Design B.
Die Ergebnisse betreffen also ”wie viel”, oder “wie lang” – beantworten aber meistens nicht das “warum” hinter einem spezifischen Verhalten. Es wird als „summativer“ Test bezeichnet, da es das Ziel hat, die Ergebnisse zusammenzufassen / zu “summieren”.
Voraussetzungen summativer Tests
Für summative Tests benötigt man in der Regel ein fertiges Produkt oder mindestens einen voll funktionalen Prototypen, da sie „richtig“ funktionieren müssen, um eine valide Aussage über die Effizienz treffen zu können.
Summative Tests erfordern zudem mindestens um die 20-30 (+/-) Teilnehmer*innen, abhängig von den verwendeten statistischen Methoden. Wir brauchen also jemanden, der sich mit Statistik und den Voraussetzungen für die jeweiligen statistischen Methoden auskennt.
Formative Tests: Wie erleben Nutzer*innen das Produkt / Design?
Formative Tests sind häufiger innerhalb von UX Designprozessen anzutreffen, da sie als Teil eines iterativen Designprozesses eingesetzt werden können. Das Ziel von formativen Tests besteht darin, dass wir etwas über das Erleben (Experience) und das Verhalten der Teilnehmer*innen herausfinden – z.B. sollten uns Teilnehmende direkt mitteilen, wenn sie etwas verwirrend oder komisch finden. Diese Tests beantworten – anders als summative Tests – also oftmals das “warum” hinter einem spezifischen Verhalten.
Formative Tests beantworten Fragen wie:
- Wie erleben die Menschen unser Design?
- Wo bleiben sie hängen, und vor allem: warum bleiben sie da hängen?
- Was sind die größten Probleme/Herausforderungen mit unserem Design, die wir als nächstes beheben sollten?
Formative Tests können bereits früh im Designprozess helfen Optimierungspotenzial zu identifizieren. Das heißt, formative Tests sollten idealerweise schon sehr früh im Designprozess z.B. mit Klick-Dummies gemacht werden, um erste Probleme zu erkennen und schnell zu beheben.
Ein typisches Ergebnis so eines Tests ist zumeist qualitativer statt quantitativer Natur z.B.: “Teilnehmende hatten Schwierigkeiten, die Aufgabe X zu erledigen, weil die Schaltflächen mit der Bezeichnung OK / Cancel verwirrend wirken.“
Formative Tests werden also durchgeführt, wenn das Ziel darin besteht, Probleme zu aufzudecken um weiteres UX Potenzial zu identifizieren. Sie helfen uns dabei, das Design für ein Produkt oder eine Dienstleistung zu „formen”. Daher der Name „formativ“. Im Gegensatz zu summativen Tests, bei denen wir aufgrund der Voraussetzungen für statistische Methoden mehr Proband*innen benötigen, lassen sich bei formativen Tests mit ca. 7-10 Benutzern bereits einige der Hauptprobleme aufspüren, die sich anschließend optimieren lassen.
Zusätzliche Infomationen gewinnen mit der Methode des Lautes Denkens /Thinking aloud
Oftmals liegen erfahrungsgemäß die Gründe für Abbrüche darin, dass sich Nutzer*innen nicht gut zurechtfinden oder sich schlecht informiert fühlen. Und dies kann man wunderbar mit formativen, moderierten Usability Tests und der Methode des „Lauten Denkens“ (Ericsson & Simon, 1984) herausfinden. Beim „Lauten Denken“ geben die Teilnehmer*innen einen ständigen Kommentar über ihre Denkprozesse ab, während sie mit dem System interagieren. Das hat zum Ziel, zusätzliche Informationen über die kognitiven Prozesse der Teilnehmenden während der Bedienung des zu testenden Systems zu gewinnen: Was geht ihnen während der Bedienung durch den Kopf? Was für Fragen haben sie gerade? In welche Wissenstrukturen ordnen sie die präsentierten Informationen ein? Was irritiert oder verwirrt sie?
Limitationen der Methode des Lauten Denkens
Selbstverständlich kann man nur das laut denken, was auch bewusst ist. Einige – eigentlich sogar sehr viele Prozesse laufen bei uns Menschen aber unterhalb der Bewusstseinsschwelle ab und können daher nicht verbalisiert werden (Wilson, 1994).
Dies ist wichtig zu verstehen und das ist der Grund wieso wir für diese Form der Usability Tests auch eher moderierte Tests empfehlen. Moderierte Usability Tests sind ein hervorragendes Instrument, um das WARUM hinter Abbrüchen und schlechten Conversion Rates herauszufinden.
Auf subtile Verhaltenscues reagieren mit moderierten formativen Tests
Bei einem moderierten Test findet nämlich – und das ist das wichtige daran – eine Echtzeit Interaktion zwischen den Usability Expert*innen, welche den Test moderieren – also die Teilnehmenden hindurchführen – und den Proband*innen statt. Das bedeutet, dass wir als Usability Experten entweder remote über eine Videokonferenz oder vor Ort mit den Proband*innen zusammensitzen und sie durch den Test führen. Das ist bei unmoderierten Usability Tests so nicht möglich, da bei unmoderierten Tests keine Echtzeit Interaktion mit den Proband*innen stattfindet. Dazu später mehr.
Durch die stetige Beobachtung während eines moderierten Usability Tests können wir unabhängig davon, was laut gedacht wird – also dem was verbalisiert werden kann – zusätzlich subtile Hinweisreize im Verhalten – sog. Verhaltenscues – wie z.B. Mimik oder Augenzusammenkneifen, Stirnrunzeln etc. identifizieren, notieren und später nach dem eigentlichen Test gezielt auf diese Stellen, die solche subtilen Cues beinhalten zurückkommen. Oftmals sind diese subtilen Verhaltenscues ein Indikator dafür, dass Nutzerinnen sich unsicher fühlen, es aber nicht unbedingt verbalisieren (können), da es Ihnen – wie oben erläutert – nicht zwingend bewusst ist. Das Ziel ist es also, dann später nach dem eigentlichen Test zusätzlich zu den offensichtlichen problematischen Punkten genau an diese Stellen zurückzukehren, bei denen solche subtilen Verhaltenscues beobachtbar waren und hier tiefer nachzuforschen, ob da was nicht verstanden wurde, Unsicherheit voherrschte und was denn da eventuell los war. Oftmals bekommt man dann weitere wertvolle Informationen, wenn man nochmals zu den entsprechenden Stellen zurückkehrt und die Proband*innen Dinge z.B wiederholen lässt und dabei gezielte Nachfragen stellt.
Unmoderierte formative Tests
Dieses gezielte Nachfragen ist bei unmoderierten Usability Tests so leider nicht möglich, denn unmoderierte Usability Test Sessions werden vom Teilnehmer allein durchgeführt, d.h. die Proband*innen führen den Test meistens remote von zuhause mithilfe von speziellen Online Tools aus. Diese Sessions werden in Bild und Ton aufgezeichnet, so dass wir als Usability Experten sie nachträglich sichten und auswerten können. Hier findet also keine Echtzeit Interaktion mit den Proband*innen statt. Trotzdem ist es möglich, Fragen in die Studie zu bauen, welche entweder nach jedem Task (z.B „wie schwer fandest du das?“) oder am Ende der Sitzung angezeigt werden. Diese Fragen sind jedoch meist standardisiert – also für alle Proband*innen gleich. Es gibt in unmoderierten Sessions keine Möglichkeit, detaillierte Fragen zu stellen, die sich speziell auf das Verhalten der jeweiligen Teilnehmenden beziehen, bzw. auf die Proband*innen im Einzelnen einzugehen.
Weitere Nachteile können zudem sein, dass in unmoderierten Sessions weniger laut gedacht wird – einfach weil niemand da ist der die Proband*innen daran erinnert. Wir haben in unmoderierten Sessions schon die Beobachtungen gemacht, dass die Teilnehmenden mit der Zeit immer schweigsamer wurden. Das ist schade, denn so weiß man nie, was Proband*innen gerade durch den Kopf geht während sie die Aufgabe bearbeiten.
Zudem kann es sein, dass Proband*innen abbrechen, Aufgaben überspringen oder generell eher unmotiviert sind, die Aufgaben zu erledigen. Oft erfahren wir selten, woran z.B ein Abbruch lag. Funktionierte die Technik nicht? Hatten sie keine Lust mehr? Wurden sie unterbrochen oder war die Aufgabe zu schwer? Somit könnten einige Sitzungen nicht auswertbar sein. Gerade beim moderierten Test entsteht durch den sozialen Druck der direkten Beobachtung doch etwas mehr Motivation, die Aufgaben auch durchzuführen bzw. sich darauf einzulassen.
Das Fehlen der detaillierten Nachfragen zu spezifischen Problemen, welche die jeweiligen Probanden hatten ist ein großer Nachteil der unmoderierten Tests – gerade bei Tests, die in einer frühen Designphase durchgeführt werden sollen. Unmoderierte Tests werden gerne wegen ihrer angeblichen Zeitersparnis herangezogen. Selbstverständlich spart man die Zeit, in der die Moderatoren mit den Teilnehmenden 1:1 interagieren – jedoch kommt dies unserer Meinung nach oftmals mit einem nicht unerheblichen Erkenntnisverlust einher, den wir oben dargestellt haben. Zudem erfordert auch ein unmoderierter Usability Test genau die gleiche – wenn nicht sogar noch mehr– Planung wie ein moderierter Test. Wenn trotz alledem eine unmoderierte Test Session durchgeführt werden soll, empfehlen wir dies ausschließlich für Systeme, die funktional sind, wie z. B. Live-Webseiten, da nicht funktionales in einem Klick Dummy z.B zu viele Fragen aufwerfen könnte. Im Zweifel empfehlen wir immer eine moderierte Session anstelle einer unmoderierten Session, da moderierte Sessions wie gesagt in der Regel mehr Erkenntnisgewinn bringen.
Wir sehen also, welche Art eines Usability Tests durchgeführt werden soll – summativ oder formativ und moderiert oder unmoderiert hängt daran, was und wie genau man etwas herausfinden möchte. Summative Tests können bei einem funktionalen Prototypen oder einem fertigen Produkt gut helfen, Informationen über die Effizienz eines Produktes zu liefern und formative Tests helfen entweder schon sehr früh im Designprozess oder auch bei fertigen Produkten problematische Stellen und somit weiteres UX Potential zu identifizieren. Bei den formativen Tests bieten moderierte Tests den großen Vorteil spezifischer Nachfragen und erhöhen somit deutlich die Chancen detaillierte Einblicke in das Nutzer*innenerlebnis und somit wertvolle Erkenntnisse zur Verbesserung und UX-Optimierung des Systems zu bekommen.
Literatur
- Ericsson, K. A., & Simon, H. A. (1984). Protocol analysis: Verbal reports as data (p. 426). The MIT Press.
- Wilson, T. D. (1994). The Proper Protocol: Validity and Completeness of Verbal Reports. Psychological Science, 5(5), 249–252. https://doi.org/10.1111/j.1467-9280.1994.tb00621.x
Illustration