10 choses à savoir sur les tests utilisateurs distants non modérés
10 choses à savoir sur les tests utilisateurs distants non modérésLes 2 plus grandes barrières à la prise en charge des tests utilisateurs sont le coût et le temps.
Les modérateurs doivent amener les utilisateurs à se déplacer jusqu’à un lieu précis, leur faire passer le test (généralement chacun à leur tour), et ne peuvent faire participer qu’une poignée d’utilisateurs.
Les tests distants utilisent des technologies - telles que celles proposées par Testapic – qui permettent de mener des tests distants sans animateur - il s’agit de tests non modérés.
Voici 10 choses à savoir sur les tests utilisateurs distants.
1. Cette technique est de plus en plus répandue
Selon la dernière étude de l’association des professionnels des tests utilisateurs en 2011, environ 23 % des tests menés sont distants (contre 52 % effectués en laboratoire), ce qui constitue une augmentation de 28 % depuis 2009, année au cours de laquelle cette technique n’était utilisée que par 18 % des professionnels. En 2007, cette méthode n’était même pas recensée !
2. Le recrutement est bien plus facile
Jacob Nielsen qualifie cette étape de peu séduisante (« unglamourous »), et Steve Krug dit qu’elle ne le passionne pas vraiment dans "Rocket Surgery Made Easy." Trouver des participants qui répondent aux critères de l’étude est une tâche difficile mais nécessaire. Avec les tests utilisateurs distants, il est à la fois plus facile de procéder à un recrutement ciblé et de faire participer un plus grand nombre d’utilisateurs, grâce à une variété d’approches. L’enjeu est de s’adresser à un panel qualifié (critérisés, scorés, etc.), propose une approche ciblée et permet une représentative de la population active online.
3. Enquête + étude ergonomique
Au début d’un projet, plusieurs questions de business se posent : les clients comprennent-ils la proposition de valeur ? Que doit-on changer sur le formulaire de paiement ? Est-ce que le design de la nouvelle page d’accueil convient mieux ? Ces questions doivent être formalisées et mises sous forme d’hypothèses testables, qui seront vérifiées à l’aide d’un mix de tâches et de questions classiques d’enquêtes. Celles-ci sont formulées de manière à étudier à la fois des comportements et des actions. Les observables peuvent être de différentes natures : nombre de clics effectués sur une page, nombre d’utilisateurs ayant compris une notion, etc...
4. Facilité à faire des mesures
Lors d’études réalisées à l’aide de tests utilisateurs distants, il est souvent facile (voire automatique) de recueillir des mesures telles que le taux de complétion, le niveau de difficulté d’une tâche, le temps de réponse, la perception globale de l’ergonomie, le score du site, et le niveau de confiance ressenti lors de l’utilisation de chaque fonctionnalité. Testapic permet également de produire automatiquement des cartes de chaleur suite à la réalisation des tests.
5. Avec les vidéos, c’est presque comme en labo
Dans quasiment toutes les études non modérées, les tests utilisateurs sont effectués par des participants qui doivent réaliser des tâches et commenter leurs actions. Les testeurs sont choisis en fonction de critères bien précis, qui peuvent varier d’une étude à l’autre, grâce aux technologies permettant de sélectionner un panel cible avec précision.
6. La mise en place des tests en labo prend au moins 2 fois plus de temps qu’à distance
En comptant l’ensemble des étapes, (établissement de l’étude, conception des tâches et des questions et passation des tests) le temps mis pour faire les tests utilisateurs physiques est généralement 2 fois supérieur à celui des tests distants. Dans le cas de l’étude Comparative Usability Evaluation 9 par exemple, le temps moyen est de 37 heures pour les tests distants, contre 60 pour les tests physiques. Plus le nombre d’utilisateurs est important, plus la différence de temps devient significative.
7. Ils sont plus efficaces que les tests utilisateurs physiques
Il n’est pas évident de réussir à faire venir des personnes dans un lieu précis, cela nécessite du temps du temps et une bonne organisation. Le recrutement et la passation prennent plusieurs semaines, ce qui occupe généralement le temps complet d’un travailleur de l’entreprise (il est difficile de faire plusieurs choses à la fois dans un laboratoire). Bien que les temps moyens soient de 37 heures et de 60 heures, cette différence était plus significative pour les études réalisées avec de nombreux participants. Par exemple, dans l’étude Comparative Usability Evaluation 9, Les équipes G et L contenaient les mêmes tâches, et employaient les mêmes méthodes. L’équipe L a effectué 12 tests en laboratoire, contre 314 tests distants pour l’équipe G. Le temps moyen était de 3 heures par participant pour les tests en laboratoire, et de 3,5 minutes pour les tests distants. En un temps 2 fois plus court, 26 fois plus de tests utilisateurs distants ont pu être effectués que de tests physiques (Voir le tableau ci-dessous) !
Equipe | Nombre d’heures | Nombre d’utilisateurs | Heures par utilisateur |
G (laboratoire) | 40 | 12 | 3,33 |
L (Distants) | 21 | 314 | 0,06 |
8. Les données obtenues sont comparables pour les 2 types de tests
Dans l’ensemble, les données obtenues sont similaires, selon qu’il s’agisse de tests distants ou de tests physiques. Cependant, une différence de 30 % a été observée pour le temps de réponse. Cela amène à se poser la question : quel temps de réalisation est le bon ? Celui des tests en laboratoire, alors que les participants sont observés, ou pendant les tests utilisateurs distants, sachant que les utilisateurs peuvent être interrompus pas Facebook, twitter ou une pose toilettes ? En fait, dans les 2 cas, le temps de réalisation est probablement erroné par rapport à la situation réelle mais, ce qui est important est d’employer la même méthode pour mesurer le temps de réalisation d’une tâche pour les 2 types de tests. Les interactions physiques permettent d’engager un dialogue en face à face, ce que ne permettent pas de faire les tests utilisateurs distants.
Testapic a aussi mené une étude de l’état de l’art afin de comparer la performance des tests physiques et distants. Les résultats de plusieurs études scientifiques prouvent que la quantité, la fréquence et la sévérité des problèmes détectés sont comparables (nous tenons cette liste d’études à votre disposition ;-) ).
9. Vous devez avoir un moyen de vérifier la complétion d’une tâche
Dans une étude classique avec des tests utilisateurs physiques, l’animateur peut vérifier pour chaque tâche si elle a été correctement complétée ou non. Dans les études distantes, personne n’est là pour juger de la réussite des tâches, et un moyen de le faire automatiquement est donc nécessaire. Cela peut être fait grâce à une validation par URL ou par question :
- Validation par question : si une tâche indique aux utilisateurs de chercher un produit spécifique, vous pouvez demander aux utilisateurs de donner le prix, le numéro du modèle ou n’importe quelle information permettant de s’assurer de la réussite de l’action. Par exemple, si la consigne demande de trouver la valeur de reprise d’une Honda Accord 2010 avec certaines conditions, vous pouvez proposer des valeurs (une valeur juste, et des valeurs imaginées) et faire choisir la bonne réponse aux participants. Il faut toujours prévoir une réponse du type « Autre » pour prendre en compte les exceptions, toujours susceptibles de se produire
- Validation par URL : si vous demandez aux participants d’accéder à une page spécifique d’un site web, vous pouvez utiliser le logiciel de test pour vérifier que l’URL est bien la bonne pour chaque test.
- Validation à posteriori : il peut aussi s’agir d’une intervention manuelle lors du retraitement des tests utilisateurs afin de constater les vrais et faux échecs / réussites.
10. Précision statistique
De nombreuses personnes ont tendance à croire, et à tort, qu’il faut un grand nombre d’utilisateurs pour obtenir des données statistiques fiables. Cependant, avec peu d’utilisateurs, les intervalles de confiance obtenus sont effectivement larges, et un panel important permet de détecter de plus petites différences entre des designs. Cela est fondamental si vous désirez tester diverses versions pour votre page d’accueil par exemple, là ou un écart de 5 à 15 % concernant le nombre de personnes cliquant sur le call-to-action est très important par exemple.
Etant donné qu’il est plus facile de procéder au recrutement et de faire des tests avec un grand nombre de participants pour les tests utilisateurs distants, cette méthode vous permettra de détecter de plus petites différences et d’avoir des mesures plus précises. Par exemple, le tableau ci-dessous montre que la marge d’erreur obtenue pour un test avec 20 utilisateurs est de 18 % contre 6 % pour un test avec 200 utilisateurs. Pour comparer par exemple le taux de complétion entre 2 designs, la différence serait d’au moins 60 points de pourcentage avec 20 utilisateurs (10 dans chaque groupe). Pour un échantillon de 200 utilisateurs (100 dans chaque groupe), Une différence aussi petite que 17 points de pourcentage ne serait pas statistiquement significative.
Taille de l’échantillon | Marge d’erreur typique(intervalle de confiance 90%) | Plus petite différence à détecter (intervalle de confiance 90 %) |
20 | +/- 18 % | 60 points de pourcentage(càd 20% vs 80 %) |
200 | +/- 6 % | 17 points de pourcentage(càd 50% vs 67 %) |
Librement traduit de l’article : 10 Things To Know About Unmoderated Usability Testing