Un test A/A est une expérimentation où l’on sert exactement la même version d’une page ou d’un parcours à deux groupes aléatoires distincts (souvent appelés A1 et A2). Contrairement à un test A/B, le but n’est pas de mesurer un gain potentiel, mais de vérifier la fiabilité technique et statistique de la plateforme d’expérimentation avant de lancer des tests comparant de vraies variantes.
1. Pourquoi exécuter un test A/A ?
Objectif | Description |
---|---|
Contrôle de la randomisation | Confirmer que chaque visiteur a la même probabilité d’appartenir à n’importe quel groupe et détecter les Sample Ratio Mismatch (SRM). |
Mesure du bruit de fond | Quantifier la variance naturelle du KPI principal afin de calibrer la durée des futurs tests et le Minimum Detectable Effect (MDE). |
Validation du tracking | S’assurer que tous les événements clés (chargements de page, conversions, KPIs de sécurité) sont bien collectés, sans perte ni doublon. |
Stress test de l’infrastructure | Tester la montée en charge du moteur de routage et des pipelines analytics dans des conditions réelles. |
2. Mise en place étape par étape
-
Définir les KPI suivis : KPI principal, KPIs de sécurité et métriques techniques (taux d’erreurs JS, latence serveur, etc.).
-
Allouer le trafic : répartir idéalement 50 % en A1 et 50 % en A2 (ou 33/33/33 % si plusieurs buckets). La répartition doit être définie avant tout filtrage.
-
Fixer la durée ou la taille d’échantillon : suffisamment longue pour que le test statistique d’égalité ait une puissance ≥ 80 % (souvent quelques jours à une semaine).
-
Surveiller la SRM : calculer la p‑value d’un χ² ou Fisher exact après chaque batch de données avec un seuil strict (α = 0,001).
-
Analyser les KPI :
-
Effectuer un test d’égalité des proportions (ou t‑test/ANOVA pour métriques continues).
-
Vérifier que l’intervalle de confiance de la différence inclut toujours 0.
-
-
Documenter les résultats : consigner la p‑value, la variance observée, toute anomalie détectée et les correctifs appliqués.
3. Critères de succès
-
Aucun SRM détecté (p‑value ≥ 0,001 sur toute la période).
-
Aucune différence significative sur le KPI principal et les KPIs de sécurité (p ≥ 0,05 et IC englobant 0).
-
Aucune anomalie de tracking (événements manquants, doublons, pics inexpliqués).
Si tous ces critères sont remplis ➡️ la plateforme est jugée fiable et prête pour des tests A/B. Sinon, il faut investiguer, corriger, puis relancer un nouveau test A/A.
4. Bonnes pratiques
-
Automatiser la détection SRM : tableau de bord temps réel et alertes Slack/Email.
-
Répéter après tout changement majeur : nouvelle version de l’outil d’AB testing, refonte du plan de taggage, migration serveur‑side.
-
Éviter les périodes atypiques : soldes, campagnes massives, incidents techniques qui faussent la variance.
-
Communiquer les enseignements : partager le rapport A/A avec produit, data, marketing et dev pour renforcer la confiance dans la démarche.
⚡ En résumé
Le test A/A est l’équivalent d’un « crash‑test » : il valide la randomisation, le tracking et les capacités techniques sans prendre le risque d’exposer les utilisateurs à une variante potentiellement dégradante. Ignorer cette étape, c’est accepter de bâtir des décisions business sur des fondations possiblement biaisées.