La puissance statistique d’un test A/B (notée 1 − β) représente la probabilité de détecter un effet réel lorsqu’il existe effectivement une différence entre les variantes testées. Plus elle est élevée, plus le test est capable de conclure à une amélioration réelle et non à un simple hasard.
1. Définition formelle
La puissance est la probabilité de rejeter l’hypothèse nulle H₀ quand l’hypothèse alternative H₁ est vraie. Elle est complémentaire du risque de faux négatif (erreur de type II, noté β).
Exemple :
Un test A/B avec une puissance de 80 % signifie que, si une vraie amélioration du KPI existe, le test a 80 % de chances de la détecter.
2. Facteurs qui influencent la puissance
Facteur | Impact |
---|---|
Taille d’échantillon (n) | Plus n est grand, plus la puissance augmente |
MDE (Minimum Detectable Effect) | Plus l’effet attendu est grand, plus il est détectable |
Variance de la métrique | Moins il y a de bruit, plus la puissance est élevée |
Niveau de confiance (1 − α) | Plus le seuil α est strict (ex. 0,01), plus la puissance baisse (à échantillon égal) |
3. Pourquoi c’est crucial en CRO
- Décisions fiables : éviter de passer à côté d’une amélioration qui fonctionne réellement.
- Efficacité expérimentale : calibrer les tests A/B pour ne pas gaspiller de trafic sur des tests trop faibles.
- Communication business : justifier les résultats d’un test A/B auprès des parties prenantes (y compris si H₀ n’est pas rejetée).
4. Bonnes pratiques pour garantir une puissance suffisante
- Cibler 80 % au minimum, voire 90 % pour les tests stratégiques.
- Calculer la puissance attendue avant de lancer un test, avec la taille d’échantillon et le MDE.
- Utiliser des simulateurs (power analysis) pour valider la faisabilité.
- Segmenter avec précaution : trop de segments réduisent le n par groupe et affaiblissent la puissance.
⚡ En résumé
La puissance statistique est la garantie que votre test A/B a une chance suffisante de capter une vraie amélioration. Négliger cette notion, c’est risquer d’abandonner une bonne idée simplement parce qu’on n’avait pas les moyens statistiques de la détecter.