Le sample size (ou taille d’échantillon) désigne le nombre d’observations ou d’utilisateurs nécessaires pour qu’un test A/B, un MVT ou toute expérimentation statistique puisse détecter un effet d’une ampleur donnée avec un niveau de confiance et une puissance prédéfinis. Il constitue l’un des paramètres critiques de la planification expérimentale : un échantillon trop petit risque de passer à côté d’un effet réel (erreur de Type II), tandis qu’un échantillon excessif gaspille du temps, du trafic et des revenus potentiels.
1. Paramètres qui déterminent le sample size
Paramètre | Rôle | Impact si la valeur augmente |
---|---|---|
Niveau de confiance (1 − α) | Probabilité de ne pas commettre une erreur de Type I | ➚ Taille d’échantillon |
Puissance (1 − β) | Probabilité de détecter l’effet si H1 est vraie | ➚ Taille d’échantillon |
MDE (Minimum Detectable Effect) | Plus petite différence jugée pertinente | ➘ Taille d’échantillon (effet plus grand ⇒ échantillon plus petit) |
Variance de la métrique | Dispersion naturelle de la mesure | ➚ Taille d’échantillon |
Nombre de variantes (n) | A/B vs A/B/n | ➚ Taille d’échantillon total (trafic divisé entre variantes) |
2. Formules simplifiées
2.1 Métrique binaire (taux de conversion)
Pour une proportion de base p et un MDE relatif δ :
2.2 Métrique continue (moyenne)
Pour un écart‑type σ et un MDE absolu Δ :
Remarque : Ces formules supposent une répartition 50 / 50. Pour d’autres ratios (ex. 90 / 10), un facteur d’ajustement est requis.
3. Étapes de calcul dans un test A/B
- Mesurer la baseline : estimer p (ou σ) sur les données historiques.
- Fixer le MDE : définir l’effet minimal qui justifie un déploiement (aligné sur la valeur business).
- Choisir α et puissance : typiquement α = 0,05 et puissance = 80 %.
- Appliquer la formule ou utiliser un calculateur/statistique R/Python.
- Arrondir : tenir compte des besoins de segmentation (mobile/desktop) ou de seuils opérationnels.
4. Risques et pièges courants
- Arrêter le test trop tôt : vérifier que le sample size est bien atteint pour chaque groupe avant d’analyser.
- Ne pas anticiper la variance : sous‑estimer p(1-p) ou σ² conduit à un manque de puissance.
- Ignorer la dilution trafic dans un A/B/n : le MDE reste fixé par comparaison paire ; le N total doit être multiplié par n / 2.
- Changements inattendus : saisonnalité, campagnes marketing peuvent modifier la baseline et invalider le calcul.
5. Bonnes pratiques CRO
- Documenter tous les paramètres (baseline, MDE, α, puissance, ratio variante) avant le lancement.
- Vérifier en continu le taux d’accumulation du trafic et recalculer si la réalité diverge.
- Prévoir une marge (10‑15 %) pour pallier la perte de données (bots, filtrage).
- Simuler avec un power analysis ou un bootstrap sur données historiques pour valider les hypothèses.
- Communiquer la taille d’échantillon requise aux parties prenantes pour aligner attentes et calendrier.
⚡ En résumé
Le sample size est le garde‑fou statistique qui assure que votre test A/B a suffisamment de puissance pour détecter l’effet que vous jugez important, sans surexposer les utilisateurs à des variantes potentiellement sous‑optimales. Un calcul rigoureux, associé à une surveillance continue, garantit des décisions fiables et une allocation optimale du trafic expérimental.