Comment utiliser cet outil ?
- Saisissez les variantes — visiteurs et conversions par bras. Minimum A + B, jusqu'à cinq variantes prises en charge.
- Choisissez la confiance 90/95/99 %. Test unilatéral uniquement si la direction de l'hypothèse a été fixée avant le test.
- Sélectionnez le moteur — Fréquentiste donne la p-valeur, Bayésien affiche P(B>A), Peek-Safe (mSPRT) gère les tests consultés plusieurs fois.
- Tenez compte des alertes du garde-fou de réalisme — pour n<100/variante ou conversion nulle, le Z-test n'est pas fiable.
- L'onglet Taille d'échantillon planifie le test à l'avance. Le permalien copie les entrées dans le hash de l'URL, sans aller-retour serveur.
Que mesure ce calculateur de significativité de test A/B ?
Vous lancez deux comptes de conversion dans le calculateur — visiteurs et conversions par variante — et vous obtenez en retour si la différence est statistiquement significative. Mais « statistiquement significatif » ne suffit plus en 2026. Ce calculateur fournit quatre vues sur les mêmes données :
- p-valeur (fréquentiste) — la réponse classique : quelle serait l’improbabilité de ce résultat si les deux variantes étaient équivalentes ? Un résultat sous α=0,05 compte comme significatif.
P(B > A)(bayésien) — la réponse plus directe : quelle est la probabilité que la variante B soit vraiment meilleure ? À 96 %, le diagnostic est clair, même si p reste à la frontière fréquentiste.- p always-valid (mSPRT) — la valeur Peek-Safe pour tous ceux qui ont consulté le test en cours plusieurs fois. Jamais inférieure au Z-test naïf, souvent plus réaliste.
- Intervalle de confiance Wilson-Score — la plage dans laquelle se trouve le vrai Δ-taux avec 95 % de probabilité. Un IC qui inclut zéro est la version honnête de « non significatif ».
Pour trois variantes ou plus, un tableau multi-variantes apparaît automatiquement — par paires contre le contrôle, avec corrections de Bonferroni et de Holm. La bannière du garde-fou de réalisme alerte sur les petits échantillons (n<100/variante), une faible puissance, un MDE supérieur à 50 % ou un Sample-Ratio Mismatch (test du χ² sur la répartition 50/50).
Fréquentiste ou bayésien — lequel choisir ?
Le fréquentiste et le bayésien répondent à des questions différentes. Comprendre la distinction mène à de meilleures décisions.
La p-valeur fréquentiste répond à : « En supposant que les deux variantes soient équivalentes — quelle serait l’improbabilité du résultat observé (ou plus extrême) ? » Le seuil α (habituellement 5 %) est la tolérance pour un faux positif. Une p-valeur de 0,03 ne signifie PAS que la variante B est meilleure avec 97 % de probabilité — c’est une erreur d’interprétation très fréquente.
La probabilité postérieure bayésienne P(B > A) répond à la question que la plupart des parties
prenantes posent réellement : « Quelle est la probabilité que B soit meilleure ? » Via une loi bêta
et un échantillonnage Monte-Carlo (50 000 échantillons, graine déterministe), nous calculons la
postérieure à partir d’un prior uniforme Beta(1,1) plus les données observées. Le chiffre est
directement interprétable.
En pratique : quand une variante domine clairement, les deux vues donnent la même réponse. Au
cas-limite (p≈0,05), le bayésien aide énormément : si P(B > A) est à 95 %, le diagnostic est
clair ; à 75 %, les données sont ambivalentes. Lire la vue bayésienne en parallèle évite la
principale erreur d’interprétation de la p-valeur.
Qu’est-ce que Peek-Safe mSPRT et pourquoi en ai-je besoin ?
Consulter plusieurs fois un test A/B en cours sans statistique corrigée est l’une des erreurs les plus fréquentes en test produit. Quiconque vérifie tous les jours et s’arrête au premier p<0,05 n’a pas un taux de faux positifs de 5 %, mais de 25 à 50 % — selon la fréquence des consultations.
Le phénomène s’appelle le « Sequential Testing Problem » et est connu depuis les années 1940. La solution moderne vient du papier Optimizely Stats-Engine Johari et al., « Always Valid Inference », arXiv:1512.04922 : le mixture Sequential Probability Ratio Test (mSPRT) fournit une p-valeur always-valid qui reste valable sous N’IMPORTE QUELLE règle d’arrêt. Vous pouvez regarder quand et aussi souvent que vous voulez.
Le compromis : mSPRT est plus conservateur que le Z-test naïf, vous avez besoin d’un peu plus de données pour la même significativité. Mais en échange, les résultats sont honnêtes. Si vous activez le toggle « Peek-Safe (mSPRT) » en haut, le calculateur bascule — et affiche à la fois le p always-valid et le p naïf côte à côte, pour que vous voyiez la différence. Règle pratique : si vous avez regardé le test en cours plus de deux fois, prenez mSPRT.
Garde-fou de réalisme — quand vaut-il mieux ne pas calculer ?
La statistique peut produire des chiffres très précis pour des modèles très faux. Quatre cas standards où la mathématique ne correspond pas à la réalité — le calculateur affiche une bannière pour chacun :
- Échantillon < 100/variante : l’approximation normale du Z-test ne fonctionne pas de manière fiable. À n=50, la p-valeur indiquée peut être fausse de plusieurs ordres de grandeur.
- Puissance < 80 % : un résultat non significatif n’est pas informatif si l’échantillon était d’emblée trop petit pour la taille d’effet espérée. Utilisez l’onglet Taille d’échantillon.
- MDE supérieur à 50 % relatif : chercher un lift de +50 % revient à chercher un miracle. Les effets réalistes d’un test A/B se situent entre +1 % et +20 %, tout au-dessus est suspect.
- Taux de conversion = 0 : le Z-test est mathématiquement indéfini lorsqu’une variante n’a aucune conversion. L’IC Wilson-Score donne une borne supérieure ; collectez plus de données.
En plus : pour A vs B, le calculateur effectue un test du χ² sur la répartition 50/50 (valeur critique ≈ 10,83 à α=0,001). S’il se déclenche, vous avez un Sample-Ratio Mismatch — vérifiez la randomisation avant de croire la p-valeur.
Quand utiliser Bonferroni et quand Holm ?
Quiconque teste trois ou quatre variantes en même temps oublie facilement que le taux d’erreur par famille augmente. Avec trois comparaisons à α=0,05, vous avez 14 % de chance d’un faux positif quelque part dans la famille — même si toutes les variantes étaient en vérité équivalentes.
La correction de Bonferroni divise α par le nombre de comparaisons. Pour trois tests, α=0,0167.
Très conservatrice et très simple. Holm-Bonferroni est uniformément plus puissante au même contrôle
FWER — elle trie les p-valeurs par ordre croissant et les teste pas à pas contre α/m, α/(m-1),
…, α/1. La première comparaison non significative bloque toutes les suivantes.
Le calculateur affiche les deux corrections côte à côte, pour que vous voyiez quelle comparaison survit selon quelle méthode. Règle pratique : pour plus de deux comparaisons, Bonferroni comme minimum, Holm par défaut, car elle est uniformément plus puissante.
Comment lire l’intervalle de confiance Wilson-Score ?
L’intervalle de confiance à 95 % autour du Δ-taux indique la plage dans laquelle se trouve la vraie différence entre les variantes A et B — avec 95 % de certitude sur des tests répétés. La méthode Wilson-Score est plus robuste que l’approximation normale naïve, surtout avec de petits échantillons ou des taux extrêmes (proches de 0 ou 1). Nous l’utilisons pour les deux proportions individuelles et combinons via une approximation de Newcombe sur la différence.
En pratique : si l’IC est entièrement au-dessus de zéro, la variante B est démontrablement meilleure. Si l’IC inclut zéro, l’effet est incertain — peut-être nul, peut-être positif, peut-être négatif. Pour un lift ponctuel de +2 pp avec IC [−0,5 pp, +4,5 pp], la bonne réponse est « continuer à collecter », pas « déploiement ». L’IC est la forme la plus honnête de la déclaration de significativité.
Qu’est-ce qui n’est délibérément pas construit ?
- Pas de Multi-Armed Bandits / Thompson Sampling — domaine plateforme. Quiconque veut réallouer le trafic dynamiquement a besoin d’un système de test, pas d’un calculateur.
- Pas de courbes de survie ou de moyennes de Poisson — evanmiller.org couvre bien ces tests long-tail ; nous restons sur des données de Bernoulli (deux proportions).
- Pas de sortie « durée de test en jours » avec estimateur de trafic — cela dépend trop de la saisonnalité du trafic de votre produit pour être utile.
- Pas de fonctionnalités de compte / sauvegarde — le permalien suffit. Quiconque a besoin de persister des tests devrait utiliser un véritable outil de gestion de tests.
- Pas de CUPED / échantillonnage stratifié — cela appartient à la plateforme de test, pas à un calculateur.
Où trouver plus de détails ?
- Wikipédia — Test d’hypothèse — la mathématique sous-jacente du Z-test
- Wikipédia — Loi bêta — postérieure bayésienne pour les données de Bernoulli
- Johari et al., « Always Valid Inference » — le papier original mSPRT
- Wikipédia — Correction de Bonferroni — standard des tests multiples
- Méthode de Holm-Bonferroni (EN) — procédure step-down
- Sample-Ratio Mismatch expliqué — le pre-flight check le plus important avant chaque lecture A/B
Dernière mise à jour :