Comment calculer la significativité d'un test A/B ?

Vous calculez la significativité avec un [test Z sur deux proportions](https://fr.wikipedia.org/wiki/Test_d%27hypoth%C3%A8se) : à partir des taux de conversion des deux variantes et de la variance poolée sous l'hypothèse nulle, on obtient une statistique Z, puis une p-valeur via la loi normale. Si p est inférieure à α (typiquement 0,05), la différence est statistiquement significative. Ce calculateur fournit la p-valeur en millisecondes et affiche en parallèle la probabilité bayésienne que la variante B soit meilleure — plus un intervalle de confiance Wilson-Score sur le Δ de taux.

Quelle est la différence entre fréquentiste et bayésien en test A/B ?

Le fréquentiste demande — quelle serait l'improbabilité de ce résultat si les deux variantes étaient équivalentes ? Le bayésien demande — quelle est la probabilité que la variante B soit meilleure ? La p-valeur ne dit rien directement sur la probabilité de votre hypothèse ; la [probabilité postérieure P(B>A) via une loi bêta](https://fr.wikipedia.org/wiki/Loi_b%C3%AAta) le fait. Nous affichons les deux côte à côte pour éviter les mauvaises interprétations. Avec de petits échantillons, la vision bayésienne est souvent la plus honnête car l'approximation normale du fréquentiste devient bruitée.

Que signifie le mode Peek-Safe avec mSPRT ?

Peek-Safe signifie que vous pouvez consulter le test plusieurs fois pendant son exécution sans gonfler le taux de faux positifs. Consulter régulièrement et s'arrêter au premier p<0,05 est l'une des erreurs les plus courantes en test A/B. Le Z-test naïf n'est valable qu'une seule fois — consulter plusieurs fois produit bien plus de faux positifs que les 5 % nominaux. [Always-Valid Inference (Johari et al., arXiv:1512.04922)](https://arxiv.org/abs/1512.04922) fournit avec le mixture Sequential Probability Ratio Test une p-valeur qui reste valable sous n'importe quelle règle d'arrêt. Activez le toggle si vous avez consulté le test plus de deux fois.

Quelle taille d'échantillon faut-il pour un test A/B ?

La taille d'échantillon requise dépend de quatre valeurs : taux de base, MDE (Minimum Detectable Effect), puissance (typiquement 80 %) et niveau de significativité α (typiquement 5 %). Pour un taux de base de 5 %, un MDE relatif de +20 %, une puissance de 80 % et α=0,05, il faut environ 3 840 visiteurs par variante. L'onglet Taille d'échantillon de ce calculateur fait les calculs pour vous ; des benchmarks sectoriels (e-commerce, B2B SaaS, newsletter) sont préréglés. Règle pratique : pour des taux de base inférieurs à 1 %, il faut souvent six à sept chiffres de visiteurs par bras.

Qu'est-ce que la correction de Bonferroni en test A/B multi-variantes ?

Tester trois ou quatre variantes simultanément contre le contrôle pose un problème de tests multiples. Avec trois comparaisons à α=0,05, le taux d'erreur par famille grimpe à environ 14 % si vous ne corrigez pas. [La correction de Bonferroni](https://fr.wikipedia.org/wiki/Correction_de_Bonferroni) corrige de manière conservatrice en divisant α par le nombre de comparaisons — pour trois tests, α=0,0167 par comparaison. [La méthode de Holm-Bonferroni](https://en.wikipedia.org/wiki/Holm%E2%80%93Bonferroni_method) est uniformément plus puissante au même contrôle FWER. Le calculateur affiche les deux corrections directement sous la sortie multi-variantes.

Qu'est-ce qu'un Sample-Ratio Mismatch (SRM) ?

Sample-Ratio Mismatch signifie que votre répartition de trafic n'est pas 50/50 alors qu'elle devrait l'être. Avec une randomisation propre, les deux bras d'un test A/B devraient recevoir à peu près le même nombre de visiteurs — de légères déviations sont normales, de grandes différences sont un signal d'alarme. Le SRM survient souvent quand un bug fausse l'attribution de bucket, qu'une couche de cache supprime le cookie pour les bots, ou qu'une race condition de pixel de conversion fait sortir des visiteurs du tracking. Le garde-fou de réalisme effectue un test du χ² sur la répartition 50/50 à α=0,001 et avertit dès que celui-ci échoue. Arrêtez le test, corrigez la randomisation, puis relisez — obligatoire selon le [SRM Cheat Sheet de Seer Interactive](https://www.seerinteractive.com/insights/sample-ratio-mismatch-srm-explanation).

Mes données de conversion quittent-elles le navigateur ?

Non. Les chiffres de conversion sont sensibles pour votre entreprise — vos concurrents adoreraient savoir combien d'acheteurs vous convertissez par million de visiteurs. Ce calculateur n'envoie aucune requête à un serveur. Vous pouvez le vérifier — ouvrez F12, choisissez l'onglet Réseau, filtrez sur Tous, saisissez vos chiffres, aucun POST, aucun WebSocket, rien. L'échantillonnage bayésien utilise un générateur pseudo-aléatoire avec une graine déterministe, sans hasard global et sans horodatage. Le partage par permalien passe par le hash de l'URL, jamais par un stockage serveur. Le hash est construit et lu entièrement côté client.

Que faire si la p-valeur est limite (p ≈ 0,05) ?

Quand p est proche de 0,05, collecter plus d'échantillon est presque toujours la bonne réponse plutôt que d'arrêter prématurément. La p-valeur n'a pas de seuil net — 0,049 et 0,051 sont statistiquement indissociables. Regardez en parallèle la sortie bayésienne : si `P(B > A)` dépasse 95 %, le diagnostic est clair ; à 80 %, les données sont ambivalentes. Si vous avez consulté le test plusieurs fois, passez immédiatement en Peek-Safe — le Z-test naïf n'est plus valable. En pratique : laissez tourner jusqu'à la taille d'échantillon précalculée ; ne vous arrêtez jamais parce que le chiffre est passé sous 0,05.

Significativité Test A/B — Bayes & Peek-Safe mSPRT

Que mesure ce calculateur de significativité de test A/B ?

Vous lancez deux comptes de conversion dans le calculateur — visiteurs et conversions par variante — et vous obtenez en retour si la différence est statistiquement significative. Mais « statistiquement significatif » ne suffit plus en 2026. Ce calculateur fournit quatre vues sur les mêmes données :

p-valeur (fréquentiste) — la réponse classique : quelle serait l’improbabilité de ce résultat si les deux variantes étaient équivalentes ? Un résultat sous α=0,05 compte comme significatif.
P(B > A) (bayésien) — la réponse plus directe : quelle est la probabilité que la variante B soit vraiment meilleure ? À 96 %, le diagnostic est clair, même si p reste à la frontière fréquentiste.
p always-valid (mSPRT) — la valeur Peek-Safe pour tous ceux qui ont consulté le test en cours plusieurs fois. Jamais inférieure au Z-test naïf, souvent plus réaliste.
Intervalle de confiance Wilson-Score — la plage dans laquelle se trouve le vrai Δ-taux avec 95 % de probabilité. Un IC qui inclut zéro est la version honnête de « non significatif ».

Pour trois variantes ou plus, un tableau multi-variantes apparaît automatiquement — par paires contre le contrôle, avec corrections de Bonferroni et de Holm. La bannière du garde-fou de réalisme alerte sur les petits échantillons (n<100/variante), une faible puissance, un MDE supérieur à 50 % ou un Sample-Ratio Mismatch (test du χ² sur la répartition 50/50).

Fréquentiste ou bayésien — lequel choisir ?

Le fréquentiste et le bayésien répondent à des questions différentes. Comprendre la distinction mène à de meilleures décisions.

La p-valeur fréquentiste répond à : « En supposant que les deux variantes soient équivalentes — quelle serait l’improbabilité du résultat observé (ou plus extrême) ? » Le seuil α (habituellement 5 %) est la tolérance pour un faux positif. Une p-valeur de 0,03 ne signifie PAS que la variante B est meilleure avec 97 % de probabilité — c’est une erreur d’interprétation très fréquente.

La probabilité postérieure bayésienne P(B > A) répond à la question que la plupart des parties prenantes posent réellement : « Quelle est la probabilité que B soit meilleure ? » Via une loi bêta et un échantillonnage Monte-Carlo (50 000 échantillons, graine déterministe), nous calculons la postérieure à partir d’un prior uniforme Beta(1,1) plus les données observées. Le chiffre est directement interprétable.

En pratique : quand une variante domine clairement, les deux vues donnent la même réponse. Au cas-limite (p≈0,05), le bayésien aide énormément : si P(B > A) est à 95 %, le diagnostic est clair ; à 75 %, les données sont ambivalentes. Lire la vue bayésienne en parallèle évite la principale erreur d’interprétation de la p-valeur.

Qu’est-ce que Peek-Safe mSPRT et pourquoi en ai-je besoin ?

Consulter plusieurs fois un test A/B en cours sans statistique corrigée est l’une des erreurs les plus fréquentes en test produit. Quiconque vérifie tous les jours et s’arrête au premier p<0,05 n’a pas un taux de faux positifs de 5 %, mais de 25 à 50 % — selon la fréquence des consultations.

Le phénomène s’appelle le « Sequential Testing Problem » et est connu depuis les années 1940. La solution moderne vient du papier Optimizely Stats-Engine Johari et al., « Always Valid Inference », arXiv:1512.04922 : le mixture Sequential Probability Ratio Test (mSPRT) fournit une p-valeur always-valid qui reste valable sous N’IMPORTE QUELLE règle d’arrêt. Vous pouvez regarder quand et aussi souvent que vous voulez.

Le compromis : mSPRT est plus conservateur que le Z-test naïf, vous avez besoin d’un peu plus de données pour la même significativité. Mais en échange, les résultats sont honnêtes. Si vous activez le toggle « Peek-Safe (mSPRT) » en haut, le calculateur bascule — et affiche à la fois le p always-valid et le p naïf côte à côte, pour que vous voyiez la différence. Règle pratique : si vous avez regardé le test en cours plus de deux fois, prenez mSPRT.

Garde-fou de réalisme — quand vaut-il mieux ne pas calculer ?

La statistique peut produire des chiffres très précis pour des modèles très faux. Quatre cas standards où la mathématique ne correspond pas à la réalité — le calculateur affiche une bannière pour chacun :

Échantillon < 100/variante : l’approximation normale du Z-test ne fonctionne pas de manière fiable. À n=50, la p-valeur indiquée peut être fausse de plusieurs ordres de grandeur.
Puissance < 80 % : un résultat non significatif n’est pas informatif si l’échantillon était d’emblée trop petit pour la taille d’effet espérée. Utilisez l’onglet Taille d’échantillon.
MDE supérieur à 50 % relatif : chercher un lift de +50 % revient à chercher un miracle. Les effets réalistes d’un test A/B se situent entre +1 % et +20 %, tout au-dessus est suspect.
Taux de conversion = 0 : le Z-test est mathématiquement indéfini lorsqu’une variante n’a aucune conversion. L’IC Wilson-Score donne une borne supérieure ; collectez plus de données.

En plus : pour A vs B, le calculateur effectue un test du χ² sur la répartition 50/50 (valeur critique ≈ 10,83 à α=0,001). S’il se déclenche, vous avez un Sample-Ratio Mismatch — vérifiez la randomisation avant de croire la p-valeur.

Quand utiliser Bonferroni et quand Holm ?

Quiconque teste trois ou quatre variantes en même temps oublie facilement que le taux d’erreur par famille augmente. Avec trois comparaisons à α=0,05, vous avez 14 % de chance d’un faux positif quelque part dans la famille — même si toutes les variantes étaient en vérité équivalentes.

La correction de Bonferroni divise α par le nombre de comparaisons. Pour trois tests, α=0,0167. Très conservatrice et très simple. Holm-Bonferroni est uniformément plus puissante au même contrôle FWER — elle trie les p-valeurs par ordre croissant et les teste pas à pas contre α/m, α/(m-1), …, α/1. La première comparaison non significative bloque toutes les suivantes.

Le calculateur affiche les deux corrections côte à côte, pour que vous voyiez quelle comparaison survit selon quelle méthode. Règle pratique : pour plus de deux comparaisons, Bonferroni comme minimum, Holm par défaut, car elle est uniformément plus puissante.

Comment lire l’intervalle de confiance Wilson-Score ?

L’intervalle de confiance à 95 % autour du Δ-taux indique la plage dans laquelle se trouve la vraie différence entre les variantes A et B — avec 95 % de certitude sur des tests répétés. La méthode Wilson-Score est plus robuste que l’approximation normale naïve, surtout avec de petits échantillons ou des taux extrêmes (proches de 0 ou 1). Nous l’utilisons pour les deux proportions individuelles et combinons via une approximation de Newcombe sur la différence.

En pratique : si l’IC est entièrement au-dessus de zéro, la variante B est démontrablement meilleure. Si l’IC inclut zéro, l’effet est incertain — peut-être nul, peut-être positif, peut-être négatif. Pour un lift ponctuel de +2 pp avec IC [−0,5 pp, +4,5 pp], la bonne réponse est « continuer à collecter », pas « déploiement ». L’IC est la forme la plus honnête de la déclaration de significativité.

Qu’est-ce qui n’est délibérément pas construit ?

Pas de Multi-Armed Bandits / Thompson Sampling — domaine plateforme. Quiconque veut réallouer le trafic dynamiquement a besoin d’un système de test, pas d’un calculateur.
Pas de courbes de survie ou de moyennes de Poisson — evanmiller.org couvre bien ces tests long-tail ; nous restons sur des données de Bernoulli (deux proportions).
Pas de sortie « durée de test en jours » avec estimateur de trafic — cela dépend trop de la saisonnalité du trafic de votre produit pour être utile.
Pas de fonctionnalités de compte / sauvegarde — le permalien suffit. Quiconque a besoin de persister des tests devrait utiliser un véritable outil de gestion de tests.
Pas de CUPED / échantillonnage stratifié — cela appartient à la plateforme de test, pas à un calculateur.

Où trouver plus de détails ?

Wikipédia — Test d’hypothèse — la mathématique sous-jacente du Z-test
Wikipédia — Loi bêta — postérieure bayésienne pour les données de Bernoulli
Johari et al., « Always Valid Inference » — le papier original mSPRT
Wikipédia — Correction de Bonferroni — standard des tests multiples
Méthode de Holm-Bonferroni (EN) — procédure step-down
Sample-Ratio Mismatch expliqué — le pre-flight check le plus important avant chaque lecture A/B

Test A/B Significativité — Bayes & Peek-Safe mSPRT

Variants

Settings

Demos

A vs B result

Copy permalink

Comment ça marche

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Confidentialité

Comment utiliser cet outil ?