Aller au contenu
TEST CALCULATOR

Test A/B Significativité — Bayes & Peek-Safe mSPRT

Fréquentiste + bayésien en parallèle. Mode Peek-Safe pour vérifications répétées. Bonferroni et Holm pour tests multi-variantes. Garde-fou de réalisme contre les conversions à zéro.

Runs locally in the browser — conversion data is never uploaded.

Variants

At least two variants. Up to five arms for multi-variant tests — Bonferroni and Holm corrections appear automatically.

A
Rate 8.00%
B
Rate 10.00%

Settings

Engine

Frequentist and Bayesian appear side by side; Peek-Safe switches to an always-valid p-value when you have looked at the test multiple times.

Confidence

Two-sided is the default. Use one-sided only if you fixed the direction of the hypothesis in advance.

Demos

Click-to-load examples — each demo includes a teaching takeaway.

A vs B result

Not significant
p-value
0.1181
P(B > A)
94.0%
Δ rate
2.00 pp
Lift (relative)
25.0%
95% CI on Δ rate
[-0.53 pp, 4.52 pp]

Copy permalink

Permalink carries inputs in the URL hash — no server, no account, no data leakage.

Comment ça marche

  1. 01

    Text oder Code einfügen

    Füge deinen Inhalt in das Eingabefeld ein oder tippe direkt.

  2. 02

    Automatische Verarbeitung

    Das Tool verarbeitet den Inhalt sofort und zeigt das Ergebnis.

  3. 03

    Ergebnis kopieren

    Kopiere das Ergebnis mit einem Klick in die Zwischenablage.

Confidentialité

Alle Berechnungen laufen direkt in deinem Browser. Keine Daten werden auf Server übertragen.

Un calculateur de test A/B qui affiche la p-valeur fréquentiste ET la probabilité postérieure bayésienne `P(B > A)` côte à côte — avec un mode Peek-Safe pour les tests que vous avez consultés plusieurs fois. Le garde-fou de réalisme avertit si l'échantillon est trop petit, si le MDE dépasse 50 % ou si un Sample-Ratio Mismatch apparaît.

01 — Mode d’emploi

Comment utiliser cet outil ?

  1. Saisissez les variantes — visiteurs et conversions par bras. Minimum A + B, jusqu'à cinq variantes prises en charge.
  2. Choisissez la confiance 90/95/99 %. Test unilatéral uniquement si la direction de l'hypothèse a été fixée avant le test.
  3. Sélectionnez le moteur — Fréquentiste donne la p-valeur, Bayésien affiche P(B>A), Peek-Safe (mSPRT) gère les tests consultés plusieurs fois.
  4. Tenez compte des alertes du garde-fou de réalisme — pour n<100/variante ou conversion nulle, le Z-test n'est pas fiable.
  5. L'onglet Taille d'échantillon planifie le test à l'avance. Le permalien copie les entrées dans le hash de l'URL, sans aller-retour serveur.

Que mesure ce calculateur de significativité de test A/B ?

Vous lancez deux comptes de conversion dans le calculateur — visiteurs et conversions par variante — et vous obtenez en retour si la différence est statistiquement significative. Mais « statistiquement significatif » ne suffit plus en 2026. Ce calculateur fournit quatre vues sur les mêmes données :

  • p-valeur (fréquentiste) — la réponse classique : quelle serait l’improbabilité de ce résultat si les deux variantes étaient équivalentes ? Un résultat sous α=0,05 compte comme significatif.
  • P(B > A) (bayésien) — la réponse plus directe : quelle est la probabilité que la variante B soit vraiment meilleure ? À 96 %, le diagnostic est clair, même si p reste à la frontière fréquentiste.
  • p always-valid (mSPRT) — la valeur Peek-Safe pour tous ceux qui ont consulté le test en cours plusieurs fois. Jamais inférieure au Z-test naïf, souvent plus réaliste.
  • Intervalle de confiance Wilson-Score — la plage dans laquelle se trouve le vrai Δ-taux avec 95 % de probabilité. Un IC qui inclut zéro est la version honnête de « non significatif ».

Pour trois variantes ou plus, un tableau multi-variantes apparaît automatiquement — par paires contre le contrôle, avec corrections de Bonferroni et de Holm. La bannière du garde-fou de réalisme alerte sur les petits échantillons (n<100/variante), une faible puissance, un MDE supérieur à 50 % ou un Sample-Ratio Mismatch (test du χ² sur la répartition 50/50).

Fréquentiste ou bayésien — lequel choisir ?

Le fréquentiste et le bayésien répondent à des questions différentes. Comprendre la distinction mène à de meilleures décisions.

La p-valeur fréquentiste répond à : « En supposant que les deux variantes soient équivalentes — quelle serait l’improbabilité du résultat observé (ou plus extrême) ? » Le seuil α (habituellement 5 %) est la tolérance pour un faux positif. Une p-valeur de 0,03 ne signifie PAS que la variante B est meilleure avec 97 % de probabilité — c’est une erreur d’interprétation très fréquente.

La probabilité postérieure bayésienne P(B > A) répond à la question que la plupart des parties prenantes posent réellement : « Quelle est la probabilité que B soit meilleure ? » Via une loi bêta et un échantillonnage Monte-Carlo (50 000 échantillons, graine déterministe), nous calculons la postérieure à partir d’un prior uniforme Beta(1,1) plus les données observées. Le chiffre est directement interprétable.

En pratique : quand une variante domine clairement, les deux vues donnent la même réponse. Au cas-limite (p≈0,05), le bayésien aide énormément : si P(B > A) est à 95 %, le diagnostic est clair ; à 75 %, les données sont ambivalentes. Lire la vue bayésienne en parallèle évite la principale erreur d’interprétation de la p-valeur.

Qu’est-ce que Peek-Safe mSPRT et pourquoi en ai-je besoin ?

Consulter plusieurs fois un test A/B en cours sans statistique corrigée est l’une des erreurs les plus fréquentes en test produit. Quiconque vérifie tous les jours et s’arrête au premier p<0,05 n’a pas un taux de faux positifs de 5 %, mais de 25 à 50 % — selon la fréquence des consultations.

Le phénomène s’appelle le « Sequential Testing Problem » et est connu depuis les années 1940. La solution moderne vient du papier Optimizely Stats-Engine Johari et al., « Always Valid Inference », arXiv:1512.04922 : le mixture Sequential Probability Ratio Test (mSPRT) fournit une p-valeur always-valid qui reste valable sous N’IMPORTE QUELLE règle d’arrêt. Vous pouvez regarder quand et aussi souvent que vous voulez.

Le compromis : mSPRT est plus conservateur que le Z-test naïf, vous avez besoin d’un peu plus de données pour la même significativité. Mais en échange, les résultats sont honnêtes. Si vous activez le toggle « Peek-Safe (mSPRT) » en haut, le calculateur bascule — et affiche à la fois le p always-valid et le p naïf côte à côte, pour que vous voyiez la différence. Règle pratique : si vous avez regardé le test en cours plus de deux fois, prenez mSPRT.

Garde-fou de réalisme — quand vaut-il mieux ne pas calculer ?

La statistique peut produire des chiffres très précis pour des modèles très faux. Quatre cas standards où la mathématique ne correspond pas à la réalité — le calculateur affiche une bannière pour chacun :

  1. Échantillon < 100/variante : l’approximation normale du Z-test ne fonctionne pas de manière fiable. À n=50, la p-valeur indiquée peut être fausse de plusieurs ordres de grandeur.
  2. Puissance < 80 % : un résultat non significatif n’est pas informatif si l’échantillon était d’emblée trop petit pour la taille d’effet espérée. Utilisez l’onglet Taille d’échantillon.
  3. MDE supérieur à 50 % relatif : chercher un lift de +50 % revient à chercher un miracle. Les effets réalistes d’un test A/B se situent entre +1 % et +20 %, tout au-dessus est suspect.
  4. Taux de conversion = 0 : le Z-test est mathématiquement indéfini lorsqu’une variante n’a aucune conversion. L’IC Wilson-Score donne une borne supérieure ; collectez plus de données.

En plus : pour A vs B, le calculateur effectue un test du χ² sur la répartition 50/50 (valeur critique ≈ 10,83 à α=0,001). S’il se déclenche, vous avez un Sample-Ratio Mismatch — vérifiez la randomisation avant de croire la p-valeur.

Quand utiliser Bonferroni et quand Holm ?

Quiconque teste trois ou quatre variantes en même temps oublie facilement que le taux d’erreur par famille augmente. Avec trois comparaisons à α=0,05, vous avez 14 % de chance d’un faux positif quelque part dans la famille — même si toutes les variantes étaient en vérité équivalentes.

La correction de Bonferroni divise α par le nombre de comparaisons. Pour trois tests, α=0,0167. Très conservatrice et très simple. Holm-Bonferroni est uniformément plus puissante au même contrôle FWER — elle trie les p-valeurs par ordre croissant et les teste pas à pas contre α/m, α/(m-1), …, α/1. La première comparaison non significative bloque toutes les suivantes.

Le calculateur affiche les deux corrections côte à côte, pour que vous voyiez quelle comparaison survit selon quelle méthode. Règle pratique : pour plus de deux comparaisons, Bonferroni comme minimum, Holm par défaut, car elle est uniformément plus puissante.

Comment lire l’intervalle de confiance Wilson-Score ?

L’intervalle de confiance à 95 % autour du Δ-taux indique la plage dans laquelle se trouve la vraie différence entre les variantes A et B — avec 95 % de certitude sur des tests répétés. La méthode Wilson-Score est plus robuste que l’approximation normale naïve, surtout avec de petits échantillons ou des taux extrêmes (proches de 0 ou 1). Nous l’utilisons pour les deux proportions individuelles et combinons via une approximation de Newcombe sur la différence.

En pratique : si l’IC est entièrement au-dessus de zéro, la variante B est démontrablement meilleure. Si l’IC inclut zéro, l’effet est incertain — peut-être nul, peut-être positif, peut-être négatif. Pour un lift ponctuel de +2 pp avec IC [−0,5 pp, +4,5 pp], la bonne réponse est « continuer à collecter », pas « déploiement ». L’IC est la forme la plus honnête de la déclaration de significativité.

Qu’est-ce qui n’est délibérément pas construit ?

  • Pas de Multi-Armed Bandits / Thompson Sampling — domaine plateforme. Quiconque veut réallouer le trafic dynamiquement a besoin d’un système de test, pas d’un calculateur.
  • Pas de courbes de survie ou de moyennes de Poisson — evanmiller.org couvre bien ces tests long-tail ; nous restons sur des données de Bernoulli (deux proportions).
  • Pas de sortie « durée de test en jours » avec estimateur de trafic — cela dépend trop de la saisonnalité du trafic de votre produit pour être utile.
  • Pas de fonctionnalités de compte / sauvegarde — le permalien suffit. Quiconque a besoin de persister des tests devrait utiliser un véritable outil de gestion de tests.
  • Pas de CUPED / échantillonnage stratifié — cela appartient à la plateforme de test, pas à un calculateur.

Où trouver plus de détails ?

Dernière mise à jour :

Vous pourriez aussi aimer