Wie benutzt du dieses Tool?
- Varianten eingeben — Besucher und Konversionen pro Arm. Mindestens A + B, bis zu fünf Varianten möglich.
- Konfidenz 90/95/99 % wählen. Einseitig nur, wenn die Richtung der Hypothese vor dem Test feststand.
- Engine wählen — Frequentist liefert den p-Wert, Bayesian zeigt P(B>A), Peek-Safe (mSPRT) für mehrfach geprüfte Tests.
- Realismus-Gate-Warnungen ernst nehmen — bei n<100/Variante oder Konversionsrate 0 ist der Z-Test unzuverlässig.
- Sample-Size-Tab plant vor dem Test. Permalink kopiert die Inputs in den URL-Hash, kein Server-Roundtrip.
Was misst dieser A/B-Test-Signifikanz-Rechner?
Du wirfst zwei Conversion-Counts in den Rechner — Besucher und Konversionen pro Variante — und bekommst zurück, ob die Differenz statistisch signifikant ist. Aber „statistisch signifikant” reicht 2026 nicht mehr aus. Dieser Rechner liefert vier Sichten auf dieselben Daten:
- p-Wert (frequentistisch) — die klassische Antwort: wie unwahrscheinlich wäre dieses Ergebnis, wenn beide Varianten gleich gut wären? Ergebnis unter α=0,05 gilt als signifikant.
P(B > A)(bayesianisch) — die direktere Antwort: wie wahrscheinlich ist es, dass Variante B wirklich besser ist? Bei 96 % ist das Bauchgefühl klar, auch wenn p frequentistisch grenzwertig bleibt.- Always-Valid-p (mSPRT) — der Peek-Safe-Wert für alle, die in den laufenden Test mehrfach reinschauen. Niemals kleiner als der naive Z-Test, oft realistischer.
- Wilson-Score-Konfidenzintervall — die Bandbreite, in der die wahre Δ-Rate mit 95 % Wahrscheinlichkeit liegt. Eine CI, die die Null einschließt, ist die ehrlichere Form von „nicht signifikant”.
Bei drei oder mehr Varianten kommt automatisch eine Multi-Variant-Tabelle dazu — paarweise gegen die Control, mit Bonferroni- und Holm-Korrektur. Der Realismus-Gate-Banner warnt bei zu kleiner Stichprobe (n<100/Variante), niedriger Power, MDE über 50 % oder Sample-Ratio-Mismatch (χ²-Test auf 50/50-Split).
Frequentistisch oder bayesianisch — was nimmt man wann?
Frequentistisch und bayesianisch beantworten unterschiedliche Fragen. Wer den Unterschied versteht, trifft bessere Entscheidungen.
Der frequentistische p-Wert beantwortet: „Angenommen, beide Varianten wären gleich gut — wie unwahrscheinlich wäre dann das beobachtete Ergebnis (oder ein noch extremeres)?” Die Schwelle α (meist 5 %) ist die Bereitschaft, einen falsch-positiven Fund zu akzeptieren. Ein p von 0,03 sagt NICHT, dass Variante B mit 97 % Wahrscheinlichkeit besser ist — das ist eine sehr häufige Falschinterpretation.
Die bayesianische Posterior-Wahrscheinlichkeit P(B > A) beantwortet die Frage, die die meisten
Stakeholder eigentlich stellen: „Wie wahrscheinlich ist es, dass B besser ist?” Per Beta-Verteilung
und Monte-Carlo-Sampling (50.000 Samples, deterministisch geseedet) berechnen wir die Posterior aus
einem uniformen Beta(1,1)-Prior plus den beobachteten Daten. Die Zahl ist direkt interpretierbar.
In der Praxis: bei klar dominanter Variante geben beide Sichten dieselbe Antwort. Im Grenzfall
(p≈0,05) hilft Bayesianisch enorm: wenn P(B > A) bei 95 % liegt, ist die Lage klar; bei 75 % nicht.
Wer die Bayes-Sicht zusätzlich liest, vermeidet die Hauptfehlinterpretation des p-Werts.
Was ist Peek-Safe-mSPRT und warum brauche ich es?
Mehrfaches Schauen in einen laufenden A/B-Test ohne korrigierte Statistik ist einer der häufigsten Fehler im Produkt-Testing. Wer jeden Tag prüft und beim ersten p<0,05 stoppt, hat keine 5 % False-Positive-Rate, sondern 25–50 % — abhängig davon, wie oft geschaut wird.
Das Phänomen heißt „Sequential Testing Problem” und ist seit den 1940ern bekannt. Die moderne Lösung kommt aus dem Optimizely-Stats-Engine-Paper Johari et al., „Always Valid Inference”, arXiv:1512.04922: der mixture Sequential Probability Ratio Test (mSPRT) liefert einen always-valid-p-Wert, der unter JEDER Stopping-Regel gültig bleibt. Du darfst gucken, wann und wie oft du willst.
Der Trade-off: mSPRT ist konservativer als der naive Z-Test, du brauchst etwas mehr Daten für die gleiche Signifikanz. Aber dafür sind die Ergebnisse ehrlich. Wenn du den Toggle „Peek-Safe (mSPRT)” oben aktivierst, schaltet der Rechner um — und zeigt sowohl den always-valid-p als auch den naiven p-Wert nebeneinander, damit du den Unterschied siehst. Faustregel: hast du mehr als zweimal in den laufenden Test geschaut, nimm mSPRT.
Realismus-Gate — wann sollte ich gar nicht erst rechnen?
Statistik kann auch sehr genaue Zahlen für sehr falsche Modelle liefern. Vier Standardfälle, in denen die Mathematik nicht zur Realität passt — der Rechner blendet jeweils einen Warner ein:
- Stichprobe < 100/Variante: die Normal-Approximation des Z-Tests funktioniert nicht zuverlässig. Bei n=50 kann der angegebene p-Wert um Größenordnungen daneben liegen.
- Power < 80 %: ein nicht-signifikantes Ergebnis ist uninformativ, wenn die Stichprobe von vornherein zu klein für die hoffnungsvolle Effektgröße war. Sample-Size-Tab nutzen.
- MDE über 50 % relativ: wer einen +50 %-Lift sucht, sucht ein Wunder. Realistische A/B-Test-Effekte liegen bei +1 % bis +20 %, alles drüber ist verdächtig.
- Konversionsrate = 0: der Z-Test ist mathematisch undefiniert, wenn auf einer Variante keine Konversionen liegen. Der Wilson-Score-CI gibt eine obere Schranke; mehr Daten sammeln.
Plus: bei A vs B führt der Rechner einen χ²-Test auf 50/50-Split durch (kritischer Wert ≈ 10,83 bei α=0,001). Schlägt der an, hast du einen Sample-Ratio-Mismatch — Randomisierung prüfen, bevor du dem p-Wert glaubst.
Wann nutzt man Bonferroni und wann Holm-Korrektur?
Wer drei oder vier Varianten gleichzeitig testet, vergisst leicht, dass die familienweise Fehlerrate steigt. Bei drei Vergleichen mit α=0,05 hast du eine 14 %-Chance auf einen falsch-positiven Fund irgendwo in der Familie — selbst wenn alle Varianten in Wahrheit gleich gut wären.
Bonferroni-Korrektur teilt α durch die Anzahl der Vergleiche. Bei drei Tests also α=0,0167. Sehr
konservativ und sehr einfach. Holm-Bonferroni ist gleichmäßig stärker bei gleicher
FWER-Kontrolle — sortiert p-Werte aufsteigend und prüft sie schrittweise gegen α/m, α/(m-1),
…, α/1. Der erste nicht-signifikante Vergleich blockiert alle nachfolgenden.
Der Rechner zeigt beide Korrekturen direkt nebeneinander, damit du siehst, welcher Vergleich nach welcher Methode überlebt. Faustregel: bei mehr als zwei Vergleichen Bonferroni als Minimum, Holm als Default, weil es uniformly stronger ist.
Wie liest man das Wilson-Score-Konfidenzintervall?
Das 95 %-Konfidenzintervall um die Δ-Rate zeigt, in welcher Bandbreite die wahre Differenz zwischen Variante A und B liegt — mit 95 % Sicherheit über wiederholte Tests hinweg. Die Wilson-Score-Methode ist robuster als die naive Normal-Approximation, gerade bei kleinen Stichproben oder extremen Raten (nahe 0 oder 1). Wir nutzen sie für beide Einzel-Proportionen und kombinieren über eine Newcombe-Approximation auf die Differenz.
Praktisch heißt das: wenn das CI komplett über null liegt, ist die Variante B nachweisbar besser. Schließt das CI null ein, ist der Effekt unklar — vielleicht null, vielleicht positiv, vielleicht negativ. Bei einem Punkt-Lift von +2 pp mit CI [−0,5 pp, +4,5 pp] ist die richtige Antwort „weiter sammeln”, nicht „rollout”. Das CI ist die ehrlichere Form der Signifikanz-Aussage.
Was ist absichtlich nicht gebaut?
- Keine Multi-Armed-Bandits / Thompson-Sampling — Plattform-Domäne. Wer Traffic dynamisch reallokieren will, braucht ein Test-System, kein Kalkulator.
- Keine Survival-Curves oder Poisson-Means — evanmiller.org deckt diese Long-Tail-Tests gut ab; wir bleiben bei Bernoulli-Daten (zwei Proportionen).
- Kein „Test-Dauer in Tagen”-Output mit Traffic-Schätzer — der hängt zu sehr von der Traffic-Saisonalität deines Produkts ab, um nützlich zu sein.
- Keine Account-/Save-Features — Permalink reicht. Wer Tests persistieren will, sollte ein echtes Test-Management-Tool nutzen.
- Kein CUPED / Stratified Sampling — gehört in die Test-Plattform, nicht in einen Calculator.
Wo finde ich mehr Details?
- Wikipedia — Test auf Anteilswerte zweier unabhängiger Stichproben — die zugrunde liegende Z-Test-Mathematik
- Wikipedia — Beta-Verteilung — bayesianische Posterior für Bernoulli-Daten
- Johari et al., „Always Valid Inference” — das mSPRT-Originalpaper
- Wikipedia — Bonferroni-Korrektur — Multiple-Testing-Standard
- Holm-Bonferroni-Methode (EN) — Step-Down-Verfahren
- Sample Ratio Mismatch erklärt — der wichtigste Pre-Flight-Check vor jedem A/B-Read
Zuletzt aktualisiert: