Zum Inhalt springen
TEST-RECHNER

A/B-Test-Signifikanz — Bayes & Peek-Safe-mSPRT

Frequentistisch + bayesianisch parallel. Peek-Safe für mehrfaches Schauen. Bonferroni und Holm für Multi-Variant-Tests. Realismus-Gate gegen Null-Conversion-Schwindel.

Läuft lokal im Browser — Conversion-Daten werden niemals hochgeladen.

Varianten

Mindestens zwei Varianten. Für Multi-Variant-Tests bis zu fünf Arme — Bonferroni- und Holm-Korrektur erscheinen automatisch.

A
Rate 8.00%
B
Rate 10.00%

Einstellungen

Engine

Frequentist + Bayes zeigen wir parallel; Peek-Safe schaltet auf einen immer gültigen p-Wert um, wenn du den Test mehrfach angesehen hast.

Konfidenz

Zweiseitig ist der Default. Einseitig nur, wenn du im Voraus die Richtung der Hypothese festgelegt hast.

Demos

Beispiele zum Laden — jede Demo trägt die Lehre direkt im Anschluss.

Auswertung A vs B

Nicht signifikant
p-Wert
0.1181
P(B > A)
94.0%
Δ-Rate
2.00 pp
Lift (relativ)
25.0%
95 %-KI auf Δ-Rate
[-0.53 pp, 4.52 pp]

Permalink kopieren

Permalink trägt die Inputs im URL-Hash — kein Server, kein Account, kein Datenleck.

So funktioniert es

  1. 01

    Text oder Code einfügen

    Füge deinen Inhalt in das Eingabefeld ein oder tippe direkt.

  2. 02

    Automatische Verarbeitung

    Das Tool verarbeitet den Inhalt sofort und zeigt das Ergebnis.

  3. 03

    Ergebnis kopieren

    Kopiere das Ergebnis mit einem Klick in die Zwischenablage.

Datenschutz

Alle Berechnungen laufen direkt in deinem Browser. Keine Daten werden auf Server übertragen.

Ein A/B-Test-Rechner, der den frequentistischen p-Wert UND die bayesianische Posterior-Wahrscheinlichkeit `P(B > A)` parallel zeigt — und einen Peek-Safe-Modus schaltet, wenn du den Test mehrfach angesehen hast. Realismus-Gate warnt bei zu kleiner Stichprobe, MDE über 50 % oder Sample-Ratio-Mismatch. Bei Multi-Variant-Tests siehst du Bonferroni-Korrektur und Holm-Step-Down direkt nebeneinander. Conversion-Daten sind business-sensitiv und verlassen den Browser nicht.

01 — Anleitung

Wie benutzt du dieses Tool?

  1. Varianten eingeben — Besucher und Konversionen pro Arm. Mindestens A + B, bis zu fünf Varianten möglich.
  2. Konfidenz 90/95/99 % wählen. Einseitig nur, wenn die Richtung der Hypothese vor dem Test feststand.
  3. Engine wählen — Frequentist liefert den p-Wert, Bayesian zeigt P(B>A), Peek-Safe (mSPRT) für mehrfach geprüfte Tests.
  4. Realismus-Gate-Warnungen ernst nehmen — bei n<100/Variante oder Konversionsrate 0 ist der Z-Test unzuverlässig.
  5. Sample-Size-Tab plant vor dem Test. Permalink kopiert die Inputs in den URL-Hash, kein Server-Roundtrip.

Was misst dieser A/B-Test-Signifikanz-Rechner?

Du wirfst zwei Conversion-Counts in den Rechner — Besucher und Konversionen pro Variante — und bekommst zurück, ob die Differenz statistisch signifikant ist. Aber „statistisch signifikant” reicht 2026 nicht mehr aus. Dieser Rechner liefert vier Sichten auf dieselben Daten:

  • p-Wert (frequentistisch) — die klassische Antwort: wie unwahrscheinlich wäre dieses Ergebnis, wenn beide Varianten gleich gut wären? Ergebnis unter α=0,05 gilt als signifikant.
  • P(B > A) (bayesianisch) — die direktere Antwort: wie wahrscheinlich ist es, dass Variante B wirklich besser ist? Bei 96 % ist das Bauchgefühl klar, auch wenn p frequentistisch grenzwertig bleibt.
  • Always-Valid-p (mSPRT) — der Peek-Safe-Wert für alle, die in den laufenden Test mehrfach reinschauen. Niemals kleiner als der naive Z-Test, oft realistischer.
  • Wilson-Score-Konfidenzintervall — die Bandbreite, in der die wahre Δ-Rate mit 95 % Wahrscheinlichkeit liegt. Eine CI, die die Null einschließt, ist die ehrlichere Form von „nicht signifikant”.

Bei drei oder mehr Varianten kommt automatisch eine Multi-Variant-Tabelle dazu — paarweise gegen die Control, mit Bonferroni- und Holm-Korrektur. Der Realismus-Gate-Banner warnt bei zu kleiner Stichprobe (n<100/Variante), niedriger Power, MDE über 50 % oder Sample-Ratio-Mismatch (χ²-Test auf 50/50-Split).

Frequentistisch oder bayesianisch — was nimmt man wann?

Frequentistisch und bayesianisch beantworten unterschiedliche Fragen. Wer den Unterschied versteht, trifft bessere Entscheidungen.

Der frequentistische p-Wert beantwortet: „Angenommen, beide Varianten wären gleich gut — wie unwahrscheinlich wäre dann das beobachtete Ergebnis (oder ein noch extremeres)?” Die Schwelle α (meist 5 %) ist die Bereitschaft, einen falsch-positiven Fund zu akzeptieren. Ein p von 0,03 sagt NICHT, dass Variante B mit 97 % Wahrscheinlichkeit besser ist — das ist eine sehr häufige Falschinterpretation.

Die bayesianische Posterior-Wahrscheinlichkeit P(B > A) beantwortet die Frage, die die meisten Stakeholder eigentlich stellen: „Wie wahrscheinlich ist es, dass B besser ist?” Per Beta-Verteilung und Monte-Carlo-Sampling (50.000 Samples, deterministisch geseedet) berechnen wir die Posterior aus einem uniformen Beta(1,1)-Prior plus den beobachteten Daten. Die Zahl ist direkt interpretierbar.

In der Praxis: bei klar dominanter Variante geben beide Sichten dieselbe Antwort. Im Grenzfall (p≈0,05) hilft Bayesianisch enorm: wenn P(B > A) bei 95 % liegt, ist die Lage klar; bei 75 % nicht. Wer die Bayes-Sicht zusätzlich liest, vermeidet die Hauptfehlinterpretation des p-Werts.

Was ist Peek-Safe-mSPRT und warum brauche ich es?

Mehrfaches Schauen in einen laufenden A/B-Test ohne korrigierte Statistik ist einer der häufigsten Fehler im Produkt-Testing. Wer jeden Tag prüft und beim ersten p<0,05 stoppt, hat keine 5 % False-Positive-Rate, sondern 25–50 % — abhängig davon, wie oft geschaut wird.

Das Phänomen heißt „Sequential Testing Problem” und ist seit den 1940ern bekannt. Die moderne Lösung kommt aus dem Optimizely-Stats-Engine-Paper Johari et al., „Always Valid Inference”, arXiv:1512.04922: der mixture Sequential Probability Ratio Test (mSPRT) liefert einen always-valid-p-Wert, der unter JEDER Stopping-Regel gültig bleibt. Du darfst gucken, wann und wie oft du willst.

Der Trade-off: mSPRT ist konservativer als der naive Z-Test, du brauchst etwas mehr Daten für die gleiche Signifikanz. Aber dafür sind die Ergebnisse ehrlich. Wenn du den Toggle „Peek-Safe (mSPRT)” oben aktivierst, schaltet der Rechner um — und zeigt sowohl den always-valid-p als auch den naiven p-Wert nebeneinander, damit du den Unterschied siehst. Faustregel: hast du mehr als zweimal in den laufenden Test geschaut, nimm mSPRT.

Realismus-Gate — wann sollte ich gar nicht erst rechnen?

Statistik kann auch sehr genaue Zahlen für sehr falsche Modelle liefern. Vier Standardfälle, in denen die Mathematik nicht zur Realität passt — der Rechner blendet jeweils einen Warner ein:

  1. Stichprobe < 100/Variante: die Normal-Approximation des Z-Tests funktioniert nicht zuverlässig. Bei n=50 kann der angegebene p-Wert um Größenordnungen daneben liegen.
  2. Power < 80 %: ein nicht-signifikantes Ergebnis ist uninformativ, wenn die Stichprobe von vornherein zu klein für die hoffnungsvolle Effektgröße war. Sample-Size-Tab nutzen.
  3. MDE über 50 % relativ: wer einen +50 %-Lift sucht, sucht ein Wunder. Realistische A/B-Test-Effekte liegen bei +1 % bis +20 %, alles drüber ist verdächtig.
  4. Konversionsrate = 0: der Z-Test ist mathematisch undefiniert, wenn auf einer Variante keine Konversionen liegen. Der Wilson-Score-CI gibt eine obere Schranke; mehr Daten sammeln.

Plus: bei A vs B führt der Rechner einen χ²-Test auf 50/50-Split durch (kritischer Wert ≈ 10,83 bei α=0,001). Schlägt der an, hast du einen Sample-Ratio-Mismatch — Randomisierung prüfen, bevor du dem p-Wert glaubst.

Wann nutzt man Bonferroni und wann Holm-Korrektur?

Wer drei oder vier Varianten gleichzeitig testet, vergisst leicht, dass die familienweise Fehlerrate steigt. Bei drei Vergleichen mit α=0,05 hast du eine 14 %-Chance auf einen falsch-positiven Fund irgendwo in der Familie — selbst wenn alle Varianten in Wahrheit gleich gut wären.

Bonferroni-Korrektur teilt α durch die Anzahl der Vergleiche. Bei drei Tests also α=0,0167. Sehr konservativ und sehr einfach. Holm-Bonferroni ist gleichmäßig stärker bei gleicher FWER-Kontrolle — sortiert p-Werte aufsteigend und prüft sie schrittweise gegen α/m, α/(m-1), …, α/1. Der erste nicht-signifikante Vergleich blockiert alle nachfolgenden.

Der Rechner zeigt beide Korrekturen direkt nebeneinander, damit du siehst, welcher Vergleich nach welcher Methode überlebt. Faustregel: bei mehr als zwei Vergleichen Bonferroni als Minimum, Holm als Default, weil es uniformly stronger ist.

Wie liest man das Wilson-Score-Konfidenzintervall?

Das 95 %-Konfidenzintervall um die Δ-Rate zeigt, in welcher Bandbreite die wahre Differenz zwischen Variante A und B liegt — mit 95 % Sicherheit über wiederholte Tests hinweg. Die Wilson-Score-Methode ist robuster als die naive Normal-Approximation, gerade bei kleinen Stichproben oder extremen Raten (nahe 0 oder 1). Wir nutzen sie für beide Einzel-Proportionen und kombinieren über eine Newcombe-Approximation auf die Differenz.

Praktisch heißt das: wenn das CI komplett über null liegt, ist die Variante B nachweisbar besser. Schließt das CI null ein, ist der Effekt unklar — vielleicht null, vielleicht positiv, vielleicht negativ. Bei einem Punkt-Lift von +2 pp mit CI [−0,5 pp, +4,5 pp] ist die richtige Antwort „weiter sammeln”, nicht „rollout”. Das CI ist die ehrlichere Form der Signifikanz-Aussage.

Was ist absichtlich nicht gebaut?

  • Keine Multi-Armed-Bandits / Thompson-Sampling — Plattform-Domäne. Wer Traffic dynamisch reallokieren will, braucht ein Test-System, kein Kalkulator.
  • Keine Survival-Curves oder Poisson-Means — evanmiller.org deckt diese Long-Tail-Tests gut ab; wir bleiben bei Bernoulli-Daten (zwei Proportionen).
  • Kein „Test-Dauer in Tagen”-Output mit Traffic-Schätzer — der hängt zu sehr von der Traffic-Saisonalität deines Produkts ab, um nützlich zu sein.
  • Keine Account-/Save-Features — Permalink reicht. Wer Tests persistieren will, sollte ein echtes Test-Management-Tool nutzen.
  • Kein CUPED / Stratified Sampling — gehört in die Test-Plattform, nicht in einen Calculator.

Wo finde ich mehr Details?

Zuletzt aktualisiert:

Das könnte dir auch gefallen