Wie berechnet man die Signifikanz eines A/B-Tests?

Du berechnest die Signifikanz, indem du den [Zwei-Proportionen-Z-Test](https://de.wikipedia.org/wiki/Test_auf_Anteilswerte_zweier_unabh%C3%A4ngiger_Stichproben) ansetzt: aus Konversionsraten der beiden Varianten und der gepoolten Varianz unter der Nullhypothese fällt eine Z-Statistik, daraus per Normalverteilung der p-Wert. Liegt p unter α (typisch 0,05), gilt der Unterschied als statistisch signifikant. Dieser Rechner liefert den p-Wert in Millisekunden und zeigt parallel die bayesianische Wahrscheinlichkeit, dass Variante B besser ist — und ein Wilson-Score-Konfidenzintervall um die Δ-Rate.

Was ist der Unterschied zwischen Frequentist und Bayesian beim A/B-Test?

Frequentistisch fragst du — wie unwahrscheinlich wäre dieses Ergebnis, wenn beide Varianten gleich gut wären? Bayesianisch fragst du — wie wahrscheinlich ist es, dass Variante B besser ist? Der p-Wert sagt nichts direkt über die Wahrscheinlichkeit deiner Hypothese; die [Posterior-Wahrscheinlichkeit P(B>A)](https://de.wikipedia.org/wiki/Beta-Verteilung) tut es. Wir zeigen beide nebeneinander, damit du gegen Falschinterpretationen abgesichert bist. Bei kleinen Stichproben ist Bayesianisch oft die ehrlichere Antwort, weil das frequentistische Ergebnis dann durch die Normal-Approximation rauscht.

Was bedeutet Peek-Safe-Modus mit mSPRT?

Peek-Safe bedeutet: du darfst während des laufenden Tests mehrfach reinschauen, ohne dass die False-Positive-Rate aufgeblasen wird. Mehrfaches Schauen plus Stopp beim ersten p<0,05 ist eine der häufigsten Fehlerquellen im A/B-Testing. Der naive Z-Test ist nur einmalig gültig — wer mehrfach schaut, kriegt deutlich mehr falsch-positive Ergebnisse als die nominalen 5 %. [Always-Valid Inference (Johari et al., arXiv:1512.04922)](https://arxiv.org/abs/1512.04922) liefert mit dem mixture Sequential Probability Ratio Test einen p-Wert, der unter jeder Stopping-Regel gültig bleibt. Aktiviere den Toggle, wenn du den Test schon mehrfach angesehen hast.

Wie groß muss meine Stichprobe für einen A/B-Test sein?

Die nötige Stichproben-Größe hängt von vier Größen ab: Baseline-Rate, MDE (Minimum Detectable Effect), Power (typisch 80 %) und Signifikanz-Niveau α (typisch 5 %). Bei Baseline 5 %, relativer MDE +20 %, Power 80 % und α=0,05 brauchst du ungefähr 3.840 Besucher pro Variante. Der Sample-Size-Tab dieses Rechners macht die Mathematik für dich; Branchen-Benchmarks (E-Commerce, B2B-SaaS, Newsletter) sind als Voreinstellung hinterlegt. Faustregel: bei Baseline-Raten unter 1 % brauchst du oft sechs- bis siebenstellige Visitor-Zahlen pro Arm.

Was ist Bonferroni-Korrektur bei mehreren A/B-Varianten?

Wer drei oder vier Varianten gleichzeitig gegen die Control vergleicht, hat ein Multiple-Testing-Problem. Bei drei Vergleichen mit α=0,05 würde die familienweise Fehlerrate ohne Korrektur auf rund 14 % steigen. [Bonferroni](https://de.wikipedia.org/wiki/Bonferroni-Korrektur) korrigiert konservativ, indem es α durch die Anzahl der Vergleiche teilt — bei drei Tests also α=0,0167 pro Vergleich. Die [Holm-Bonferroni-Methode](https://en.wikipedia.org/wiki/Holm%E2%80%93Bonferroni_method) ist gleichmäßig stärker bei gleicher FWER-Kontrolle. Der Rechner zeigt beide Korrekturen direkt unter dem Multi-Variant-Output an.

Was ist ein Sample-Ratio-Mismatch (SRM)?

Sample-Ratio-Mismatch heißt: dein Traffic-Split ist nicht 50/50, obwohl er das sein sollte. Wenn die Randomisierung sauber läuft, sollten beide Arme eines A/B-Tests ungefähr gleich viele Besucher bekommen — minimale Abweichungen sind normal, große Differenzen ein Alarmsignal. SRM tritt häufig auf, wenn ein Bug die Bucket-Zuweisung verzerrt, ein Caching-Layer den Cookie für Bots dropt oder eine Conversion-Pixel-Race-Condition Visitors aus dem Tracking fallen lässt. Der Realismus-Gate-Check führt einen χ²-Test auf 50/50-Split bei α=0,001 durch und warnt, sobald dieser kippt. SRM-Tests vorher anhalten und Randomisierung prüfen — Pflicht laut [SRM-Cheat-Sheet auf SeerInteractive](https://www.seerinteractive.com/insights/sample-ratio-mismatch-srm-explanation).

Verlassen meine Conversion-Daten den Browser?

Nein. Conversion-Zahlen sind business-sensitiv — Konkurrenten würden gerne wissen, wie viele Käufer du pro Million Besucher umsetzt. Dieser Rechner schickt keinen einzigen Request an einen Server. Du kannst es prüfen — F12 öffnen, Tab Netzwerk wählen, Filter auf Alle, Zahlen eingeben, kein POST, kein WebSocket, nichts. Das bayesianische Sampling läuft mit einem deterministisch geseedeten Pseudo-Zufallszahlen-Generator, ohne globalen Zufall und ohne Zeitstempel. Permalink-Sharing nutzt URL-Hashes, niemals Server-Storage. Auch der Hash wird nur lokal gebaut, nicht ausgewertet.

Was tun, wenn der p-Wert grenzwertig (p≈0,05) ist?

Bei p≈0,05 ist mehr Stichprobe sammeln meistens die richtige Antwort, statt verfrüht zu stoppen. Der p-Wert hat keine eindeutige Schwelle — 0,049 und 0,051 sind statistisch praktisch identisch. Schau parallel auf den bayesianischen Output: liegt `P(B > A)` über 95 %, hast du einen klaren Bayes-Verdacht; liegt sie nur bei 80 %, sind die Daten ambivalent. Wenn du mehrfach in den Test geschaut hast, schalte unbedingt auf Peek-Safe um, sonst ist der Z-Test nicht mehr gültig. Praktisch: weiterlaufen lassen bis zur Vorab-berechneten Stichproben-Größe; nie aufhören, weil die Zahl gerade unter 0,05 fiel.

A/B-Test-Signifikanz — Bayes & Peek-Safe-mSPRT

Was misst dieser A/B-Test-Signifikanz-Rechner?

Du wirfst zwei Conversion-Counts in den Rechner — Besucher und Konversionen pro Variante — und bekommst zurück, ob die Differenz statistisch signifikant ist. Aber „statistisch signifikant” reicht 2026 nicht mehr aus. Dieser Rechner liefert vier Sichten auf dieselben Daten:

p-Wert (frequentistisch) — die klassische Antwort: wie unwahrscheinlich wäre dieses Ergebnis, wenn beide Varianten gleich gut wären? Ergebnis unter α=0,05 gilt als signifikant.
P(B > A) (bayesianisch) — die direktere Antwort: wie wahrscheinlich ist es, dass Variante B wirklich besser ist? Bei 96 % ist das Bauchgefühl klar, auch wenn p frequentistisch grenzwertig bleibt.
Always-Valid-p (mSPRT) — der Peek-Safe-Wert für alle, die in den laufenden Test mehrfach reinschauen. Niemals kleiner als der naive Z-Test, oft realistischer.
Wilson-Score-Konfidenzintervall — die Bandbreite, in der die wahre Δ-Rate mit 95 % Wahrscheinlichkeit liegt. Eine CI, die die Null einschließt, ist die ehrlichere Form von „nicht signifikant”.

Bei drei oder mehr Varianten kommt automatisch eine Multi-Variant-Tabelle dazu — paarweise gegen die Control, mit Bonferroni- und Holm-Korrektur. Der Realismus-Gate-Banner warnt bei zu kleiner Stichprobe (n<100/Variante), niedriger Power, MDE über 50 % oder Sample-Ratio-Mismatch (χ²-Test auf 50/50-Split).

Frequentistisch oder bayesianisch — was nimmt man wann?

Frequentistisch und bayesianisch beantworten unterschiedliche Fragen. Wer den Unterschied versteht, trifft bessere Entscheidungen.

Der frequentistische p-Wert beantwortet: „Angenommen, beide Varianten wären gleich gut — wie unwahrscheinlich wäre dann das beobachtete Ergebnis (oder ein noch extremeres)?” Die Schwelle α (meist 5 %) ist die Bereitschaft, einen falsch-positiven Fund zu akzeptieren. Ein p von 0,03 sagt NICHT, dass Variante B mit 97 % Wahrscheinlichkeit besser ist — das ist eine sehr häufige Falschinterpretation.

Die bayesianische Posterior-Wahrscheinlichkeit P(B > A) beantwortet die Frage, die die meisten Stakeholder eigentlich stellen: „Wie wahrscheinlich ist es, dass B besser ist?” Per Beta-Verteilung und Monte-Carlo-Sampling (50.000 Samples, deterministisch geseedet) berechnen wir die Posterior aus einem uniformen Beta(1,1)-Prior plus den beobachteten Daten. Die Zahl ist direkt interpretierbar.

In der Praxis: bei klar dominanter Variante geben beide Sichten dieselbe Antwort. Im Grenzfall (p≈0,05) hilft Bayesianisch enorm: wenn P(B > A) bei 95 % liegt, ist die Lage klar; bei 75 % nicht. Wer die Bayes-Sicht zusätzlich liest, vermeidet die Hauptfehlinterpretation des p-Werts.

Was ist Peek-Safe-mSPRT und warum brauche ich es?

Mehrfaches Schauen in einen laufenden A/B-Test ohne korrigierte Statistik ist einer der häufigsten Fehler im Produkt-Testing. Wer jeden Tag prüft und beim ersten p<0,05 stoppt, hat keine 5 % False-Positive-Rate, sondern 25–50 % — abhängig davon, wie oft geschaut wird.

Das Phänomen heißt „Sequential Testing Problem” und ist seit den 1940ern bekannt. Die moderne Lösung kommt aus dem Optimizely-Stats-Engine-Paper Johari et al., „Always Valid Inference”, arXiv:1512.04922: der mixture Sequential Probability Ratio Test (mSPRT) liefert einen always-valid-p-Wert, der unter JEDER Stopping-Regel gültig bleibt. Du darfst gucken, wann und wie oft du willst.

Der Trade-off: mSPRT ist konservativer als der naive Z-Test, du brauchst etwas mehr Daten für die gleiche Signifikanz. Aber dafür sind die Ergebnisse ehrlich. Wenn du den Toggle „Peek-Safe (mSPRT)” oben aktivierst, schaltet der Rechner um — und zeigt sowohl den always-valid-p als auch den naiven p-Wert nebeneinander, damit du den Unterschied siehst. Faustregel: hast du mehr als zweimal in den laufenden Test geschaut, nimm mSPRT.

Realismus-Gate — wann sollte ich gar nicht erst rechnen?

Statistik kann auch sehr genaue Zahlen für sehr falsche Modelle liefern. Vier Standardfälle, in denen die Mathematik nicht zur Realität passt — der Rechner blendet jeweils einen Warner ein:

Stichprobe < 100/Variante: die Normal-Approximation des Z-Tests funktioniert nicht zuverlässig. Bei n=50 kann der angegebene p-Wert um Größenordnungen daneben liegen.
Power < 80 %: ein nicht-signifikantes Ergebnis ist uninformativ, wenn die Stichprobe von vornherein zu klein für die hoffnungsvolle Effektgröße war. Sample-Size-Tab nutzen.
MDE über 50 % relativ: wer einen +50 %-Lift sucht, sucht ein Wunder. Realistische A/B-Test-Effekte liegen bei +1 % bis +20 %, alles drüber ist verdächtig.
Konversionsrate = 0: der Z-Test ist mathematisch undefiniert, wenn auf einer Variante keine Konversionen liegen. Der Wilson-Score-CI gibt eine obere Schranke; mehr Daten sammeln.

Plus: bei A vs B führt der Rechner einen χ²-Test auf 50/50-Split durch (kritischer Wert ≈ 10,83 bei α=0,001). Schlägt der an, hast du einen Sample-Ratio-Mismatch — Randomisierung prüfen, bevor du dem p-Wert glaubst.

Wann nutzt man Bonferroni und wann Holm-Korrektur?

Wer drei oder vier Varianten gleichzeitig testet, vergisst leicht, dass die familienweise Fehlerrate steigt. Bei drei Vergleichen mit α=0,05 hast du eine 14 %-Chance auf einen falsch-positiven Fund irgendwo in der Familie — selbst wenn alle Varianten in Wahrheit gleich gut wären.

Bonferroni-Korrektur teilt α durch die Anzahl der Vergleiche. Bei drei Tests also α=0,0167. Sehr konservativ und sehr einfach. Holm-Bonferroni ist gleichmäßig stärker bei gleicher FWER-Kontrolle — sortiert p-Werte aufsteigend und prüft sie schrittweise gegen α/m, α/(m-1), …, α/1. Der erste nicht-signifikante Vergleich blockiert alle nachfolgenden.

Der Rechner zeigt beide Korrekturen direkt nebeneinander, damit du siehst, welcher Vergleich nach welcher Methode überlebt. Faustregel: bei mehr als zwei Vergleichen Bonferroni als Minimum, Holm als Default, weil es uniformly stronger ist.

Wie liest man das Wilson-Score-Konfidenzintervall?

Das 95 %-Konfidenzintervall um die Δ-Rate zeigt, in welcher Bandbreite die wahre Differenz zwischen Variante A und B liegt — mit 95 % Sicherheit über wiederholte Tests hinweg. Die Wilson-Score-Methode ist robuster als die naive Normal-Approximation, gerade bei kleinen Stichproben oder extremen Raten (nahe 0 oder 1). Wir nutzen sie für beide Einzel-Proportionen und kombinieren über eine Newcombe-Approximation auf die Differenz.

Praktisch heißt das: wenn das CI komplett über null liegt, ist die Variante B nachweisbar besser. Schließt das CI null ein, ist der Effekt unklar — vielleicht null, vielleicht positiv, vielleicht negativ. Bei einem Punkt-Lift von +2 pp mit CI [−0,5 pp, +4,5 pp] ist die richtige Antwort „weiter sammeln”, nicht „rollout”. Das CI ist die ehrlichere Form der Signifikanz-Aussage.

Was ist absichtlich nicht gebaut?

Keine Multi-Armed-Bandits / Thompson-Sampling — Plattform-Domäne. Wer Traffic dynamisch reallokieren will, braucht ein Test-System, kein Kalkulator.
Keine Survival-Curves oder Poisson-Means — evanmiller.org deckt diese Long-Tail-Tests gut ab; wir bleiben bei Bernoulli-Daten (zwei Proportionen).
Kein „Test-Dauer in Tagen”-Output mit Traffic-Schätzer — der hängt zu sehr von der Traffic-Saisonalität deines Produkts ab, um nützlich zu sein.
Keine Account-/Save-Features — Permalink reicht. Wer Tests persistieren will, sollte ein echtes Test-Management-Tool nutzen.
Kein CUPED / Stratified Sampling — gehört in die Test-Plattform, nicht in einen Calculator.

Wo finde ich mehr Details?

Wikipedia — Test auf Anteilswerte zweier unabhängiger Stichproben — die zugrunde liegende Z-Test-Mathematik
Wikipedia — Beta-Verteilung — bayesianische Posterior für Bernoulli-Daten
Johari et al., „Always Valid Inference” — das mSPRT-Originalpaper
Wikipedia — Bonferroni-Korrektur — Multiple-Testing-Standard
Holm-Bonferroni-Methode (EN) — Step-Down-Verfahren
Sample Ratio Mismatch erklärt — der wichtigste Pre-Flight-Check vor jedem A/B-Read

A/B-Test-Signifikanz — Bayes & Peek-Safe-mSPRT

Varianten

Einstellungen

Demos

Auswertung A vs B

Permalink kopieren

So funktioniert es

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Datenschutz

Wie benutzt du dieses Tool?