Saltar al contenido
TEST CALCULATOR

Test A/B Significancia — Bayes y Peek-Safe mSPRT

Frecuentista + bayesiano en paralelo. Modo Peek-Safe para revisiones repetidas. Bonferroni y Holm para tests multivariante. Filtro de realismo contra conversiones a cero.

Runs locally in the browser — conversion data is never uploaded.

Variants

At least two variants. Up to five arms for multi-variant tests — Bonferroni and Holm corrections appear automatically.

A
Rate 8.00%
B
Rate 10.00%

Settings

Engine

Frequentist and Bayesian appear side by side; Peek-Safe switches to an always-valid p-value when you have looked at the test multiple times.

Confidence

Two-sided is the default. Use one-sided only if you fixed the direction of the hypothesis in advance.

Demos

Click-to-load examples — each demo includes a teaching takeaway.

A vs B result

Not significant
p-value
0.1181
P(B > A)
94.0%
Δ rate
2.00 pp
Lift (relative)
25.0%
95% CI on Δ rate
[-0.53 pp, 4.52 pp]

Copy permalink

Permalink carries inputs in the URL hash — no server, no account, no data leakage.

Cómo funciona

  1. 01

    Text oder Code einfügen

    Füge deinen Inhalt in das Eingabefeld ein oder tippe direkt.

  2. 02

    Automatische Verarbeitung

    Das Tool verarbeitet den Inhalt sofort und zeigt das Ergebnis.

  3. 03

    Ergebnis kopieren

    Kopiere das Ergebnis mit einem Klick in die Zwischenablage.

Privacidad

Alle Berechnungen laufen direkt in deinem Browser. Keine Daten werden auf Server übertragen.

Una calculadora de test A/B que muestra el p-valor frecuentista Y la probabilidad posterior bayesiana `P(B > A)` en paralelo — con un modo Peek-Safe para tests que usted ha revisado varias veces. El filtro de realismo avisa cuando la muestra es muy pequeña, el MDE supera el 50 % o aparece un Sample-Ratio Mismatch.

01 — Cómo usarlo

¿Cómo usar esta herramienta?

  1. Introduzca las variantes — visitantes y conversiones por brazo. Mínimo A + B, hasta cinco variantes admitidas.
  2. Elija la confianza 90/95/99 %. Test unilateral solo si la dirección de la hipótesis estaba fijada antes del test.
  3. Seleccione el motor — Frecuentista da el p-valor, Bayesiano muestra P(B>A), Peek-Safe (mSPRT) gestiona los tests revisados varias veces.
  4. Atienda los avisos del filtro de realismo — con n<100/variante o conversión cero, el test Z no es fiable.
  5. La pestaña Tamaño de muestra planifica el test por adelantado. El permalink copia las entradas en el hash de la URL, sin ida y vuelta al servidor.

¿Qué mide esta calculadora de significancia de test A/B?

Usted introduce dos recuentos de conversión en la calculadora — visitantes y conversiones por variante — y obtiene a cambio si la diferencia es estadísticamente significativa. Pero «estadísticamente significativo» ya no basta en 2026. Esta calculadora ofrece cuatro vistas sobre los mismos datos:

  • p-valor (frecuentista) — la respuesta clásica: ¿qué tan improbable sería este resultado si las dos variantes fueran equivalentes? Un resultado por debajo de α=0,05 cuenta como significativo.
  • P(B > A) (bayesiano) — la respuesta más directa: ¿qué probabilidad hay de que la variante B sea realmente mejor? Al 96 %, el diagnóstico es claro, incluso cuando p está en la frontera frecuentista.
  • p always-valid (mSPRT) — el valor Peek-Safe para quien haya revisado el test en curso varias veces. Nunca menor que el test Z naive, a menudo más realista.
  • Intervalo de confianza Wilson-Score — la banda en la que se halla la verdadera Δ-tasa con 95 % de probabilidad. Un IC que incluye cero es la versión honesta de «no significativo».

Con tres o más variantes aparece automáticamente una tabla multivariante — por pares contra el control, con correcciones de Bonferroni y Holm. La banda del filtro de realismo avisa sobre muestras pequeñas (n<100/variante), baja potencia, MDE superior al 50 % o Sample-Ratio Mismatch (test del χ² sobre reparto 50/50).

¿Frecuentista o bayesiano — cuál usar y cuándo?

Frecuentista y bayesiano responden a preguntas distintas. Entender la distinción lleva a mejores decisiones.

El p-valor frecuentista responde a: «Asumiendo que las dos variantes fueran equivalentes — ¿qué tan improbable sería este resultado observado (o uno más extremo)?» El umbral α (habitualmente 5 %) es la tolerancia ante un falso positivo. Una p de 0,03 NO significa que la variante B sea mejor con 97 % de probabilidad — esa es una mala interpretación muy frecuente.

La probabilidad posterior bayesiana P(B > A) responde a la pregunta que la mayoría de stakeholders realmente plantean: «¿Qué probabilidad hay de que B sea mejor?» Mediante una distribución beta y muestreo Monte-Carlo (50.000 muestras, semilla determinista), calculamos la posterior a partir de un prior uniforme Beta(1,1) más los datos observados. La cifra es directamente interpretable.

En la práctica: cuando una variante domina con claridad, ambas vistas dan la misma respuesta. En el caso límite (p≈0,05) el bayesiano ayuda muchísimo: si P(B > A) está al 95 %, el diagnóstico es claro; al 75 % los datos son ambivalentes. Leer la vista bayesiana en paralelo le protege de la principal mala interpretación del p-valor.

¿Qué es Peek-Safe mSPRT y por qué lo necesito?

Revisar reiteradamente un test A/B en curso sin estadística corregida es uno de los errores más frecuentes en testing de producto. Quien revisa todos los días y se detiene al primer p<0,05 no tiene un 5 % de falsos positivos, sino un 25–50 % — según con qué frecuencia mire.

El fenómeno se llama el «Sequential Testing Problem» y se conoce desde los años 1940. La solución moderna procede del paper de Optimizely Stats-Engine Johari et al., «Always Valid Inference», arXiv:1512.04922: el mixture Sequential Probability Ratio Test (mSPRT) entrega un p-valor always-valid que sigue siendo válido bajo CUALQUIER regla de parada. Puede mirar cuándo y cuantas veces quiera.

El compromiso: mSPRT es más conservador que el test Z naive, necesita algo más de datos para la misma significancia. Pero a cambio los resultados son honestos. Si activa el toggle «Peek-Safe (mSPRT)» arriba, la calculadora cambia — y muestra tanto el p always-valid como el p naive en paralelo, para que vea la diferencia. Regla práctica: si ha revisado el test en curso más de dos veces, use mSPRT.

Filtro de realismo — ¿cuándo es mejor no calcular?

La estadística puede producir cifras muy precisas para modelos muy equivocados. Cuatro casos estándar en los que la matemática no se ajusta a la realidad — la calculadora muestra un aviso en cada uno:

  1. Muestra < 100/variante: la aproximación normal del test Z no funciona de forma fiable. A n=50, el p-valor indicado puede estar equivocado en órdenes de magnitud.
  2. Potencia < 80 %: un resultado no significativo no es informativo si la muestra ya era demasiado pequeña para el tamaño de efecto esperado. Use la pestaña Tamaño de muestra.
  3. MDE superior al 50 % relativo: quien busca un lift de +50 % busca un milagro. Los efectos realistas de un test A/B se sitúan entre +1 % y +20 %, todo lo demás es sospechoso.
  4. Tasa de conversión = 0: el test Z es matemáticamente indefinido cuando una variante no tiene ninguna conversión. El IC Wilson-Score da una cota superior; recoja más datos.

Además: para A vs B, la calculadora ejecuta un test del χ² sobre el reparto 50/50 (valor crítico ≈ 10,83 a α=0,001). Si se dispara, tiene un Sample-Ratio Mismatch — revise la aleatorización antes de creerse el p-valor.

¿Cuándo usar Bonferroni y cuándo Holm?

Quien prueba tres o cuatro variantes a la vez olvida fácilmente que la tasa de error familiar sube. Con tres comparaciones a α=0,05 tiene un 14 % de probabilidad de un falso positivo en algún punto de la familia — incluso si todas las variantes fueran en realidad equivalentes.

La corrección de Bonferroni divide α entre el número de comparaciones. Para tres tests, α=0,0167. Muy conservadora y muy sencilla. Holm-Bonferroni es uniformemente más potente con el mismo control FWER — ordena los p-valores de forma ascendente y los comprueba paso a paso contra α/m, α/(m-1), …, α/1. La primera comparación no significativa bloquea todas las posteriores.

La calculadora muestra ambas correcciones en paralelo, para que vea qué comparación sobrevive con qué método. Regla práctica: con más de dos comparaciones, Bonferroni como mínimo, Holm por defecto, ya que es uniformemente más potente.

¿Cómo se lee el intervalo de confianza Wilson-Score?

El intervalo de confianza al 95 % sobre la Δ-tasa muestra la banda en la que se halla la verdadera diferencia entre las variantes A y B — con 95 % de certeza a lo largo de tests repetidos. El método Wilson-Score es más robusto que la aproximación normal naive, sobre todo con muestras pequeñas o tasas extremas (cercanas a 0 o 1). Lo usamos para las dos proporciones individuales y combinamos vía una aproximación de Newcombe sobre la diferencia.

En la práctica: si el IC está enteramente por encima de cero, la variante B es demostrablemente mejor. Si el IC incluye cero, el efecto es incierto — podría ser nulo, positivo o negativo. Para un lift puntual de +2 pp con IC [−0,5 pp, +4,5 pp] la respuesta correcta es «seguir recogiendo», no «desplegar». El IC es la forma más honesta de la declaración de significancia.

¿Qué no se ha construido a propósito?

  • Sin Multi-Armed Bandits / Thompson Sampling — dominio de plataforma. Quien quiera reasignar tráfico dinámicamente necesita un sistema de testing, no una calculadora.
  • Sin curvas de supervivencia ni medias de Poisson — evanmiller.org cubre bien estos tests long-tail; nosotros nos quedamos con datos de Bernoulli (dos proporciones).
  • Sin salida «duración del test en días» con estimador de tráfico — depende demasiado de la estacionalidad del tráfico de su producto como para ser útil.
  • Sin funciones de cuenta / guardado — el permalink basta. Quien necesite persistir tests debería usar una herramienta de gestión de tests real.
  • Sin CUPED / muestreo estratificado — pertenece a la plataforma de testing, no a una calculadora.

¿Dónde encontrar más detalles?

Última actualización:

También le puede interesar