¿Cómo usar esta herramienta?
- Introduzca las variantes — visitantes y conversiones por brazo. Mínimo A + B, hasta cinco variantes admitidas.
- Elija la confianza 90/95/99 %. Test unilateral solo si la dirección de la hipótesis estaba fijada antes del test.
- Seleccione el motor — Frecuentista da el p-valor, Bayesiano muestra P(B>A), Peek-Safe (mSPRT) gestiona los tests revisados varias veces.
- Atienda los avisos del filtro de realismo — con n<100/variante o conversión cero, el test Z no es fiable.
- La pestaña Tamaño de muestra planifica el test por adelantado. El permalink copia las entradas en el hash de la URL, sin ida y vuelta al servidor.
¿Qué mide esta calculadora de significancia de test A/B?
Usted introduce dos recuentos de conversión en la calculadora — visitantes y conversiones por variante — y obtiene a cambio si la diferencia es estadísticamente significativa. Pero «estadísticamente significativo» ya no basta en 2026. Esta calculadora ofrece cuatro vistas sobre los mismos datos:
- p-valor (frecuentista) — la respuesta clásica: ¿qué tan improbable sería este resultado si las dos variantes fueran equivalentes? Un resultado por debajo de α=0,05 cuenta como significativo.
P(B > A)(bayesiano) — la respuesta más directa: ¿qué probabilidad hay de que la variante B sea realmente mejor? Al 96 %, el diagnóstico es claro, incluso cuando p está en la frontera frecuentista.- p always-valid (mSPRT) — el valor Peek-Safe para quien haya revisado el test en curso varias veces. Nunca menor que el test Z naive, a menudo más realista.
- Intervalo de confianza Wilson-Score — la banda en la que se halla la verdadera Δ-tasa con 95 % de probabilidad. Un IC que incluye cero es la versión honesta de «no significativo».
Con tres o más variantes aparece automáticamente una tabla multivariante — por pares contra el control, con correcciones de Bonferroni y Holm. La banda del filtro de realismo avisa sobre muestras pequeñas (n<100/variante), baja potencia, MDE superior al 50 % o Sample-Ratio Mismatch (test del χ² sobre reparto 50/50).
¿Frecuentista o bayesiano — cuál usar y cuándo?
Frecuentista y bayesiano responden a preguntas distintas. Entender la distinción lleva a mejores decisiones.
El p-valor frecuentista responde a: «Asumiendo que las dos variantes fueran equivalentes — ¿qué tan improbable sería este resultado observado (o uno más extremo)?» El umbral α (habitualmente 5 %) es la tolerancia ante un falso positivo. Una p de 0,03 NO significa que la variante B sea mejor con 97 % de probabilidad — esa es una mala interpretación muy frecuente.
La probabilidad posterior bayesiana P(B > A) responde a la pregunta que la mayoría de
stakeholders realmente plantean: «¿Qué probabilidad hay de que B sea mejor?» Mediante una
distribución beta y muestreo Monte-Carlo (50.000 muestras, semilla determinista), calculamos la
posterior a partir de un prior uniforme Beta(1,1) más los datos observados. La cifra es
directamente interpretable.
En la práctica: cuando una variante domina con claridad, ambas vistas dan la misma respuesta. En
el caso límite (p≈0,05) el bayesiano ayuda muchísimo: si P(B > A) está al 95 %, el diagnóstico
es claro; al 75 % los datos son ambivalentes. Leer la vista bayesiana en paralelo le protege de
la principal mala interpretación del p-valor.
¿Qué es Peek-Safe mSPRT y por qué lo necesito?
Revisar reiteradamente un test A/B en curso sin estadística corregida es uno de los errores más frecuentes en testing de producto. Quien revisa todos los días y se detiene al primer p<0,05 no tiene un 5 % de falsos positivos, sino un 25–50 % — según con qué frecuencia mire.
El fenómeno se llama el «Sequential Testing Problem» y se conoce desde los años 1940. La solución moderna procede del paper de Optimizely Stats-Engine Johari et al., «Always Valid Inference», arXiv:1512.04922: el mixture Sequential Probability Ratio Test (mSPRT) entrega un p-valor always-valid que sigue siendo válido bajo CUALQUIER regla de parada. Puede mirar cuándo y cuantas veces quiera.
El compromiso: mSPRT es más conservador que el test Z naive, necesita algo más de datos para la misma significancia. Pero a cambio los resultados son honestos. Si activa el toggle «Peek-Safe (mSPRT)» arriba, la calculadora cambia — y muestra tanto el p always-valid como el p naive en paralelo, para que vea la diferencia. Regla práctica: si ha revisado el test en curso más de dos veces, use mSPRT.
Filtro de realismo — ¿cuándo es mejor no calcular?
La estadística puede producir cifras muy precisas para modelos muy equivocados. Cuatro casos estándar en los que la matemática no se ajusta a la realidad — la calculadora muestra un aviso en cada uno:
- Muestra < 100/variante: la aproximación normal del test Z no funciona de forma fiable. A n=50, el p-valor indicado puede estar equivocado en órdenes de magnitud.
- Potencia < 80 %: un resultado no significativo no es informativo si la muestra ya era demasiado pequeña para el tamaño de efecto esperado. Use la pestaña Tamaño de muestra.
- MDE superior al 50 % relativo: quien busca un lift de +50 % busca un milagro. Los efectos realistas de un test A/B se sitúan entre +1 % y +20 %, todo lo demás es sospechoso.
- Tasa de conversión = 0: el test Z es matemáticamente indefinido cuando una variante no tiene ninguna conversión. El IC Wilson-Score da una cota superior; recoja más datos.
Además: para A vs B, la calculadora ejecuta un test del χ² sobre el reparto 50/50 (valor crítico ≈ 10,83 a α=0,001). Si se dispara, tiene un Sample-Ratio Mismatch — revise la aleatorización antes de creerse el p-valor.
¿Cuándo usar Bonferroni y cuándo Holm?
Quien prueba tres o cuatro variantes a la vez olvida fácilmente que la tasa de error familiar sube. Con tres comparaciones a α=0,05 tiene un 14 % de probabilidad de un falso positivo en algún punto de la familia — incluso si todas las variantes fueran en realidad equivalentes.
La corrección de Bonferroni divide α entre el número de comparaciones. Para tres tests, α=0,0167.
Muy conservadora y muy sencilla. Holm-Bonferroni es uniformemente más potente con el mismo
control FWER — ordena los p-valores de forma ascendente y los comprueba paso a paso contra
α/m, α/(m-1), …, α/1. La primera comparación no significativa bloquea todas las
posteriores.
La calculadora muestra ambas correcciones en paralelo, para que vea qué comparación sobrevive con qué método. Regla práctica: con más de dos comparaciones, Bonferroni como mínimo, Holm por defecto, ya que es uniformemente más potente.
¿Cómo se lee el intervalo de confianza Wilson-Score?
El intervalo de confianza al 95 % sobre la Δ-tasa muestra la banda en la que se halla la verdadera diferencia entre las variantes A y B — con 95 % de certeza a lo largo de tests repetidos. El método Wilson-Score es más robusto que la aproximación normal naive, sobre todo con muestras pequeñas o tasas extremas (cercanas a 0 o 1). Lo usamos para las dos proporciones individuales y combinamos vía una aproximación de Newcombe sobre la diferencia.
En la práctica: si el IC está enteramente por encima de cero, la variante B es demostrablemente mejor. Si el IC incluye cero, el efecto es incierto — podría ser nulo, positivo o negativo. Para un lift puntual de +2 pp con IC [−0,5 pp, +4,5 pp] la respuesta correcta es «seguir recogiendo», no «desplegar». El IC es la forma más honesta de la declaración de significancia.
¿Qué no se ha construido a propósito?
- Sin Multi-Armed Bandits / Thompson Sampling — dominio de plataforma. Quien quiera reasignar tráfico dinámicamente necesita un sistema de testing, no una calculadora.
- Sin curvas de supervivencia ni medias de Poisson — evanmiller.org cubre bien estos tests long-tail; nosotros nos quedamos con datos de Bernoulli (dos proporciones).
- Sin salida «duración del test en días» con estimador de tráfico — depende demasiado de la estacionalidad del tráfico de su producto como para ser útil.
- Sin funciones de cuenta / guardado — el permalink basta. Quien necesite persistir tests debería usar una herramienta de gestión de tests real.
- Sin CUPED / muestreo estratificado — pertenece a la plataforma de testing, no a una calculadora.
¿Dónde encontrar más detalles?
- Wikipedia — Prueba de hipótesis — la matemática subyacente del test Z
- Wikipedia — Distribución beta — posterior bayesiana para datos de Bernoulli
- Johari et al., «Always Valid Inference» — el paper original mSPRT
- Wikipedia — Corrección de Bonferroni — estándar de tests múltiples
- Método de Holm-Bonferroni (EN) — procedimiento step-down
- Sample-Ratio Mismatch explicado — el pre-flight check más importante antes de cada lectura A/B
Última actualización: