¿Cómo se calcula la significancia de un test A/B?

Se calcula la significancia aplicando un [test Z para dos proporciones](https://es.wikipedia.org/wiki/Prueba_de_hip%C3%B3tesis): de las tasas de conversión de las dos variantes y la varianza agrupada bajo la hipótesis nula se obtiene una estadística Z, y de ahí el p-valor mediante la distribución normal. Si p es inferior a α (típicamente 0,05), la diferencia es estadísticamente significativa. Esta calculadora entrega el p-valor en milisegundos y muestra en paralelo la probabilidad bayesiana de que la variante B sea mejor — además de un intervalo de confianza Wilson-Score sobre la Δ-tasa.

¿Cuál es la diferencia entre frecuentista y bayesiano en test A/B?

El frecuentista pregunta — ¿qué tan improbable sería este resultado si las dos variantes fueran equivalentes? El bayesiano pregunta — ¿qué probabilidad hay de que la variante B sea mejor? El p-valor no dice nada directo sobre la probabilidad de su hipótesis; la [probabilidad posterior P(B>A) con distribución beta](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_beta) sí lo hace. Mostramos ambas en paralelo para protegerle de malas interpretaciones. Con muestras pequeñas, la vista bayesiana suele ser la respuesta más honesta porque la aproximación normal del frecuentista se vuelve ruidosa.

¿Qué significa el modo Peek-Safe con mSPRT?

Peek-Safe significa que usted puede revisar el test varias veces durante su ejecución sin inflar la tasa de falsos positivos. Revisar continuamente y detenerse al primer p<0,05 es uno de los errores más comunes en testing A/B. El test Z naive solo es válido una vez — revisar varias veces produce muchos más falsos positivos que el 5 % nominal. [Always-Valid Inference (Johari et al., arXiv:1512.04922)](https://arxiv.org/abs/1512.04922) aporta con el mixture Sequential Probability Ratio Test un p-valor que sigue siendo válido bajo cualquier regla de parada. Active el toggle si ha revisado el test más de dos veces.

¿Qué tamaño de muestra necesita un test A/B?

El tamaño de muestra requerido depende de cuatro valores: tasa base, MDE (Minimum Detectable Effect), potencia (típicamente 80 %) y nivel de significancia α (típicamente 5 %). Con tasa base del 5 %, MDE relativo del +20 %, potencia 80 % y α=0,05, necesita aproximadamente 3.840 visitantes por variante. La pestaña Tamaño de muestra de esta calculadora hace los cálculos por usted; tiene preajustes para benchmarks sectoriales (e-commerce, B2B SaaS, newsletter). Regla práctica: con tasas base por debajo del 1 %, suele necesitar visitantes de seis o siete cifras por brazo.

¿Qué es la corrección de Bonferroni en tests A/B multivariante?

Probar tres o cuatro variantes a la vez contra el control plantea un problema de tests múltiples. Con tres comparaciones a α=0,05, la tasa de error familiar sube a cerca del 14 % si no corrige. [La corrección de Bonferroni](https://es.wikipedia.org/wiki/Correcci%C3%B3n_de_Bonferroni) corrige de forma conservadora dividiendo α entre el número de comparaciones — para tres tests, α=0,0167 por comparación. [El método de Holm-Bonferroni](https://en.wikipedia.org/wiki/Holm%E2%80%93Bonferroni_method) es uniformemente más potente con el mismo control FWER. La calculadora muestra ambas correcciones directamente bajo la salida multivariante.

¿Qué es un Sample-Ratio Mismatch (SRM)?

Sample-Ratio Mismatch significa que su reparto de tráfico no es 50/50 cuando debería serlo. Con una aleatorización limpia, los dos brazos de un test A/B deberían recibir aproximadamente el mismo número de visitantes — desviaciones pequeñas son normales, diferencias grandes son una alarma. El SRM aparece frecuentemente cuando un bug sesga la asignación de bucket, una capa de caché elimina la cookie para bots o una race condition del pixel de conversión saca a visitantes del tracking. El filtro de realismo ejecuta un test del χ² sobre el reparto 50/50 a α=0,001 y avisa en cuanto este falla. Detenga el test, corrija la aleatorización y vuelva a leer — obligatorio según el [SRM Cheat Sheet de Seer Interactive](https://www.seerinteractive.com/insights/sample-ratio-mismatch-srm-explanation).

¿Mis datos de conversión salen del navegador?

No. Las cifras de conversión son sensibles para su negocio — a sus competidores les encantaría saber cuántos compradores convierte por millón de visitantes. Esta calculadora no envía ni una sola petición a un servidor. Puede verificarlo — abra F12, vaya a la pestaña Red, filtre por Todo, introduzca sus cifras, ningún POST, ningún WebSocket, nada. El muestreo bayesiano usa un generador pseudoaleatorio con semilla determinista, sin aleatoriedad global ni marca temporal. El uso compartido por permalink va por el hash de la URL, nunca por almacenamiento en servidor. El hash se construye y lee íntegramente en el lado del cliente.

¿Qué hago si el p-valor está en el límite (p ≈ 0,05)?

Cuando p está cerca de 0,05, recoger más muestra es casi siempre la respuesta correcta antes que detenerse antes de tiempo. El p-valor no tiene un umbral nítido — 0,049 y 0,051 son estadísticamente indistinguibles. Mire en paralelo la salida bayesiana: si `P(B > A)` supera el 95 %, el diagnóstico es claro; al 80 %, los datos son ambivalentes. Si ha revisado el test varias veces, pase inmediatamente a Peek-Safe — el test Z naive ya no es válido. En la práctica: deje correr hasta el tamaño de muestra precalculado; no se detenga nunca porque la cifra haya bajado de 0,05.

Significancia Test A/B — Bayes y Peek-Safe mSPRT

¿Qué mide esta calculadora de significancia de test A/B?

Usted introduce dos recuentos de conversión en la calculadora — visitantes y conversiones por variante — y obtiene a cambio si la diferencia es estadísticamente significativa. Pero «estadísticamente significativo» ya no basta en 2026. Esta calculadora ofrece cuatro vistas sobre los mismos datos:

p-valor (frecuentista) — la respuesta clásica: ¿qué tan improbable sería este resultado si las dos variantes fueran equivalentes? Un resultado por debajo de α=0,05 cuenta como significativo.
P(B > A) (bayesiano) — la respuesta más directa: ¿qué probabilidad hay de que la variante B sea realmente mejor? Al 96 %, el diagnóstico es claro, incluso cuando p está en la frontera frecuentista.
p always-valid (mSPRT) — el valor Peek-Safe para quien haya revisado el test en curso varias veces. Nunca menor que el test Z naive, a menudo más realista.
Intervalo de confianza Wilson-Score — la banda en la que se halla la verdadera Δ-tasa con 95 % de probabilidad. Un IC que incluye cero es la versión honesta de «no significativo».

Con tres o más variantes aparece automáticamente una tabla multivariante — por pares contra el control, con correcciones de Bonferroni y Holm. La banda del filtro de realismo avisa sobre muestras pequeñas (n<100/variante), baja potencia, MDE superior al 50 % o Sample-Ratio Mismatch (test del χ² sobre reparto 50/50).

¿Frecuentista o bayesiano — cuál usar y cuándo?

Frecuentista y bayesiano responden a preguntas distintas. Entender la distinción lleva a mejores decisiones.

El p-valor frecuentista responde a: «Asumiendo que las dos variantes fueran equivalentes — ¿qué tan improbable sería este resultado observado (o uno más extremo)?» El umbral α (habitualmente 5 %) es la tolerancia ante un falso positivo. Una p de 0,03 NO significa que la variante B sea mejor con 97 % de probabilidad — esa es una mala interpretación muy frecuente.

La probabilidad posterior bayesiana P(B > A) responde a la pregunta que la mayoría de stakeholders realmente plantean: «¿Qué probabilidad hay de que B sea mejor?» Mediante una distribución beta y muestreo Monte-Carlo (50.000 muestras, semilla determinista), calculamos la posterior a partir de un prior uniforme Beta(1,1) más los datos observados. La cifra es directamente interpretable.

En la práctica: cuando una variante domina con claridad, ambas vistas dan la misma respuesta. En el caso límite (p≈0,05) el bayesiano ayuda muchísimo: si P(B > A) está al 95 %, el diagnóstico es claro; al 75 % los datos son ambivalentes. Leer la vista bayesiana en paralelo le protege de la principal mala interpretación del p-valor.

¿Qué es Peek-Safe mSPRT y por qué lo necesito?

Revisar reiteradamente un test A/B en curso sin estadística corregida es uno de los errores más frecuentes en testing de producto. Quien revisa todos los días y se detiene al primer p<0,05 no tiene un 5 % de falsos positivos, sino un 25–50 % — según con qué frecuencia mire.

El fenómeno se llama el «Sequential Testing Problem» y se conoce desde los años 1940. La solución moderna procede del paper de Optimizely Stats-Engine Johari et al., «Always Valid Inference», arXiv:1512.04922: el mixture Sequential Probability Ratio Test (mSPRT) entrega un p-valor always-valid que sigue siendo válido bajo CUALQUIER regla de parada. Puede mirar cuándo y cuantas veces quiera.

El compromiso: mSPRT es más conservador que el test Z naive, necesita algo más de datos para la misma significancia. Pero a cambio los resultados son honestos. Si activa el toggle «Peek-Safe (mSPRT)» arriba, la calculadora cambia — y muestra tanto el p always-valid como el p naive en paralelo, para que vea la diferencia. Regla práctica: si ha revisado el test en curso más de dos veces, use mSPRT.

Filtro de realismo — ¿cuándo es mejor no calcular?

La estadística puede producir cifras muy precisas para modelos muy equivocados. Cuatro casos estándar en los que la matemática no se ajusta a la realidad — la calculadora muestra un aviso en cada uno:

Muestra < 100/variante: la aproximación normal del test Z no funciona de forma fiable. A n=50, el p-valor indicado puede estar equivocado en órdenes de magnitud.
Potencia < 80 %: un resultado no significativo no es informativo si la muestra ya era demasiado pequeña para el tamaño de efecto esperado. Use la pestaña Tamaño de muestra.
MDE superior al 50 % relativo: quien busca un lift de +50 % busca un milagro. Los efectos realistas de un test A/B se sitúan entre +1 % y +20 %, todo lo demás es sospechoso.
Tasa de conversión = 0: el test Z es matemáticamente indefinido cuando una variante no tiene ninguna conversión. El IC Wilson-Score da una cota superior; recoja más datos.

Además: para A vs B, la calculadora ejecuta un test del χ² sobre el reparto 50/50 (valor crítico ≈ 10,83 a α=0,001). Si se dispara, tiene un Sample-Ratio Mismatch — revise la aleatorización antes de creerse el p-valor.

¿Cuándo usar Bonferroni y cuándo Holm?

Quien prueba tres o cuatro variantes a la vez olvida fácilmente que la tasa de error familiar sube. Con tres comparaciones a α=0,05 tiene un 14 % de probabilidad de un falso positivo en algún punto de la familia — incluso si todas las variantes fueran en realidad equivalentes.

La corrección de Bonferroni divide α entre el número de comparaciones. Para tres tests, α=0,0167. Muy conservadora y muy sencilla. Holm-Bonferroni es uniformemente más potente con el mismo control FWER — ordena los p-valores de forma ascendente y los comprueba paso a paso contra α/m, α/(m-1), …, α/1. La primera comparación no significativa bloquea todas las posteriores.

La calculadora muestra ambas correcciones en paralelo, para que vea qué comparación sobrevive con qué método. Regla práctica: con más de dos comparaciones, Bonferroni como mínimo, Holm por defecto, ya que es uniformemente más potente.

¿Cómo se lee el intervalo de confianza Wilson-Score?

El intervalo de confianza al 95 % sobre la Δ-tasa muestra la banda en la que se halla la verdadera diferencia entre las variantes A y B — con 95 % de certeza a lo largo de tests repetidos. El método Wilson-Score es más robusto que la aproximación normal naive, sobre todo con muestras pequeñas o tasas extremas (cercanas a 0 o 1). Lo usamos para las dos proporciones individuales y combinamos vía una aproximación de Newcombe sobre la diferencia.

En la práctica: si el IC está enteramente por encima de cero, la variante B es demostrablemente mejor. Si el IC incluye cero, el efecto es incierto — podría ser nulo, positivo o negativo. Para un lift puntual de +2 pp con IC [−0,5 pp, +4,5 pp] la respuesta correcta es «seguir recogiendo», no «desplegar». El IC es la forma más honesta de la declaración de significancia.

¿Qué no se ha construido a propósito?

Sin Multi-Armed Bandits / Thompson Sampling — dominio de plataforma. Quien quiera reasignar tráfico dinámicamente necesita un sistema de testing, no una calculadora.
Sin curvas de supervivencia ni medias de Poisson — evanmiller.org cubre bien estos tests long-tail; nosotros nos quedamos con datos de Bernoulli (dos proporciones).
Sin salida «duración del test en días» con estimador de tráfico — depende demasiado de la estacionalidad del tráfico de su producto como para ser útil.
Sin funciones de cuenta / guardado — el permalink basta. Quien necesite persistir tests debería usar una herramienta de gestión de tests real.
Sin CUPED / muestreo estratificado — pertenece a la plataforma de testing, no a una calculadora.

¿Dónde encontrar más detalles?

Wikipedia — Prueba de hipótesis — la matemática subyacente del test Z
Wikipedia — Distribución beta — posterior bayesiana para datos de Bernoulli
Johari et al., «Always Valid Inference» — el paper original mSPRT
Wikipedia — Corrección de Bonferroni — estándar de tests múltiples
Método de Holm-Bonferroni (EN) — procedimiento step-down
Sample-Ratio Mismatch explicado — el pre-flight check más importante antes de cada lectura A/B

Test A/B Significancia — Bayes y Peek-Safe mSPRT

Variants

Settings

Demos

A vs B result

Copy permalink

Cómo funciona

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Privacidad

¿Cómo usar esta herramienta?