- El nivel de significación (α) fija el riesgo máximo de error tipo I y delimita la región crítica.
- Compara p con α: si p ≤ α, se rechaza H0; p no es P(H0|datos) ni mide tamaño del efecto.
- Alfa y confianza se complementan (1 − α) y la potencia (1 − β) exige tamaño muestral y menor variabilidad.
Si trabajas con datos, tarde o temprano te topas con dos ideas que mandan: el nivel de significación (alfa) y el valor p. Son las reglas del juego cuando ponemos a prueba una hipótesis con datos muestrales. Aquí vas a encontrar una explicación clara, con ejemplos numéricos reales y comparaciones visuales, para que entiendas qué significan, cómo se relacionan y cómo se usan para decidir si un resultado es “lo suficientemente raro” como para rechazar la hipótesis nula.
Más allá de las definiciones, es clave ver dónde “cortamos” la distribución, qué pasa en pruebas de una cola y de dos colas, cómo encaja todo con los intervalos de confianza (1 − alfa), y por qué la potencia (1 − beta) y el tamaño muestral importan tanto como el propio alfa. También desmentiremos errores típicos de interpretación del p-valor y añadiremos ejemplos prácticos como un test t de 1 muestra y un caso cotidiano estilo “jugador con racha sospechosa”.
Qué es el nivel de significación (alfa)
El nivel de significación, denotado por α (alfa), es la probabilidad máxima que aceptamos de cometer un error de tipo I: rechazar H0 siendo H0 verdadera. En otras palabras, fijamos por adelantado el riesgo de “falso positivo” que estamos dispuestos a tolerar (típicamente 0,10; 0,05; 0,01).
Dicho de forma operativa, alfa traza la frontera entre lo que consideramos razonable bajo la hipótesis nula y lo que nos parece tan excepcional que justificaría rechazarla. Esa frontera se materializa en la llamada región crítica, y su ubicación depende de la distribución del estadístico de contraste y del tipo de prueba (unilateral o bilateral).
Región crítica y “lo suficientemente inusual”
Para decidir, necesitamos tres piezas: el supuesto de que H0 es cierta, el nivel α elegido a priori, y el estadístico de la muestra. Con eso definimos la región crítica, es decir, las zonas de la distribución donde un resultado sería tan poco probable bajo H0 que lo consideraríamos evidencia para rechazarla.
En una prueba de dos colas con α = 0,05, se reparten dos áreas en los extremos de la distribución: 2,5% a la izquierda y 2,5% a la derecha. Si H0 fuese verdad, solo esperaríamos caer ahí un 5% de las veces debido al muestreo aleatorio. Con α = 0,01, cada cola tendría el 0,5%. Esas áreas equivalen a la probabilidad total que marcamos como “evento demasiado raro bajo H0”.
Valores p: qué son y cómo se comparan con alfa
El valor p es la probabilidad, asumiendo H0 verdadera, de observar un resultado al menos tan extremo como el de nuestra muestra. Si p ≤ α, rechazamos H0; si p > α, no la rechazamos. Ojo: el valor p no es la probabilidad de que H0 sea verdadera, ni tampoco la probabilidad de que el resultado “sea correcto”. Es simplemente cuán extremo es el dato observando H0.
De forma gráfica, el valor p es el área (en una o en dos colas, según corresponda) desde el estadístico observado hacia los extremos de la distribución bajo H0. Así visualizas cuánto “empuja” la muestra contra la hipótesis nula y si cruza o no la línea que impone alfa.
Ejemplo práctico: prueba t de 1 muestra sobre un coste medio
Imagina que el año pasado el coste medio de energía era 260 y quieres comprobar si este año ha cambiado. Extraes una muestra de datos y obtienes una media muestral de 330,6. Planteas las hipótesis: H0: μ = 260; H1: μ ≠ 260 (prueba bilateral). Bajo H0, el estadístico sigue la distribución t apropiada para tu tamaño muestral y varianza estimada.
La distancia entre la media muestral y el valor nulo es de 70,6 unidades (330,6 − 260). Si llevas esa distancia a la escala del estadístico t, obtienes un valor t observado y, a partir de ahí, su p-valor en dos colas. En este ejemplo concreto, el cálculo arroja un p ≈ 0,03112, lo que significa que, si la media poblacional fuese 260, solo un 3,1% de las veces verías una media tan o más extrema que 330,6 en muestreo repetido.
Comparación con α: con α = 0,05, p = 0,03112 ≤ 0,05, por tanto rechazamos H0 (el resultado es estadísticamente significativo). Con α = 0,01, p = 0,03112 > 0,01, no rechazaríamos H0. Si te quedas con α = 0,05, la inferencia razonable es que el coste promedio este año es mayor que 260 (si la evidencia y el sentido del problema apoyan una unilateral derecha, aún más contundente sería el resultado).
Este ejemplo ilustra por qué debes fijar alfa antes de ver los datos: evita “mover la portería” para forzar significación. La regla de decisión debe ser previa y transparente.
Relación entre nivel de significación y nivel de confianza
Alfa y el nivel de confianza son complementarios: nivel de confianza = 1 − α. Si eliges α = 0,05, un intervalo de confianza bilateral asociado suele ser del 95%; si α = 0,01, hablamos de 99%. Ambos conceptos se apoyan en el mismo marco probabilístico, y la zona central (1 − α) de la distribución corresponde a valores plausibles bajo H0.
Por eso, al aumentar la exigencia (α más pequeño), el intervalo de confianza se ensancha y la región crítica se estrecha. Es la otra cara de la misma moneda: cuanto menos riesgo de falso positivo toleres, más contundente ha de ser la evidencia para cruzar el umbral de rechazo.
Distribuciones y valores críticos: t de Student y normal Zα
Los valores críticos dependen de la distribución del estadístico. Con muestras pequeñas y varianza poblacional desconocida, es habitual usar t de Student. Por ejemplo, con 16 grados de libertad en una prueba bilateral al 5%, el valor crítico es aproximadamente 2,11991 en cada cola: si |t| excede ese umbral, caes en la región de rechazo.
En la distribución normal estándar, para una prueba unilateral al 5%, el punto de corte clásico es Zα = 1,645. A la derecha de ese valor hay un 5% del área; si tu estadístico z se sitúa por encima, consideras la evidencia suficiente para rechazar H0 en esa dirección. En dos colas al 5%, los cortes se sitúan simétricamente cerca de ±1,96.
Pruebas de una cola vs dos colas
La decisión entre prueba unilateral (solo buscas evidencias en una dirección) y bilateral (cualquier desviación) afecta cómo se reparte α en la distribución. En una bilateral, el área α se divide en dos colas; en una unilateral, se concentra entera en una sola cola, lo que implica una frontera más cercana al centro en la dirección testada.
La elección debe justificarse por el contexto científico y no por conveniencia post hoc. Si el mecanismo teórico solo permite aumentos, o un “efecto perjudicial” solo puede ir en un sentido, una unilateral puede ser más eficiente para detectar ese patrón, siempre que esté preespecificada.
¿Qué alfa escoger? Usos comunes, “universales” y precisión
En la práctica se emplean con frecuencia α = 0,10; 0,05; 0,01. 0,05 y 0,01 son populares por tradición y por controlar mejor los falsos positivos, mientras que 0,10 ofrece más sensibilidad en escenarios exploratorios. En ámbitos como gestión de riesgo financiero, es habitual hablar de percentiles (por ejemplo, percentil 1% o 5%), lo que conecta con métricas como el VaR.
Cuanto más pequeño es α, menos errores tipo I toleras, pero más exigente debe ser la evidencia: la región crítica se estrecha, y a menudo necesitarás más tamaño muestral para mantener la potencia. Ajusta α según el coste relativo de los falsos positivos frente a los falsos negativos en tu problema.
Alfa a priori y valor p: decisiones arbitrarias y no arbitrarias
La elección de α es a priori (arbitraria en el sentido de que la fija el investigador antes de ver los datos). El valor p, en cambio, es “no arbitrario” porque emerge del resultado observado y de la distribución asumida. Ambos dependen del modelo estadístico; por eso es clave especificar la prueba y las suposiciones antes del análisis.
En términos de gobernanza analítica, conviene registrar el α elegido y el plan de análisis. Así evitas tentaciones como “seleccionar” el umbral que más convenga tras ver el p-valor, manteniendo la integridad del estudio.
Ejemplo cotidiano: la racha sospechosa del jugador
Supón que alguien gana una y otra vez en un juego de azar supuestamente justo. Si fijas α = 0,001 (0,1%) como umbral de sospecha, estás diciendo: si una racha concreta fuese tan improbable como 1 entre 1000 o menos bajo “no hace trampas”, rechazaré la H0 y concluiré que hay trampa. Es un criterio muy conservador, adecuado cuando un falso positivo sería especialmente costoso.
Este ejemplo muestra que el nivel de significación es una regla de decisión probabilística. Incluso si H0 es cierta, a veces observarás rachas inusuales por puro azar: eso ocurrirá con probabilidad α, precisamente la tasa de error tipo I que aceptaste.
Error tipo I, error tipo II y potencia (1 − β)
El error tipo I es declarar diferencia cuando no la hay (rechazar H0 verdadera) y su probabilidad es α. El error tipo II es no detectar una diferencia real (aceptar H0 cuando es falsa), con probabilidad β. La potencia de la prueba es 1 − β, es decir, la capacidad para detectar un efecto existente.
En control de calidad se habla del riesgo del fabricante (tipo I) y del riesgo del comprador (tipo II). Elegir α y la potencia objetivo (a menudo 80–90%) exige pensar en qué error es más grave en tu contexto: no es lo mismo un falso negativo en una prueba de contaminación alimentaria que un falso positivo en una verificación preliminar.
¿Cómo aumentar la potencia sin inflar α? Tres palancas: incrementar el tamaño muestral, reducir la variabilidad (muestras más homogéneas, mejores instrumentos de medida) y emplear pruebas más sensibles al efecto de interés (por ejemplo, contrastes unilaterales justificados o diseños experimentales eficientes).
Un ejemplo habitual de planificación: “¿Qué tamaño muestral necesito para detectar una diferencia mayor de 2 unidades con potencia del 80% al 95% de confianza, asumiendo una desviación típica conocida de 3?”. Este tipo de preguntas se resuelve con cálculo de potencia antes de recolectar datos; herramientas como MINITAB u otros paquetes estadísticos ayudan a fijar n con criterios explícitos.
Cómo leer un resultado: más allá de “significativo” o “no significativo”
Un resultado “estadísticamente significativo” simplemente indica que el estadístico cayó en región crítica con el α establecido o que el p-valor no supera ese umbral. No implica magnitud del efecto, relevancia práctica ni veracidad absoluta del hallazgo; recuerda que siempre existe la tasa de error α.
Es buena práctica acompañar la decisión con un intervalo de confianza y, cuando sea posible, con una evaluación de la magnitud del efecto (tamaño del efecto). Así aportas contexto sobre la importancia real del resultado y no solo sobre su rareza bajo H0.
Errores comunes al interpretar el p-valor
• Confundir p con P(H0 | datos): el p-valor no es la probabilidad de que la hipótesis nula sea verdadera. Es P(datos tan extremos | H0 verdadera). Cambiar el orden condicional es la falacia clásica.
• Creer que p cercano a 0 mide el tamaño del efecto: p refleja compatibilidad con H0, no cuán grande es la diferencia. Un efecto minúsculo puede dar p pequeño con n enorme, y un efecto relevante puede no ser significativo con n escaso.
• Ajustar α a posteriori o elegir bilateral/unilateral después de ver los datos: eso sesga la inferencia. Define todo antes y evita el p-hacking.
Volviendo a la visualización: alfa frente a p
Si pintas la distribución teórica bajo H0 y marcas las colas con área α (según una o dos colas), la comparación es directa: ver si tu estadístico cae dentro o fuera de esa franja crítica. Paralelamente, el p-valor sería el área más allá del estadístico observado hacia el extremo (o extremos). Esta visión gráfica ayuda a interiorizar por qué p ≤ α implica rechazo de H0.
En el ejemplo bilateral con α = 0,05, la región crítica total suma 5% (2,5% por cola); si repites el muestreo innumerables veces con H0 verdadera, en torno a un 5% de las medias muestrales caerán en esas franjas por puro azar. Eso no es un fallo del experimento, es la naturaleza del muestreo.
De la teoría a la práctica: checklist rápido
Antes de recoger datos: fija hipótesis (H0/H1), tipo de prueba (una o dos colas), α, distribución/estadístico, y objetivo de potencia (1 − β). Define el tamaño muestral con un análisis de potencia si el estudio lo permite.
Después de analizar: reporta estadístico, p-valor, α y un intervalo de confianza. Interpreta el resultado a la luz del contexto, el coste de los errores tipo I/II y la magnitud del efecto; no te quedes solo con la etiqueta “significativo”.
Pequeño compendio de números útiles
• Bilateral 5%: región crítica 2,5% por cola; en normal estándar, cortes aproximados ±1,96. En t con 16 grados de libertad, corte ≈ ±2,11991.
• Unilateral 5%: corte en normal estándar Zα ≈ 1,645 (derecha) o −1,645 (izquierda). Con α = 0,01 bilateral, los cortes en normal son aproximadamente ±2,576.
El nivel de significación marca el riesgo de falso positivo aceptado, el p-valor cuantifica cuán extremo es tu dato bajo H0 y la potencia mide la capacidad de detectar efectos reales; al combinarlos con el tipo de prueba y la distribución adecuada, puedes tomar decisiones estadísticas coherentes y transparentes que se ajustan al coste de los errores y a la pregunta científica que de verdad importa.