- Con 1–3 (linealidad en parámetros, media condicional nula/exogeneidad y no multicolinealidad exacta), OLS es lineal e insesgado.
- Con 1–5 (añadiendo homocedasticidad y no autocorrelación), OLS es ELIO/MELI: el de menor varianza entre estimadores lineales e insesgados.
- Si fallan 4–5, OLS sigue insesgado pero pierde eficiencia; si fallan 1–3, aparece sesgo y se invalida la interpretación.
Cuando hablamos del Teorema de Gauss-Markov entramos en el corazón de la regresión lineal clásica: bajo ciertos supuestos, el estimador por Mínimos Cuadrados Ordinarios ofrece la mejor combinación posible de linealidad, insesgadez y mínima varianza dentro de su familia. Dicho de forma llana, si cumplimos las condiciones, OLS hace tan bien como se puede el trabajo de estimar relaciones lineales.
Históricamente, la formulación se asocia a Carl Friedrich Gauss y Andréi Márkov, que establecieron el conjunto de supuestos bajo los cuales el estimador OLS se convierte en el llamado ELIO (Estimador Lineal Insesgado Óptimo). A lo largo de este artículo repasaremos esos supuestos, qué garantizan, en qué situaciones suelen fallar y qué implican para el análisis empírico, con especial atención a la práctica habitual en datos de corte transversal y series temporales.
Qué afirma el Teorema de Gauss-Markov
El teorema sostiene que, bajo un conjunto de cinco supuestos clásicos, el estimador por Mínimos Cuadrados Ordinarios es lineal, insesgado y eficiente entre todos los estimadores lineales e insesgados. En la literatura en español, esta propiedad se resume como ELIO, y también se conoce como MELI (Mejores Estimadores Lineales e Insesgados). En términos anglosajones, equivale al conocido BLUE (Best Linear Unbiased Estimator).
Más en detalle: si se cumplen los supuestos 1, 2 y 3, el estimador OLS es lineal e insesgado. Cuando además se satisfacen los supuestos 4 y 5, obtenemos la parte de “óptimo”: entre todos los estimadores lineales e insesgados, OLS es el de menor varianza. Eso significa que, sin introducir sesgo, no existe otro estimador lineal que produzca estimaciones más precisas en términos de dispersión.
Desde el punto de vista práctico, los coeficientes estimados por OLS —los famosos “B”— tienen la propiedad de minimizar el error cuadrático dentro de la familia de estimadores lineales e insesgados y, en la práctica, se resuelven con métodos numéricos como la descomposición de Cholesky. Dicho de otra forma, la recta o hiperplano de regresión muestral que obtenemos se aproxima tanto como es razonable a la función de regresión poblacional, siempre bajo los supuestos que comentaremos enseguida.
Conviene matizar una idea de muestra finita vs. asintótica: con los tres primeros supuestos aseguramos insesgadez, pero para resultados estables en el tiempo y que converjan al valor verdadero, es clave disponer de tamaños muestrales suficientemente grandes que apoyen la consistencia. Cuanto más amplia sea la muestra bajo los supuestos adecuados, mejor comportamiento tendrán los estimadores al repetirse el muestreo.
Supuestos fundamentales del teorema
El teorema descansa sobre cinco supuestos que detallamos a continuación. La lógica es sencilla: si se cumplen todos, OLS es ELIO; si algunos fallan, cambian las propiedades del estimador.
1) Modelo lineal en los parámetros. Este supuesto es más flexible de lo que parece. Exige que la relación sea lineal respecto a los parámetros (los betas), no necesariamente respecto a las variables crudas. Por tanto, podemos incluir transformaciones de las variables (logs, polinomios, interacciones) siempre que el modelo siga siendo lineal en los coeficientes. La linealidad en parámetros es la base que permite usar OLS de forma coherente.
2) Media condicional nula y exogeneidad estricta. La condición clave es que el error tenga media cero condicionado a las variables explicativas: E(u|X)=0. Eso garantiza que, en promedio, no hay información sistemática en los errores que esté siendo omitida por el modelo. La exogeneidad estricta añade que los términos de error estén incorrelacionados con las variables explicativas en todas las observaciones relevantes del muestreo, eliminando vínculos espurios a lo largo de todo el conjunto de datos.
¿Cuándo puede fallar este supuesto 2? Ocurre si el modelo está mal especificado (por ejemplo, por omitir variables relevantes), si existen errores de medida en las variables, o, en contextos temporales, cuando hay endogeneidad retardada y efectos de retroalimentación. En datos de corte transversal resulta más factible lograr exogeneidad que en series temporales, donde la dinámica y la dependencia temporal complican que E(u|X)=0 se sostenga sin un diseño cuidadoso.
3) No multicolinealidad exacta. En la muestra no debe existir una relación lineal exacta entre variables explicativas. Además, ninguna explicativa puede ser una constante disfrazada. Puede haber correlaciones altas entre X’s, pero no perfectas; la multicolinealidad exacta impide identificar los efectos individuales de los regresores. Según se recuerda en exposiciones clásicas, cuando aparece multicolinealidad exacta suele deberse a errores de construcción del modelo (p. ej., incluir dos variables que son combinaciones lineales exactas).
4) Homocedasticidad. La varianza del término de error debe ser constante e independiente de los valores de X, esto es, Var(u|X)=σ². Bajo homocedasticidad, los residuos no “crecen” ni “decrecen” sistemáticamente con el nivel de las explicativas, lo que permite que los errores estándar empleados en inferencia sean consistentes con el supuesto de varianza constante.
5) No autocorrelación de los errores. Los errores de observaciones distintas deben estar incorrelacionados (dado X). En notación informal, para i≠h, Cov(u_i,u_h|X)=0. Si contamos con una muestra verdaderamente aleatoria e independiente, no debería existir autocorrelación. Este punto es crucial en series temporales, donde es muy fácil que los errores muestren dependencia y, por tanto, violen la ausencia de correlación serial.
Qué pasa si los supuestos fallan
Si fallan los supuestos 1, 2 o 3, el estimador deja de ser insesgado. Una especificación no lineal en parámetros invalida OLS; la ruptura de la media condicional nula o la exogeneidad estricta introduce sesgo; y la multicolinealidad exacta impide identificar correctamente los coeficientes. En cualquiera de estos casos, no podemos confiar en la insesgadez de OLS, y las conclusiones pueden ser engañosas.
Si los que fallan son los supuestos 4 o 5, el estimador OLS sigue siendo lineal e insesgado, pero pierde eficiencia. La homocedasticidad o la no autocorrelación incumplidas provocan que los errores estándar convencionales no sean válidos, afectando a pruebas y intervalos. Así, aunque los coeficientes en media “apunten” bien, no serán los más precisos entre los lineales e insesgados, y la inferencia estándar puede ser incorrecta si no se ajusta.
En la práctica, cuando detectamos violaciones de 4 o 5, se recurre a procedimientos de inferencia robusta o a replantear el modelo. Cuando falla el supuesto 2, hay que revisar la especificación (incluir variables omitidas, abordar posibles errores de medida, reconsiderar la dinámica del modelo). Y ante problemas en 3, suele ser necesario eliminar variables redundantes o replantear cómo se han construido las explicativas para recuperar identificabilidad. El diagnóstico cuidadoso es parte esencial del trabajo con cualquier regresión.
Normalidad, tamaño muestral y consistencia
En muchas presentaciones docentes del modelo clásico se menciona la normalidad de los residuos. Conviene distinguir: la normalidad no es necesaria para el teorema de Gauss-Markov ni para que OLS sea ELIO. La normalidad se usa para derivar resultados exactos en muestras finitas para contrastes y construcción de intervalos, pero, estrictamente hablando, Gauss-Markov no exige normalidad para sus conclusiones de eficiencia dentro de la clase lineal e insesgada.
Respecto al tamaño muestral, una muestra más grande es deseable: permite invocar resultados asintóticos (ley de los grandes números y teorema central del límite) que apoyan la consistencia y la aproximación normal de los estimadores. En términos operativos, “cuanto mayor sea la muestra, mejor” suele ser una guía razonable, siempre que se mantengan los supuestos sobre la generación de los datos y la validez de la especificación utilizada.
Variables explicativas, muestreo y aleatoriedad
Otra forma habitual de plantear los supuestos es considerar las X como no estocásticas (o “fijas” en el muestreo), lo que simplifica la derivación de resultados. Alternativamente, puede pensarse en un muestreo aleatorio donde las X son estocásticas pero satisfacen exogeneidad estricta. En ambos marcos, el punto esencial es que las explicativas no estén correlacionadas con el término de error; de lo contrario, se rompe la condición E(u|X)=0 y aparecen sesgos.
La naturaleza de los datos importa. En corte transversal, a menudo basta con un buen diseño de muestreo y una especificación razonable para sostener la exogeneidad. En series temporales, la dependencia temporal y los efectos de retroalimentación hacen más probable que los errores estén correlacionados con X en el tiempo. Es en estos contextos donde la “endogeneidad retardada” y otros mecanismos dinámicos pueden invalidar el supuesto 2 si no se toman precauciones.
Terminología: ELIO, MELI y los coeficientes B
Encontrarás la propiedad central de OLS expresada como ELIO (Estimador Lineal Insesgado Óptimo) o como MELI (Mejores Estimadores Lineales e Insesgados). Ambas etiquetas son equivalentes a la clásica denominación internacional BLUE. En todos los casos, la idea es la misma: dentro de la clase de estimadores lineales e insesgados, no hay otro con menor varianza que OLS cuando se cumplen los cinco supuestos de Gauss-Markov.
Los coeficientes estimados por OLS —los “B” de la notación más usada en clase— pertenecen a la familia de estimadores insesgados cuando se sostienen los supuestos 1–3, y, además, alcanzan la varianza mínima dentro de esa familia cuando también se cumplen 4–5. Dicho de forma intuitiva, su “error cuadrático” frente a la verdad poblacional es el menor posible en su clase, de manera que la función de regresión muestral queda lo más pegada posible a la función de regresión poblacional bajo el conjunto de hipótesis del teorema.
Con todo lo anterior sobre la mesa, el trabajo aplicado consiste en verificar razonablemente los supuestos, cuidar la especificación, y entender qué propiedades podemos reclamar de OLS en cada escenario. Cuando las hipótesis se cumplen, OLS ofrece una solución simple, transparente y potente; cuando se violan, hay que saber qué se pierde (insesgadez, eficiencia o ambas) y cómo actuar para recuperar validez o precisión en el análisis.
Este recorrido por el teorema y sus implicaciones ayuda a interpretar con criterio los resultados de una regresión lineal: qué garantiza OLS, bajo qué condiciones, y qué señales rojas revisar en la práctica. En la medida en que los datos y la especificación respalden los cinco supuestos —y cuidemos, en particular, la exogeneidad y la calidad de medición—, los estimadores por mínimos cuadrados ofrecen una combinación difícil de superar en simplicidad, transparencia y precisión dentro de su clase.