- Una variable aleatoria es una función medible que asigna números reales a resultados aleatorios, con distribución asociada.
- La FDA y la densidad determinan la ley de la variable; en continuo F(x)=∫f y en discreto se usa la función de probabilidad.
- Transformaciones Y=g(X) permiten derivar nuevas distribuciones, con fórmulas específicas para casos invertibles o por ramas.
- Momentos (E[X], Var[X]) y funciones generadoras resumen propiedades y ayudan en inferencia y modelización aplicada.

Cuando hablamos de una variable aleatoria nos referimos, en pocas palabras, a un número cuyo valor se decide al azar cada vez que repetimos un experimento. No podemos anticipar con certeza cuál saldrá en una medición concreta, pero sí sabemos que esos valores posibles se reparten siguiendo una determinada distribución de probabilidad, es decir, un modo sistemático de asignar probabilidades a resultados. Este marco nos permite modelar fenómenos reales como tiradas de monedas, mediciones meteorológicas o el rendimiento de un proceso industrial.
Para trabajar con rigor, conviene pensar la variable aleatoria como una función que transforma resultados elementales de un experimento (puntos de un espacio muestral) en números reales. Así, cada vez que ocurre un resultado en el mundo real, la variable devuelve un valor. El análisis estadístico se apoya en repetir muchas veces el experimento y en cuantificar los resultados para relacionarlos con números reales, de modo que podamos estudiar su comportamiento mediante herramientas de probabilidad.
Definición formal y marco de medida
De forma rigurosa, una variable aleatoria real X es una aplicación medible definida sobre un espacio de probabilidad (Ω, A, P) y con valores en un espacio medible de llegada (S, Σ). En la práctica más habitual, el codominio es (ℝ, B(ℝ)), donde B(ℝ) es la σ-álgebra de Borel de los números reales. Esto se resume como: X: (Ω, A, P) → (ℝ, B(ℝ)), y la condición clave de medibilidad exige que para todo conjunto boreliano B se cumpla X⁻¹(B) ∈ A. Esta propiedad garantiza que podemos hablar con sentido de P[X ∈ B], ya que el conjunto preimagen es un suceso medible.
Un matiz importante es que los puntos ω ∈ Ω no son observables: lo que vemos es X(ω), el valor numérico. Por eso, la incertidumbre no reside en el valor de X ya observado, sino en no saber de antemano cuál será el ω que se materialice. La teoría de la medida aporta el lenguaje adecuado (σ-álgebras, medidas de probabilidad) para formalizar estas ideas sin ambigüedades.
Rango o recorrido de una variable
El rango de X, denotado RX, es el conjunto de valores reales que puede tomar la variable: RX = { x ∈ ℝ | existe ω ∈ Ω tal que X(ω) = x }. En otras palabras, es la imagen de la función X y determina, de forma natural, dónde puede tener masa o densidad de probabilidad la variable.
Ejemplos ilustrativos
Ejemplo 1 (dos monedas): Si lanzamos dos monedas, el espacio muestral es Ω = {cc, cx, xc, xx}, donde c es cara y x es cruz. Definimos X como el número de caras obtenidas: X(cc)=2; X(cx)=1; X(xc)=1; X(xx)=0. El rango es RX = {0, 1, 2}. Este caso es prototípico de variable discreta, pues solo toma unos pocos valores aislados.
Ejemplo 2 (precipitación diaria): Sea X el nivel de lluvia registrado en un día concreto en una ciudad. De forma razonable, su recorrido puede representarse por [0, ∞). Aquí el espacio muestral subyacente es complejo (estado de la atmósfera, modelos meteorológicos), pero podemos estimar la distribución de X a partir de series históricas y considerar que la distribución poblacional real se aproxima a la distribución empírica si los datos son amplios y representativos. En la práctica, se trabaja con una función de distribución FX aproximada derivada de dichos registros.
Tipos de variables aleatorias
Variable aleatoria discreta: una variable se considera discreta si su recorrido es un conjunto finito o infinito numerable, sin puntos de acumulación. Ejemplos clásicos son el conteo de caras en lanzamientos de moneda o el número de llegadas a una cola en un minuto. Su comportamiento se describe con una función de probabilidad (también llamada función de cuantía) que asigna p(x) = P[X = x] a cada valor posible.
Variable aleatoria continua: es aquella cuyo recorrido es no numerable, típicamente un intervalo de ℝ. La altura de una persona, el tiempo de vida de un componente o la precipitación diaria son ejemplos. Estas variables se modelan con una función de densidad f(x), de la cual se obtiene la probabilidad integrando sobre intervalos y de la que deriva su función de distribución acumulada.
Estas definiciones se extienden con naturalidad a variables vectoriales con valores en ℝⁿ o ℂⁿ. Incluso existen variables con espacios de valores más exóticos, como particiones (aparecen en procesos estocásticos tipo restaurante chino) o conjuntos de funciones (como en el proceso de Dirichlet). La teoría general abarca todos estos casos usando el lenguaje de espacios medibles.
Función de distribución acumulada (FDA)
La función de distribución de X, FX(x) = P[X ≤ x], asigna a cada x real la probabilidad acumulada hasta ese punto. Toda FDA real cumple tres propiedades: (i) límites F(x) → 0 cuando x → −∞ y F(x) → 1 cuando x → +∞; (ii) es monótona no decreciente; y (iii) es continua por la derecha. Conocer FX(x) es equivalente a conocer la ley de X, tanto en el caso discreto como en el continuo.
Función de densidad (PDF) y su relación con la FDA
Cuando X es continua, la densidad fX(x) es la derivada de FX(x) (en sentido clásico o de distribuciones). A la inversa, F se obtiene integrando la densidad: F(x) = ∫−∞x f(t) dt. La densidad describe cómo se concentra la probabilidad alrededor de distintos valores, permitiendo calcular P[a ≤ X ≤ b] como ∫ab f(x) dx.
Transformaciones de variables aleatorias
Si Y = g(X) con g medible de Borel, Y también es variable aleatoria sobre el mismo espacio base, pues la composición de funciones medibles de Borel es medible. De nuevo, esto permite pasar de la distribución de X a la de Y: FY(y) = P[g(X) ≤ y]. Conviene destacar que si g no es estrictamente creciente o no es invertible globalmente, la obtención de la densidad de Y requiere tener en cuenta todas las ramas de inversión de g.
Si g es invertible y creciente, entonces FY(y) = FX(g⁻¹(y)). Si además g es diferenciable, la densidad verifica fY(y) = fX(g⁻¹(y)) · |d(g⁻¹(y))/dy|. Cuando g no es inyectiva pero para cada y tiene un número finito de preimágenes xi, la fórmula se generaliza a fY(y) = Σi fX(xi) · |d xi/dy|, donde xi = g−1i(y). Esta suma agrega la contribución de cada rama que mapea en y.
Ejemplo de transformación: cuadrado de una normal
Supongamos X ∼ N(0, 1), con densidad fX(x) = (1/√(2π))·e−x²/2. Si definimos Y = X², cada valor y ≥ 0 tiene dos preimágenes: x = ±√y. Aplicando la fórmula con dos ramas simétricas, se obtiene fY(y) = (1/√(2π y))·e−y/2 para y > 0, y fY(y) = 0 para y ≤ 0. Esta es la densidad de una χ² con 1 grado de libertad (equivalentemente, de una gamma con forma 1/2 y escala 2).
Si miramos la distribución acumulada de Y, para y < 0 la probabilidad es 0. Para y ≥ 0, FY(y) = P[−√y ≤ X ≤ √y] = FX(√y) − FX(−√y), donde FX es la FDA de la normal estándar. Este ejemplo muestra los dos enfoques complementarios: trabajar con densidades (cambio de variable) o con distribuciones acumuladas.
Ejemplo de transformación: de una ley logística elevada a exponencial
Considérese una variable X con FDA FX(x) = 1 / (1 + e−x)θ, con θ > 0. Definimos Y = ln(1 + e−X). Entonces Y ≤ y equivale a X ≥ −ln(ey − 1). De aquí, FY(y) = 1 − FX(−ln(ey − 1)). Sustituyendo FX y simplificando se llega a FY(y) = 1 − e−θ y, que es la FDA de una exponencial de parámetro θ. Es un cambio de variable elegante que enlaza una familia logística potenciada con la distribución exponencial.
Esperanza, varianza y momentos
La esperanza o valor esperado, E[X], resume la tendencia central. Si X es discreta con valores xi y probabilidades p(xi), entonces E[X] = Σ xi p(xi). Si X es continua con densidad f(x), E[X] = ∫−∞∞ x f(x) dx. En términos de medida, puede escribirse como ∫Ω X dP, que enfatiza su definición abstracta sobre el espacio de probabilidad.
La varianza cuantifica la dispersión: Var(X) = E[(X − E[X])²]. La desviación típica es σ = √Var(X) y satisface σ² = Var(X). En distribuciones continuas, el conjunto de momentos M(n)X = E[Xⁿ] puede caracterizar por completo la ley bajo condiciones adecuadas. Los momentos se relacionan con la función característica φX(t) mediante φ(n)X(0) = iⁿ E[Xⁿ], y con la función generadora de momentos MX(t) a través de M(n)X(0) = E[Xⁿ]. Estas herramientas condensan información útil para inferencia, aproximaciones y comparación de distribuciones.
Clasificación práctica y conexión con aplicaciones
Discretas versus continuas no es la única dicotomía útil: también distinguimos variables mixtas (con parte discreta y continua), multidimensionales (vectores aleatorios), y variables con valores funcionales en procesos estocásticos. Esta variedad responde a la complejidad de los fenómenos reales, donde a menudo conviven incertidumbres categóricas y cuantitativas.
En la modelización real conviene recordar que lo que se observa es la variable transformada X(ω), no el elemento subyacente ω. Esto guía la elección de medidas, la definición de eventos de interés y la interpretación de resultados. En ingeniería, ciencias de la salud o economía, esta perspectiva ayuda a formalizar hipótesis y a seleccionar modelos probabilísticos coherentes.
Cómo pasar de X a Y = g(X): detalles técnicos
Formulación general: si g es monótona e invertible, fY(y) = fX(g⁻¹(y)) · |(d/dy) g⁻¹(y)|. Si g no es monótona pero cada y tiene un número finito de raíces xi que verifican g(xi) = y, entonces se suman las contribuciones de cada rama: fY(y) = Σ fX(xi) · |dxi/dy|. Esta regla de cambio de variable es el caballo de batalla para derivar densidades de transformaciones comunes (potencias, logaritmos, trigonometricas, etc.).
Respecto a la medibilidad, la composición de funciones medibles de Borel es medible, lo que respalda el procedimiento Y = g(X). En contextos más generales con funciones meramente medibles de Lebesgue fuera del marco boreliano, la composición puede dar problemas y se requieren condiciones adicionales. Este detalle técnico justifica que, en estadística y probabilidad, se hable habitualmente de funciones de Borel para garantizar buena conducta.
Aplicación didáctica: edades y desempeño docente
Se describe una investigación sobre el desempeño docente de la EIB en colegios privados de San Juan de Lurigancho con una muestra de 54 docentes. Se analizan las edades, con interés particular en el grupo joven (X < 29 años), y se cuenta con una tabla que incluye frecuencias, porcentajes, porcentaje válido (que descuenta datos perdidos) y porcentaje acumulado. El objetivo es calcular la esperanza y la varianza de la edad para los docentes jóvenes y para el resto, inferir conclusiones, proponer acciones de mejora y estimar la probabilidad de que un docente tenga entre 29 y 31 años.
Cómo proceder: si la tabla de edades es agrupada por intervalos, se usa el punto medio de cada intervalo como representante xi y la frecuencia fi o el porcentaje válido como peso. Para el grupo joven (X < 29), se filtran las clases con límite superior menor de 29 y se reescala la suma de frecuencias para que representen el total del subgrupo. La esperanza condicional se calcula como E[X | X < 29] ≈ Σ xi pi|joven, y la varianza condicional como Var(X | X < 29) ≈ Σ (xi − μjoven)² pi|joven. Para el grupo no joven (X ≥ 29), se repite el proceso con sus clases.
Si la tabla no está agrupada y dispone de edades puntuales con frecuencias, entonces E[X] = (1/N) Σ xi fi y Var(X) = (1/N) Σ (xi − μ)² fi. Para las versiones condicionales por subgrupos, se reemplaza N por el tamaño del subgrupo (Njoven o Nno joven) y se suman solo las frecuencias correspondientes. Esta metodología replica exactamente la definición de esperanza y varianza, adaptada a datos reales con o sin agrupación.
¿Qué inferir con esos resultados? Si E[X | X < 29] es sensiblemente menor y Var(X | X < 29] es reducida, el grupo joven presenta una edad promedio baja y homogénea. Si además otras métricas señalan mejor desempeño en aulas para X < 29, se podría asociar juventud con ciertas prácticas de aula actuales o mayor adaptación a metodologías activas. Sin embargo, la inferencia causal exige cautela: conviene controlar por experiencia, formación, acceso a recursos y estilos de liderazgo en el centro.
Acciones para mejorar desempeño y logros: (1) formación continua focalizada en metodologías efectivas (aprendizaje activo, evaluación formativa, retroalimentación de calidad); (2) mentorización cruzada entre docentes jóvenes y de mayor experiencia para compartir innovaciones y estrategias de gestión de aula; (3) comunidades de práctica con observación entre pares y ciclos de mejora; (4) acceso a recursos didácticos y tecnología con soporte técnico; y (5) seguimiento con indicadores claros de progreso estudiantil, conectando datos de desempeño con decisiones pedagógicas.
¿Cuál es la probabilidad de docentes entre 29 y 31 años? Si la tabla proporciona frecuencias por edad o intervalos finos, basta con sumar las frecuencias de 29, 30 y 31 (o el intervalo [29,31]) y dividir por el total de 54 docentes, o por el total válido si hay pérdidas. Si la tabla es por intervalos amplios (por ejemplo, [28,32]), se puede interpolar proporcionalmente suponiendo distribución uniforme dentro del intervalo: P(29–31) ≈ (longitud del subintervalo)/(longitud del intervalo) × (frecuencia del intervalo)/N. Si existiera un ajuste a una distribución continua plausible, otra opción sería integrar la densidad ajustada entre 29 y 31. Sin los datos concretos no se puede dar un número, pero el procedimiento es el descrito.
Notas y relaciones con otros conceptos
Distribuciones de referencia como la binomial y la normal son ejemplos paradigmáticos de variable discreta y continua, respectivamente. El estudio de la distribución de probabilidad, la esperanza y la varianza constituye la base de los cursos introductorios. En inferencia estadística avanzada emergen nociones como la Información de Fisher, que cuantifica cuánta información sobre un parámetro lleva una observación aleatoria y es central en eficiencia de estimadores y límites de Cramér–Rao.
Más allá de la teoría, galerías y recursos académicos ayudan a visualizar conceptos y ampliar el estudio. Existen repositorios con material gráfico sobre variables aleatorias y abundante bibliografía que profundiza en fundamentos y aplicaciones. Estos apoyos son valiosos para consolidar el entendimiento y conectar con problemas reales.
Recursos en PDF para ampliar (enlace externo)
Algunos materiales abiertos y de referencia que profundizan en la definición y propiedades de las variables aleatorias y distribuciones:
- Tema: Variables aleatorias (ULPGC)
- Estadística II – Tema 2 (UGR)
- Curso Probabilidad – Tema 3 (UC3M)
- Definición de variable aleatoria (UGR)
- Variable aleatoria (UMA)
- Capítulos de referencia en probabilidad y estadística
Recapitulemos la arquitectura conceptual: una variable aleatoria es una función medible que mapea resultados en números; su distribución acumulada y, en el caso continuo, su densidad, codifican por completo su comportamiento; el recorrido marca los valores posibles; las transformaciones permiten construir nuevas variables; y las cantidades resumen como esperanza, varianza y momentos sintetizan rasgos clave. Con estos cimientos, los ejemplos (desde monedas hasta lluvias o edades) se analizan con un lenguaje único que conecta teoría y práctica.