- En slumpmässig variabel är en mätbar funktion som tilldelar reella tal till slumpmässiga utfall, med en tillhörande fördelning.
- FDA och densiteten bestämmer variabelns lag; i kontinuerliga F(x)=∫fy används sannolikhetsfunktionen i diskreta fall.
- Transformationer Y=g(X) möjliggör härledning av nya fördelningar, med specifika formler för inverterbara eller grenade fall.
- Moment (E[X], Var[X]) och genererande funktioner sammanfattar egenskaper och hjälper till vid inferens och tillämpad modellering.

När vi talar om en slumpmässig variabel Kort sagt, vi hänvisar till ett tal vars värde bestäms slumpmässigt varje gång vi upprepar ett experiment. Vi kan inte med säkerhet förutsäga vad resultatet blir i en specifik mätning, men vi vet att dessa möjliga värden är fördelade enligt en viss sannolikhetsfördelning – det vill säga ett systematiskt sätt att tilldela sannolikheter till utfall. Detta ramverk låter oss modellera verkliga fenomen såsom myntkast, vädermätningar eller prestandan i en industriell process.
Att arbeta noggrant, Det är bekvämt att tänka på den slumpmässiga variabeln som en funktion vilket omvandlar elementära utfall av ett experiment (punkter i ett stickprovsutrymme) till reella tal. Således returnerar variabeln ett värde varje gång ett utfall inträffar i den verkliga världen. Statistisk analys är beroende av upprepning många gånger. experimentet och i att kvantifiera resultaten för att relatera dem till reella tal, så att vi kan studera deras beteende med hjälp av sannolikhetsverktyg.
Formell definition och mätramverk
Strängt taget, En reell stokastisk variabel X är en mätbar funktion definierad på ett sannolikhetsrum (Ω, A, P) och med värden i en mätbar kodomän (S, Σ). I den vanligaste praxisen är kodomänen (ℝ, B(ℝ)), där B(ℝ) är Borel σ-algebran för de reella talen. Detta sammanfattas som: X: (Ω, A, P) → (ℝ, B(ℝ)), och nyckelmätbarhetsvillkoret kräver att för varje Borel-mängd B gäller X⁻¹(B) ∈ A. Denna egenskap garanterar att vi meningsfullt kan tala om P[X ∈ B], eftersom förbildsmängden är en mätbar händelse.
En viktig nyans är att Punkterna ω ∈ Ω är inte observerbaraDet vi ser är X(ω), det numeriska värdet. Därför ligger osäkerheten inte i det redan observerade värdet av X, utan i att man inte i förväg vet vad det faktiska värdet av ω kommer att bli. Måtteori ger det lämpliga språket (σ-algebror, sannolikhetsmått) för att formalisera dessa idéer utan tvetydighet.
Variabelns intervall
Intervallet för X, betecknat RX, är mängden reella värden som variabeln kan anta: RX = { x ∈ ℝ | det existerar ω ∈ Ω sådan att X(ω) = x }. Med andra ord är det bilden av funktionen X och avgör naturligtvis var variabeln kan ha massa eller sannolikhetstäthet.
Illustrativa exempel
Exempel 1 (två mynt): Om vi kastar två mynt blir samplingsrummet Ω = {HH, HT, HT, TW}, där HH är krona och HT är klave. Vi definierar X som antalet krona vi får: X(HH)=2; X(HT)=1; X(HT)=1; X(TW)=0. Intervallet är RX = {0, 1, 2}Detta fall är ett prototypiskt fall för en diskret variabel, eftersom den bara tar ett fåtal isolerade värden.
Exempel 2 (daglig nederbörd): Låt X vara den nederbördsnivå som registrerats en specifik dag i en stad. Dess intervall kan rimligen representeras av [0, ∞). Här är det underliggande samplingsrummet komplext (atmosfärens tillstånd, meteorologiska modeller), men vi kan uppskatta fördelningen av X från historiska serier och anse att den faktiska populationsfördelningen approximerar den empiriska fördelningen om uppgifterna är omfattande och representativa. I praktiken, Vi arbetar med en fördelningsfunktion FX ungefärlig härledda från nämnda register.
Typer av slumpmässiga variabler
Diskret stokastisk variabel: En variabel anses diskret om dess intervall är en ändlig eller räknebart oändlig mängd, utan ackumuleringspunkter. Klassiska exempel är att räkna krona i myntkast eller antalet ankomster till en kö på en minut. Dess beteende beskrivs av en sannolikhetsfunktion (även kallad sannolikhetsmassfunktion) som tilldelar p(x) = P[X = x] till varje möjligt värde.
Kontinuerlig stokastisk variabel: Det är en vars intervall är oräkneligt, vanligtvis ett intervall på ℝ. En persons längd, en komponents livslängd eller daglig nederbörd är exempel. Dessa variabler modelleras med en densitetsfunktion f(x), från vilken sannolikheten erhålls genom integration över intervall och från vilken dess kumulativa fördelningsfunktion härleds.
Dessa definitioner sträcker sig naturligtvis till vektorvariabler med värden i ℝⁿ eller ℂⁿ. Det finns till och med variabler med mer exotiska värderum, såsom partitioner (som förekommer i stokastiska processer som kinesisk restaurang) eller uppsättningar av funktioner (som i Dirichlet-processen). Den allmänna teorin täcker alla dessa fall. med hjälp av språket för mätbara rum.
Kumulativ fördelningsfunktion (CDF)
Distributionsfunktionen för X, FX(x) = P[X ≤ x], tilldelar varje reellt x den kumulativa sannolikheten fram till den punkten. Varje reellt FDA uppfyller tre egenskaper: (i) begränsar F(x) → 0 när x → −∞ och F(x) → 1 när x → +∞; (ii) den är monotont icke-minskande; och (iii) den är högerkontinuerlig. Vet FX(x) är likvärdigt med att känna till lagen för X, både i det diskreta och det kontinuerliga fallen.
Densitetsfunktionen (PDF) och dess relation till FDA
När X är kontinuerligt, densiteten fX(x) är derivatan av FX(X) (i klassisk eller fördelningsmässig mening). Omvänt erhålls F genom att integrera densiteten: F(x) = ∫−∞x f(t) dt. Densitet beskriver hur sannolikheten är koncentrerad. runt olika värden, vilket gör att P[a ≤ X ≤ b] kan beräknas som ∫ab f(x) dx.
Transformationer av slumpmässiga variabler
Om Y = g(X) med g Borel mätbar, Och det är också en slumpmässig variabel på samma basrum, eftersom sammansättningen av mätbara Borel-funktioner är mätbar. Återigen, detta tillåter oss att gå från fördelningen av X till den av Y: FY(y) = P[g(X) ≤ y]. Det är värt att notera att om g inte är strikt ökande eller inte är globalt inverterbar, kräver att man tar hänsyn till alla inversionsgrenar av g för att erhålla densiteten för Y.
Om g är inverterbart och ökande, då FY(y) = FX(g⁻¹(y))Om dessutom g är deriverbar, uppfyller densiteten fY(y) = fX(g-1(y)) · |d(g-l(y))/dy|. När g inte är injektiv men för varje y har ett ändligt antal förbilder xi, formeln generaliseras avY(y) = Σi fX(xi) · |dxi/dy|, där xi = g-1i(y). Denna summa adderar bidraget från varje gren som mappas till y.
Exempel på transformation: kvadraten av en normal
Antag X ∼ N(0, 1), med densitet fX(x) = (1/√(2π))·e−x²/2Om vi definierar Y = X², har varje värde y ≥ 0 två förbilder: x = ±√y. Om vi tillämpar formeln med två symmetriska grenar, f erhållsY(y) = (1/√(2π y))·e−y/2 för y > 0och fY(y) = 0 för y ≤ 0. Detta är densiteten för en χ² med 1 frihetsgrad (motsvarande en gamma med formen 1/2 och skalan 2).
Om vi tittar på den kumulativa fördelningen av Y, För y < 0 är sannolikheten 0För y ≥ 0, FY(y) = P[−√y ≤ X ≤ √y] = FX(√y) − FX(−√y), där FX Det är FDA:s standardnormal. Detta exempel illustrerar de två kompletterande metoderna: att arbeta med densiteter (variabelförändring) eller med kumulativa fördelningar.
Exempel på transformation: från en logistisk lag upphöjd till exponentiallagen
Betrakta en variabel X med FDA-fX(x) = 1 / (1 + e-x)θ, med θ > 0. Vi definierar Y = ln(1 + e-XDå är Y ≤ y ekvivalent med X ≥ −ln(ey − 1). Därför, FY(y) = 1 − FX(−ln(ey − 1))Ersätter FX och förenklat kommer vi fram till FY(y) = 1 − e−θ och, vilket är FDA för en exponential med parameter θ. Det är en elegant variabel förändring som länkar samman en förbättrad logistikfamilj med exponentiell distribution.
Förväntan, varians och stunder
Förväntat värde, eller förväntat värde E[X], sammanfattar den centrala tendensenOm X är diskret med värdena xi och sannolikheter p(x)i), då E[X] = Σxi p(xiOm X är kontinuerlig med densitet f(x), är E[X] = ∫−∞∞ xf(x) dx. När det gäller mätning, kan skrivas som ∫Ω X dP, vilket betonar dess abstrakta definition framför sannolikhetsrummet.
Varians kvantifierar dispersion: Var(X) = E[(X − E[X])²]Standardavvikelsen är σ = √Var(X) och uppfyller σ² = Var(X). I kontinuerliga fördelningar är mängden av moment M(N)X = E[Xⁿ] kan fullständigt karaktärisera lagen under lämpliga förhållanden. Momenten är relaterade till den karakteristiska funktionen φX(t) med hjälp av φ(N)X(0) = iⁿ E[Xⁿ], och med momentgenereringsfunktionen MX(t) till och med M(N)X(0) = E[Xⁿ]. Dessa verktyg kondenserar information användbar för inferens, approximationer och jämförelse av fördelningar.
Praktisk klassificering och koppling till tillämpningar
Diskret kontra kontinuerlig Detta är inte den enda användbara dikotomin: vi skiljer också mellan blandade variabler (med diskreta och kontinuerliga delar), flerdimensionella variabler (slumpmässiga vektorer) och variabler med funktionella värden i stokastiska processer. Denna mångfald återspeglar komplexiteten hos verkliga fenomen., där kategoriska och kvantitativa osäkerheter ofta samexisterar.
Vid verklig modellering är det viktigt att komma ihåg att Det som observeras är den transformerade variabeln X(ω), inte det underliggande elementet ω. Detta styr valet av mått, definitionen av händelser av intresse och tolkningen av resultaten. Inom teknik, hälsovetenskap eller ekonomiDetta perspektiv hjälper till att formalisera hypoteser och välja sammanhängande probabilistiska modeller.
Hur man går från X till Y = g(X): tekniska detaljer
Allmän formulering: om g är monoton och inverterbar, fY(y) = fX(g⁻¹(y)) · |(d/dy) g⁻¹(y)|Om g inte är monotont men varje y har ett ändligt antal rötter xi som verifierar g(xi) = y, då läggs bidragen från varje gren samman: fY(y) = Σ fX(xi) · |dxi/dy|. Denna variabeländringsregel Det är arbetshästen för att härleda tätheter för vanliga transformationer (potenser, logaritmer, trigonometriska funktioner, etc.).
Angående mätbarhet, sammansättningen av Borel mätbara funktioner är mätbar, vilket stöder proceduren Y = g(X). I mer generella sammanhang med enbart mätbara Lebesgue-funktioner utanför Borel-ramverket, kompositionen kan orsaka problem Och ytterligare villkor krävs. Denna tekniska detalj motiverar den vanliga användningen av Borel-funktioner inom statistik och sannolikhet för att garantera gott beteende.
Pedagogisk tillämpning: åldrar och lärarprestationer
En utredning beskrivs på EIB:s undervisningsprestationer i privatskolor i San Juan de Lurigancho med ett urval av 54 lärare. Åldrar analyseras, med särskilt intresse för den yngre gruppen (X < 29 år), och en tabell finns tillgänglig som inkluderar frekvenser, procentandelar, giltig procentandel (vilket bortser från saknade data) och kumulativ procentandel. Målet är att beräkna det förväntade värdet och variansen. för unga lärares ålder och för resten, dra slutsatser, föreslå förbättringsåtgärder och uppskatta sannolikheten att en lärare är mellan 29 och 31 år gammal.
Så här går du tillväga: om ålderstabellen är grupperad efter intervall, mittpunkten för varje intervall används som representant xi och frekvensen fi eller den procentandel som är giltig som vikt. För den unga gruppen (X < 29) filtreras klasserna med en övre gräns mindre än 29 bort och summan av frekvenserna skalas om för att representera summan av undergruppen. Villkorlig förväntan beräknas som E[X | X < 29] ≈ Σxi pjag|ung, och den villkorliga variansen som Var(X | X < 29) ≈ Σ (xi − μunga)² pjag|ungFör den icke-unga gruppen (X ≥ 29) upprepas processen med deras klasser.
Om tabellen inte är grupperad och har specifika åldrar med frekvenser, då är E[X] = (1/N) Σxi fi och Var(X) = (1/N) Σ (xi − μ)² fiFör villkorliga versioner efter undergrupper, N ersätts av undergruppens storlek (Nunga eller Ninte ung) och endast motsvarande frekvenser läggs ihop. Denna metod replikerar exakt definitionen av förväntat värde och varians, anpassad till verkliga data med eller utan gruppering.
Vad kan vi dra slutsatsen av dessa resultat? Om E[X | X < 29] är signifikant mindre och Var(X | X < 29] reduceras, Den unga gruppen har en låg och homogen medelålderOm andra mätvärden också indikerar bättre klassrumsprestationer för X < 29, skulle ungdomar kunna kopplas till vissa nuvarande klassrumspraxis eller större anpassning till aktiva metoder. Kausal slutsats kräver dock försiktighet.Det är lämpligt att kontrollera erfarenhet, utbildning, tillgång till resurser och ledarstilar på centret.
Åtgärder för att förbättra prestationer och resultat: (1) fokuserad fortbildning i effektiva metoder (aktivt lärande, formativ bedömning, kvalitetsåterkoppling); (2) korsmentorskap mellan yngre och mer erfarna lärare för att dela innovationer och strategier för klassrumshantering; (3) praktikgemenskaper med kamratobservation och förbättringscykler; (4) tillgång till utbildningsresurser och teknik med tekniskt stöd; och (5) övervakning med indikatorer tydliga indikatorer på elevers framsteg, som kopplar samman prestationsdata med pedagogiska beslut.
Vad är sannolikheten att lärarna är mellan 29 och 31 år gamla? Om tabellen ger frekvenser efter ålder eller fina intervallAddera helt enkelt frekvenserna 29, 30 och 31 (eller intervallet [29,31]) och dividera med summan av 54 lärare, eller med det totala giltiga antalet om det finns förluster. Om tabellen använder breda intervall (till exempel [28,32]), Den kan interpoleras proportionellt Om man antar en likformig fördelning inom intervallet: P(29–31) ≈ (delintervallets längd)/(intervallets längd) × (intervallets frekvens)/N. Om det fanns en rimlig anpassning till en kontinuerlig fördelning, Ett annat alternativ vore att integrera densiteten justerat mellan 29 och 31. Utan de specifika uppgifterna kan ett antal inte anges, men proceduren är som beskrivs.
Anteckningar och relationer med andra begrepp
Referensfördelningar Binomial- och normalfördelningarna är paradigmatiska exempel på diskreta respektive kontinuerliga variabler. Studiet av sannolikhetsfördelningar, väntevärden och varianser utgör grunden för introduktionskurserna. I avancerad statistisk inferens Begrepp som Fisher-information framträder, vilken kvantifierar hur mycket information om en parameter en slumpmässig observation bär med sig och är central för effektiviteten hos estimatorer och Cramér-Rao-gränser.
Bortom teorin, gallerier och akademiska resurser De hjälper till att visualisera koncept och utöka studien. Det finns arkiv med grafiskt material om stokastiska variabler och en riklig bibliografi som fördjupar sig i grunderna och tillämpningarna. Dessa stöd är värdefulla att befästa förståelsen och knyta an till verkliga problem.
PDF-resurser för ytterligare information (extern länk)
Några öppna och referensmaterial som fördjupar sig i definitionen och egenskaperna hos slumpmässiga variabler och fördelningar:
- Ämne: Stokastiska variabler (ULPGC)
- Statistik II – Ämne 2 (UGR)
- Sannolikhetskurs – Ämne 3 (UC3M)
- Definition av en stokastisk variabel (UGR)
- Slumpmässig variabel (UMA)
- Referenskapskapitel i sannolikhet och statistik
Låt oss sammanfatta den konceptuella arkitekturenEn stokastisk variabel är en mätbar funktion som mappar utfall till tal; dess kumulativa fördelning och, i det kontinuerliga fallet, dess densitet, kodar fullständigt dess beteende; intervallet markerar de möjliga värdena; transformationer möjliggör konstruktionen av nya variabler; och sammanfattande storheter som väntevärde, varians och moment syntetiserar nyckelfunktioner. Med dessa grunderExemplen (från mynt till nederbörd eller åldrar) analyseras med ett unikt språk som kopplar samman teori och praktik.