Correlació i causalitat: diferències, exemples i com no equivocar-te

Darrera actualització: Novembre 20, 2025
  • Correlació descriu associació; causalitat implica mecanisme i direcció.
  • Exemples reals mostren terceres variables, causalitat inversa i paradoxa de Simpson.
  • Per estimar efectes: aleatorització, dissenys quasi-experimentals i ajustaments rigorosos.
  • El llenguatge prudent evita convertir associacions observacionals en causes rotundes.

Concepte de correlació i causalitat

La conversa pública sobre dades és plena de trampes conceptuals i, entre elles, confondre que dues coses vagin de la mà amb què una causi l'altra és de les més freqüents. Separar amb claredat correlació de causalitat no és només un tecnicisme estadístic; és una habilitat pràctica per no prendre decisions precipitades en salut, economia, màrqueting o la ciència política.

En les properes línies trobaràs una guia completa i amena per no caure en aquest error. Definirem tots dos conceptes, repassarem diferències essencials, veurem exemples quotidians que enganyen a simple vista, explorarem mètodes per desemmascarar falses relacions i revisarem els enfocaments més sòlids per inferir efectes causals quan no podem experimentar lliurement.

investigació qualitativa
Article relacionat:
Investigació qualitativa: mètodes, anàlisi, exemples i rigor

Què entenem per correlació i què per causalitat

Quan dues variables es mouen de forma conjunta solem dir que estan correlacionades: si una augmenta, l'altra tendeix a augmentar, oa l'inrevés. La correlació és una mesura d'associació, quantifica la intensitat i la direcció d'aquest anar de la mà, però no ens diu per què passa.

La causalitat és una altra història: implica que un canvi en una variable provoca un canvi en una altra. Una relació causal és direccional i requereix un mecanisme que connecti causa i efecte. Que hi hagi causalitat pot donar lloc o no a correlació observable en les dades, segons com mesurem i en quines condicions.

Diferències clau que cal gravar-se

  • Correlació no implica causa: pot haver-hi associació sense enllaç causal subjacent.
  • La causalitat sí que implica un mecanisme, però pot no manifestar-se com a correlació si hi ha controls o compensacions que emmascaren el patró.
  • La correlació és simètrica (A amb B és igual que B amb A), la causalitat no ho és: que A causi B no vol dir que B causi A.

Exemples que posen a prova la intuïció

Correlació sense causa: el parany de la tercera variable

En anàlisis temporals és típic observar que en mesos calorosos pugen les vendes de gelats i també els ofegaments a la platja. Totes dues sèries es mouen juntes per un factor comú (la temperatura i l'ús més gran de la platja), no perquè els gelats generin ofegaments ni a la inversa. Aquest és el clàssic exemple de correlació espúria per variable de confusió.

Una cosa semblant va passar amb una troballa mediàtica sobre nadons que dormien amb una llum encesa i la seva major probabilitat de miopia. Més tard es va veure que la miopia dels pares influïa tant en l'ús de llum nocturna com, per herència, en la visió dels fills. Un altre cop, una tercera variable explicant l'associació.

Quan hi ha causa, però la correlació desapareix

Imagina un termòstat que manté la casa a temperatura constant controlant un forn de combustible. La quantitat de combustible sí que causa calor, però com que el termòstat compensa, la temperatura interior pot no correlacionar amb el combustible cremat. Hi ha relació causal sense correlació observable en aquest mesurament.

La direcció importa, i de vegades va al revés

Sovint se sent que portar una vida activa protegeix el rendiment cognitiu en gent gran. No obstant això, hi pot haver causalitat inversa: els qui conserven millor funció cognitiva tendeixen a mantenir rutines més actives. L'associació no resol la fletxa del temps sola.

La paradoxa de Simpson

Aquesta paradoxa apareix quan una tendència present al agregat es reverteix en separar per subgrups. Un exemple habitual és un tractament que sembla més eficaç a dosis altes en el total, però en desagregar per sexe es descobreix que el patró s'inverteix perquè la distribució de dosis difereix entre grups. Barrejar peres amb pomes emmascara la realitat.

Com detectar relacions espúries

Una eina útil és la correlació parcial: mesura l'associació entre dues variables controlant-ne una tercera. Si en controlar per temperatura desapareix l'enllaç gelats-ofegaments, ja saps que la relació era espúria.

Una altra estratègia és estratificar l'anàlisi: dividir per grups rellevants (edat, sexe, regió) o ajustar per variables de confusió en models, per aïllar efectes i evitar conclusions enganyoses per barreges de poblacions.

Mètriques bàsiques per quantificar associació

La covariància indica la direcció del canvi conjunt de dues variables. Positiva si es mouen en el mateix sentit i negativa si en sentit oposat; un valor a prop de zero suggereix absència de relació lineal. La seva escala depèn de les unitats, per la qual cosa no és comparable entre parells diferents; aquesta cura amb les mètriques recorda pràctiques de control de qualitat.

El coeficient de Pearson normalitza la covariància i va de -1 a 1. Serveix per quantificar la força d'una relació lineal entre variables quantitatives contínues, essent 1 o -1 relacions perfectes. Aporta a més un valor p per contrastar si l'associació observada es pot atribuir a l'atzar sota certs supòsits.

Spearman avalua l'associació basada en rangs. Funciona bé quan la relació és monòtona però no necessàriament lineal, i és més robust a valors atípics. A més, admet variables ordinals, cosa que Pearson no contempla.

Altres opcions menys habituals inclouen Kendall per a concordança de rànquings i el punt biserial quan una variable és dicotòmica i l'altra és d'interval. Escollir el coeficient correcte evita malinterpretacions.

Sobre el famós p-valor convé puntualitzar: no és la probabilitat que una hipòtesi sigui certa. Indica quant extrems serien unes dades com les observades si el model nul fos correcte. Un p baix suggereix que l'associació observada difícilment es deu a l'atzar, però no acredita per si sola causalitat.

Quan fer servir cada mesura

Si vols saber en quina direcció es mouen dues variables sense pretendre comparar magnituds, la covariància t'orienta. Per mesurar la intensitat duna relació lineal amb variables contínues i sense grans outliers, Pearson és lopció natural.

Quan sospites que la relació és monòtona però no lineal, hi ha valors extrems o treballes amb dades ordinals, Spearman sol donar respostes més fiables. I recorda: tota correlació descriu associació, no efecte.

Què és un model causal i per a què serveix

Les equacions estructurals (SEM) permeten especificar relacions simultànies entre variables amb termes derror i restriccions teòriques. Són útils quan el sistema té múltiples rutes causals i variables latents.

Com fer inferència causal amb rigor

La pedra de toc són els assaigs controlats aleatoritzats. Aleatoritzar assigna tractament o control a l'atzar, equilibrant de mitjana factors observats i no observats. Si tota la resta es manté comparable, la diferència en resultats s'atribueix al tractament.

Quan l'aleatorització no és viable, sorgeixen els dissenys quasi-experimentals. L'aparellament busca comparar pomes amb pomes, igualant unitats tractades i de control en covariables rellevants.

La discontinuïtat en la regressió explota un llindar: un punt de tall que assigna tractament. Els qui queden just per sobre i per sota del llindar són semblants excepte per la intervenció, cosa que permet estimar l'efecte localment.

Les diferències en diferències comparen l'evolució d'un grup tractat i un de control abans i després de la intervenció, assumint tendències paral·leles en absència de tractament. És una eina poderosa en avaluacions de polítiques.

Amb dades observacionals també es pot avançar combinant teoria i estadística i anàlisi situacional. Instruments vàlids, controls sintètics o models de ML ajuden a aproximar efectes, sempre deixant clars els supòsits. Eines d'analítica com a plataformes d'anuncis o suites d'analítica digital il·lustren aquest enfocament amb dades històriques.

Correlació a Big Data: oportunitats i trampes

Explorar correlacions en grans bases de dades destapa patrons valuosos, però com més gran és el mar de dades, més sirenes espúries canten. Apareixen associacions cridaneres que són fruit de coincidències estadístiques, no de relacions reals.

Els algorismes descobreixen regularitats, però sense una pregunta causal clara i un disseny destudi sòlid, la probabilitat de confondre soroll amb senyal es dispara. Per això, la correlació guia hipòtesis; la causalitat es recolza amb estudis ben dissenyats.

Llenguatge responsable: senyals d'alerta

Quan llegiu titulars, desconfieu de verbs rotunds com reduir, augmentar, provocar, acabar amb si l'evidència procedeix d'estudis observacionals. Convé fer servir expressions prudents com s'associa amb, podria millorar, suggereix una relació.

També sospita de afirmacions causals basades en simples observacions. Una associació no determina la direcció: podria ser al revés o deure a variables de confusió. La prudència en el llenguatge evita males decisions.

Un exemple il·lustratiu va ser el missatge que el consum d'oli d'oliva redueix la mortalitat. L'evidència observacional troba associacions favorables, però no n'hi ha prou per afirmar un efecte causal; més apropiat és a dir que es relaciona amb menor mortalitat, o que podria reduir-la, tot esperant assajos.

En una altra línia, hi va haver titulars sobre un tractament hormonal que semblava protegir el cor. En controlar per nivell socioeconòmic i estil de vida l'efecte s'esvaïa i fins i tot invertia. Les variables ocultes fan molt de mal si no es controlen.

Exemples quotidians que enganyen

El gall canta abans de l'alba i el sol surt cada dia, però el cant no fa sortir el sol. De la mateixa manera, rentar el cotxe no provoca la pluja, encara que de vegades ho sembli per simple coincidència.

En salut, quan tens un refredat prens suc de llimona i al cap d'uns dies millores. L'evolució natural de la infecció, el repòs i altres cures expliquen la millora; no podem atribuir-la sense més ni més al suc.

Amb qualsevol tractament es poden observar canvis en símptomes. Això no és suficient per concloure que el canvi es deu al tractament; poden estar actuant factors externs, regressió a la mitjana o millores espontànies.

Qui consumeix menys ultraprocessats sol tenir menor incidència de càncer, però aquesta diferència pot reflectir estils de vida més saludables, major activitat física, millor accés a cures o diferències socioeconòmiques. L'associació no prova cap causa.

De la correlació a la causalitat amb estudis empírics

Un cas famós: exercir més activitat física correlaciona amb menys malaltia cardiovascular. La correlació obre la porta a hipòtesis, per exemple, que l'exercici augmenta l'òxid nítric i dilata els gots, reduint tensió arterial. Després, un experiment controlat pot mesurar aquest mecanisme i estimar-ne l'efecte causal.

Un altre exemple ingenu: podries trobar que exercitar-se més es relaciona amb més incidència de càncer de pell. La veritable causa comuna seria lexposició solar, que augmenta tant l'activitat a l'aire lliure com el risc de càncer cutani. Sense disseny experimental o un bon control de confusió, la lectura causal seria errònia.

Regressió i causalitat: allò que sí i allò que no

Una regressió prediu una variable a partir d'una altra sota supòsits estadístics. Però ni la correlació ni la regressió proven causalitat per si mateixes; el sentit causal ha de venir de la teoria, la temporalitat o el disseny.

Per parlar d'efecte causal necessites almenys una relació estadísticament significativa i un criteri de direcció: o bé la variable de causa succeeix abans que l'efecte, o bé hi ha una justificació teòrica sòlida de la fletxa causal. Sense temporalitat ni teoria, hi ha associació, no en causa.

Exemple: investigar si l'edat a què un nen formula les primeres frases es relaciona amb el seu èxit escolar posterior. Primer es contrasta l'associació. Si n'hi ha, la direcció és clara per l'ordre temporal: l'èxit escolar no pot recular en el temps i canviar quan va parlar per primera vegada.

I si busques eines per practicar, hi ha calculadores i recursos en línia que permeten córrer correlacions i regressions de forma senzilla; algunes plataformes com numiqo faciliten aquestes anàlisis per a docents, investigadors i professionals.

Com triar entre correlació i inferència causal segons l'objectiu

La correlació és ideal per explorar i monitoritzar relacions en taulers de control, prioritzar hipòtesis i detectar patrons. En la mercadeig, relacionar visites repetides amb conversions o identificar continguts que es mouen amb la recurrència de compra és molt útil.

Quan l'objectiu és atribuir impacte a una intervenció concreta (què passa si augmento pressupost publicitari), necessites mètodes causals: idealment test A/B amb assignació aleatòria; si no és possible, dissenys quasi-experimentals com aparellament, discontinuïtat o diferències en diferències.

Amb dades d'eines com suites d'analítica i plataformes d'anuncis és habitual recórrer a models amb dades observacionals recolzats en supòsits clars. De vegades s'usen instruments vàlids o control sintètic per construir contrafactuals creïbles.

Si t'interessa fer grapes amb exemples reproduïbles, pots revisar repositoris que mostren codis bàsics per jugar amb dades a diferents escenaris, com l'exemple disponible en aquest enllaç: github.com/pichu2707/corr-causal-enae.

Consells pràctics per avaluar evidències

Abans d'abraçar un titular contundent, pregunta't: hi ha aleatorització o només observació? hi ha controls adequats de confusió? els subgrups expliquen la mateixa història o sorgeix una paradoxa de Simpson? Així filtres soroll.

Quan vegis un estudi observacional amb verb fort, reformula-ho mentalment en condicional: s'associa amb i podria reduir o augmentar. Aquesta xicoteta disciplina lingüística evita sobreinterpretacions i manté l'honestedat científica.

Classifica mentalment lestudi: observacional o dintervenció. Els observacionals descobreixen associacions; els experimentals, si estan ben fets, permeten afirmar causa amb molta més seguretat. És un filtre ràpid per no ensopegar.

En psicologia clínica i psicoteràpia, on conviuen múltiples factors en interacció, equips amb experiència en contextos reals recorden que la inferència causal requereix especial cautela i dissenys adequats per no confondre correlacions cridaneres amb efectes terapèutics reals.

Mirar les dades amb lupa, triar l'eina adequada segons la pregunta i tenir cura del llenguatge marca la diferència entre veure que dues coses es mouen juntes i demostrar que una mou l'altra. Fes servir la correlació per explorar i prioritzar hipòtesis, reserva els mètodes causals per atribuir efectes i prendre decisions; així passaràs de què es mou amb què a què causa què amb la màxima fiabilitat possible.