Корелација и узрочност: разлике, примери и како избећи грешке

Последње ажурирање: КСНУМКС новембар КСНУМКС
  • Корелација описује повезаност; узрочност подразумева механизам и смер.
  • Примери из стварног света показују треће променљиве, обрнуту узрочност и Симпсонов парадокс.
  • За процену ефеката: рандомизација, квази-експериментални дизајни и ригорозна прилагођавања.
  • Разборит језик избегава претварање посматрачких асоцијација у дефинитивне узроке.

Концепт корелације и узрочности

Јавни разговор о подацима је пун концептуалних замки, а међу њима је мешање чињенице да две ствари иду руку под руку, при чему једна узрокује другу, једна од најчешћих. Јасно одвојите корелацију од узрочности То није само статистичка техничка детаљност; то је практична вештина за избегавање исхитрених одлука у здравству, економији, маркетингу или... политичке науке.

У наредним редовима наћи ћете комплетан и забаван водич како бисте избегли да упаднете у ту замку. Дефинисаћемо оба концепта и размотрити суштинске разлике.Посматраћемо свакодневне примере који на први поглед обмањују, истражити методе за разоткривање лажних веза и прегледати најробусније приступе закључивању о узрочним ефектима када не можемо слободно експериментисати.

квалитативно истраживање
Повезани чланак:
Квалитативно истраживање: методе, анализа, примери и ригорозност

Шта подразумевамо под корелацијом, а шта под узрочношћу?

Када се две променљиве крећу заједно, обично кажемо да су у корелацији: ако једна расте, друга тежи повећању или обрнуто. Корелација је мера повезаностиКвантификује интензитет и смер тога што иде руку под руку, али нам не говори зашто се то дешава.

Узрочност је друга прича: она имплицира да промена једне променљиве изазива промену друге. Узрочна веза је усмерена. И то захтева механизам који повезује узрок и последицу. Постојање узрочности може, али и не мора, довести до видљиве корелације у подацима, у зависности од тога како меримо и под којим условима.

Кључне разлике које вреди запамтити

  • Корелација не подразумева узрочностМоже постојати повезаност без основне узрочно-последичне везе.
  • Узрочност подразумева механизамМеђутим, то се можда неће манифестовати као корелација ако постоје контроле или компензације које маскирају образац.
  • Корелација је симетрична (А са Б је исто што и Б са А), узрочност није: то што А узрокује Б не значи да Б узрокује А.

Примери који тестирају интуицију

Корелација без узрочности: замка треће променљиве

У временским анализама је типично приметити да се у врућим месецима повећава продаја сладоледа, као и број утапања на плажи. Обе серије се крећу заједно због заједничког фактора. (температура и повећано коришћење плаже), не зато што сладолед изазива утапање или обрнуто. Ово је класичан пример лажне корелације због збуњујуће променљиве.

Нешто слично се догодило са медијским открићем о бебама које су спавале са упаљеним светлом и њиховој већој вероватноћи да оболе од миопије. Касније се видело да је миопија родитеља Утицало је и на коришћење ноћног светла и, кроз наслеђе, на вид деце. Поново, трећа варијабла објашњава повезаност.

Када постоји узрок, али корелација нестаје

Замислите термостат који одржава кућу на константној температури контролишући пећ на гориво. Количина горива изазива топлотуМеђутим, пошто термостат компензује, унутрашња температура можда неће бити у корелацији са сагорелим горивом. Постоји узрочно-последична веза без видљиве корелације у том мерењу.

Смер је важан, а понекад иде уназад.

Често се каже да вођење активног живота штити когнитивне перформансе код старијих особа. Међутим, могућа је обрнута узрочност.Они који задржавају боље когнитивне функције имају тенденцију да одржавају активније рутине. Међутим, ова повезаност сама по себи не решава проблем стреле времена.

Симпсонов парадокс

Овај парадокс се јавља када се тренд присутан у агрегату обрне када се раздвоји подгрупама. Уобичајени пример је третман који изгледа ефикаснији у високим дозама. У укупним подацима, али када се разложе по полу, образац је обрнут јер се расподела дозе разликује између група. Поређење јабука и поморанџи прикрива стварност.

Како открити лажне везе

Користан алат је парцијална корелација: Мери везу између две променљиве док контролише трећу.Ако веза између сладоледа и утапања нестане када се контролише температура, знаћете да је веза била лажна.

Друга стратегија је стратификовање анализе: поделити по релевантним групама (старост, пол, регион) или прилагодити збуњујуће променљиве у моделима, како би се изоловали ефекти и избегли обмањујући закључци услед мешавине популација.

Основне метрике за квантификацију повезаности

Коваријанса показује смер заједничке промене две променљиве. Позитивно ако се крећу у истом смеру и негативно ако се крећу у супротним смеровимаВредност близу нуле указује на одсуство линеарне везе. Њена скала зависи од јединица, тако да није упоредива између различитих парова; ова брига о метрикама подсећа на праксе контролу квалитета.

Пирсонов коефицијент нормализује коваријансу и креће се од -1 до 1. Служи за квантификацију јачине линеарне везе између континуираних квантитативних варијабли, где 1 или -1 представља савршене односе. Такође пружа p-вредност за тестирање да ли се посматрана повезаност може приписати случају под одређеним претпоставкама.

Спирман процењује повезаност на основу рангова. Добро функционише када је веза монотона, али не нужно линеарна.и отпорнији је на аутсајдере. Штавише, подржава ординалне променљиве, нешто што Пирсон не подржава.

Друге мање уобичајене опције укључују Кендал за подударање ранга и бисеријску тачку када Једна променљива је дихотомна, а друга је интервална.Избором исправног коефицијента избегавају се погрешна тумачења.

Што се тиче чувене p-вредности, вреди разјаснити: Није вероватноћа да је хипотеза тачнаПоказује колико би екстремни били посматрани подаци ако би нулти модел био тачан. Ниска p-вредност сугерише да је мало вероватно да је посматрана повезаност последица случајности, али сама по себи не доказује узрочност.

Када користити сваку меру

Ако желите да знате у ком смеру се крећу две променљиве без намере да упоредите величине, Коваријанса вам даје назнакуЗа мерење јачине линеарне везе са континуираним променљивим и без великих аномалија, Пирсон је природан избор.

Када сумњате да је веза монотона, али не и линеарна, Да ли постоје екстремне вредности или радите са ординалним подацима?Спирманов коефицијент корелације ранга обично даје поузданије одговоре. И запамтите: свака корелација описује повезаност, а не ефекат.

Шта је узрочни модел и за шта се користи?

Моделирање структурних једначина (SEM) омогућава наведите истовремене везе између променљивих са грешком и теоријским ограничењима. Корисни су када систем има више узрочних путања и латентних променљивих.

Како ригорозно извести узрочно-последичне закључке

Камен темељац су рандомизована контролисана испитивања. Рандомизација насумично додељује третман или контролубалансирањем посматраних и непосматраних фактора у просеку. Ако све остало остане упоредиво, разлика у резултатима се приписује третману.

Када рандомизација није изводљива, појављују се квази-експериментални дизајни. Процес упаривања има за циљ да упореди јабуке са јабукама., упаривање третираних и контролних јединица на релевантним коваријаблама.

Дисконтинуитет у регресији користи праг: гранична тачка која додељује третманОни који падну одмах изнад и испод прага су слични, осим интервенције, која омогућава локалну процену ефекта.

Разлике у разликама се упоређују еволуција третиране групе и контролне групе Пре и после интервенције, под претпоставком паралелних трендова у одсуству третмана. То је моћан алат у евалуацији политика.

Подаци посматрања се такође могу користити за напредак комбиновањем теорије и статистике и ситуациона анализа. Важећи инструменти, синтетичке контроле или модели машинског учења Они помажу у процени ефеката, увек јасно стављајући претпоставке у обзир. Аналитички алати као што су рекламне платформе или пакети дигиталне аналитике илуструју овај приступ историјским подацима.

Корелација у великим подацима: могућности и замке

Истраживање корелација у великим базама података открива вредне обрасце, али Што је море података веће, то више лажних сирена певаПојављују се упечатљиве асоцијације које су резултат статистичких случајности, а не стварних односа.

Алгоритми откривају правилности, али без јасног узрочно-последичног питања и робусног дизајна студијеВероватноћа да се шум замени са сигналом драматично се повећава. Стога, корелација води хипотезе; узрочност је поткрепљена добро осмишљеним студијама.

Одговоран језик: знаци упозорења

Када читате наслове, будите опрезни са категоричким глаголима попут смањити, повећати, изазвати или елиминисати ако докази потичу из опсервационих студија. Препоручљиво је користити опрезне изразе како је повезано са, могло би се побољшати, сугерише везу.

Он такође сумња узрочне тврдње засноване на једноставним запажањимаАсоцијација не одређује смер: може бити супротан или због збуњујућих варијабли. Опрез у језику спречава лоше одлуке.

Илустративан пример била је порука да конзумирање маслиновог уља смањује смртност. Опсервациони докази проналазе повољне асоцијацијеАли то није довољно да се тврди узрочна појава; прикладније је рећи да је повезано са нижом смртношћу или да би је могло смањити, док се чекају испитивања.

С друге стране, појавили су се наслови о хормонском третману који је изгледа штитио срце. Контролисањем социоекономског нивоа и начина живота Ефекат је избледео, па чак и обрнут. Скривене варијабле могу проузроковати много штете ако се не контролишу.

Свакодневни примери који су обмањујући

Петао пева пре зоре и сунце излази сваки дан, али Певање не чини да сунце изађеСлично томе, прање аутомобила не изазива кишу, иако понекад може изгледати тако пуком случајношћу.

У здравству, када сте прехладени, пијете сок од лимуна и после неколико дана вам буде боље. Природни развој инфекцијеОдмор и друга нега објашњавају побољшање; не можемо га једноставно приписати соку.

Промене у симптомима могу се приметити код било ког третмана. То није довољно да се закључи да је промена последица третмана.Могу бити у питању спољни фактори, регресија у односу на просек или спонтана побољшања.

Они који конзумирају мање ултра-прерађене хране имају тенденцију да имају мању учесталост рака, али Та разлика може одражавати здравији начин живота.Већа физичка активност, бољи приступ здравственој заштити или социоекономске разлике. Повезаност не доказује узрочност.

Од корелације до узрочности помоћу емпиријских студија

Познати случај: више физичке активности је повезано са мањим бројем кардиоваскуларних болести. Корелација отвара врата хипотезамаНа пример, вежбање може повећати азотни оксид и проширити крвне судове, смањујући крвни притисак. Контролисани експеримент затим може измерити овај механизам и проценити узрочни ефекат.

Још један наиван пример: могли бисте открити да је више вежбања повезано са већом учесталошћу рака коже. Прави уобичајени узрок би био излагање сунцушто повећава и активности на отвореном и ризик од рака коже. Без експерименталног дизајна или добре контроле збуњујућих фактора, узрочно тумачење би било погрешно.

Регресија и узрочност: шта функционише, а шта не

Регресија предвиђа једну променљиву на основу друге под статистичким претпоставкама. Али ни корелација ни регресија не доказују узрочност. сами по себи; узрочни смисао мора потицати из теорије, темпоралности или дизајна.

Да бисте говорили о узрочној вези, потребна вам је барем статистички значајна веза и критеријум управљањаИли се узрочна променљива јавља пре ефекта, или постоји чврсто теоријско оправдање за узрочну везу. Без темпоралности или теорије, постоји повезаност, а не узрочност.

Пример: истражити да ли је узраст у којем дете формулише своје прве реченице повезан са његовим каснијим академским успехом. Прво, асоцијација се упоређујеАко постоји, правац је јасан из временског редоследа: школски успех не може да се врати у прошлост и промени када је први пут проговорио.

А ако тражите алате за вежбање, постоје онлајн калкулатори и ресурси који Омогућавају вам да покренете корелације и регресије на једноставан начин; неке платформе попут numiqo-а олакшавају ове анализе за наставнике, истраживаче и стручњаке.

Како бирати између корелације и узрочне инференције у зависности од циља

Корелација је идеална за истраживање и праћење односа на контролним таблама, давање приоритета хипотезама и откривање образаца. у маркетингПовезивање поновљених посета са конверзијама или идентификовање садржаја који се креће са учесталошћу куповине је веома корисно.

Када је циљ приписати утицај одређеној интервенцији (шта се дешава ако повећам буџет за оглашавање), Потребне су вам узрочне методеИдеално, А/Б тестови са случајним распоређивањем; ако то није могуће, квази-експериментални дизајни као што су подударање, дисконтинуитет или разлика у разликама.

Са подацима из алата као што су аналитички пакети и рекламне платформе, уобичајено је да се прибегне модели са посматрачким подацима поткрепљено јасним претпоставкама. Понекад се користе валидни инструменти или синтетичка контрола за конструисање веродостојних контрафактуалних тврдњи.

Ако сте заинтересовани за експериментисање са репродуцибилним примерима, можете погледати репозиторијуме који показују основни кодови за играње са подацима у различитим сценаријима, као у примеру доступном на овом линку: github.com/pichu2707/corr-causal-enae.

Практични савети за процену доказа

Пре него што прихватите сензационални наслов, запитајте се: Да ли постоји рандомизација или само посматрање?Да ли постоје адекватне контроле за збуњујуће резултате? Да ли подгрупе причају исту причу или се јавља Симпсонов парадокс? Овако се филтрира шум.

Када видите опсервациону студију са јаким глаголом, ментално га преформулишите у кондиционал: повезано је са и могло би смањити или повећатиОва мала лингвистичка дисциплина избегава претерана тумачења и одржава научну искреност.

Ментално класификујте студију: опсервациону или интервентну. Истраживачи посматрачи откривају асоцијацијеЕксперименталне студије, ако су добро спроведене, омогућавају много већу сигурност у утврђивању узрочности. Оне делују као брзи филтер за избегавање грешака.

У клиничкој психологији и психотерапији, где коегзистирају и међусобно делују вишеструки фактори, тимови са искуством у реалним контекстима Подсећају нас да узрочно закључивање захтева посебан опрез и одговарајуће дизајне како би се избегло збуњујуће упечатљиве корелације са стварним терапеутским ефектима.

Пажљиво посматрање података, избор правог алата за питање и пажљив начин коришћења језика чине разлику између виђења да се две ствари крећу заједно и демонстрирања да једна покреће другу. Користите корелацију да бисте истражили и одредили приоритет хипотеза.Резервишите узрочне методе за приписивање ефеката и доношење одлука; на овај начин ћете се кретати од онога што се креће са чиме ка ономе што узрокује шта са највећом могућом поузданошћу.