Vangi dilemma teooria, variatsioonid, näited ja strateegiad

Viimane uuendus: 22 novembril 2025
  • Vangi dilemma seab domineeriva strateegia vastamisi Pareto optimumiga.
  • Selle itereeritud versioonis tekivad koostöö ja vastastikune karistamine.
  • Variandid nagu kana või usaldusmängu nüansipõhised stiimulid.
  • Rakendused: poliitika, turud, liiklus, õigusemõistmine ja tehisintellekti mudelid.

Vangi dilemma kujutamine

Südames mänguteooria See on lühike ja sõltuvust tekitav lugu: kaks kaasosalist, eraldi ülekuulamised ja otsus, mis muudab kõike. See lugu on vangi dilemma., lihtne raamistik, mis sellegipoolest selgitab kõike alates hinnasõdadest oligopolides kuni liiklusummikute või riikidevahelise võidurelvastumiseni.

Lisaks politsei näitele sunnib vangi dilemma meid mõtlema sellele, kuidas me käitume olukorras, kus meie kasu sõltub ka teise inimese tegudest. Üllatav on see, et individuaalne ratsionaalne valik See viib kollektiivse tulemuseni, mida keegi ei tahaks, kui seda saaks koordineerida. Seepärast hõlmab see mäng mitmeid distsipliine: majandusteadust, politoloogiat, sotsioloogiat, evolutsioonibioloogiat, neuroteadust ja üha enam ka tehisintellekti käitumise uurimist.

Klassikaline definitsioon ja lugu

Kujutage ette, et politsei arreteerib kaks kahtlusalust ja hoiab neid isolatsioonis. Nad pakuvad igaühele sama kohtlemistKui sa tunnistad üles ja teine ​​vaikib, lähed sa vabaks ja teine ​​saab 10 aastat vangistust; kui te mõlemad tunnistate üles, saavad mõlemad 6 aastat; kui kumbki ei tunnista üles, võidakse sind kergema süüdistuse korral karistada ainult 1 aastaga. Peamine on see, et te ei saa omavahel suhelda ega saa teineteist täielikult usaldada isegi siis, kui te räägiksite.

Selle skeemi saab esitada otsustusmaatriksi kujul, et visualiseerida tulemusi, kui iga inimene valib koostöö (vaikimise) või deserteerumise (ülestunnistuse) vahel. See on mängu skelett tuhandete praktiliste rakendustega.

Sa tunnistad üles Sa jääd vait
Ta tunnistab üles Mõlemad: mõlemad 6-aastased Sina: 10 aastat; Tema: vaba
Ta jääb vait Sina: vaba; Tema: 10 aastat Mõlemad: kumbki 1 aasta

Kui eeldada, et iga vang püüab ainult oma karistust minimeerida, on arutluskäik lihtne: Kui arvad, et teine ​​inimene vaikib, siis tema reetmine vabastab sind.Kui usute, et ta tunnistab üles, vähendab teavitamine teie karistust 10 aastalt 6 aastale. Seega on ülestunnistus mõlemal juhul domineeriv strateegia.

Maksemaatriks ja kanoonilised tingimused

Mäng lubab erinevaid numbrilisi skaalasid, kui stiimulite struktuuri austatakse. Põhitingimus on T > R > C > P, kus T (kiusatus) on tasu deserteerumise eest, kui teine ​​teeb koostööd, R on vastastikuse koostöö tasu, C on karistus vastastikuse deserteerumise eest ja P on nõo tasu (koostöö, kui teine ​​deserteerub).

Positiivsete kasulikkuste osas on tüüpiline kanooniline maatriks järgmine: (3,3) koostööd tegema – koostööd tegema(5,−5) ja (−5,5), kui üks pool teeb defekti ja teine ​​teeb koostööd, ning (−1,−1) vastastikuse defekti korral. Lisaks on itereeritud versiooni puhul tavaliselt vaja (T + P)/2 < R, mis motiveerib pikaajalise koostöö säilitamist.

Koostöö Kõrb
Koostöö 3, 3 -5, 5
Kõrb 5, -5 -1, -1

Kui me tõlgime selle "win-win" keelde, on koostöö kasulik mõlemale poolele; koostööpartneri ärakasutamine toob ühele "märkimisväärset kasu" ja teisele suure kahju. Kui mõlemad kõrbevad, kaotavad nad mõlemad.kuigi keegi ei tule sellest nii halvasti välja kui ärakasutatud "nõbu".

Domineeriv strateegia, Nash ja Pareto

See, et iga mängija jaoks on domineeriv ülestunnistus, viitab Nashi tasakaalule, kus „mõlemad tunnistavad üles“. Konflikt seisneb selles, et see ei ole Pareto-efektiivne.Sest on olemas teine ​​olukord (mõlemad jäävad vait), mis on kasulik mõlemale poolele ilma kedagi kahjustamata. Siit tekibki dilemma.

Kui hindame ühise heaolu põhjal, oleks eesmärk minimeerida karistusaastate koguarvu, mis hõlmab mõlema vaikimist. Sotsiaalne kriteerium ja individuaalne kokkupõrgeSee, mis lühiajaliselt maksimeerib enda huve, viib halvema üldtulemuseni.

Vang A Vang B A (penaltivärav) B (karistus) Summa kokku
Mitte tunnistada Mitte tunnistada 1 aasta 1 aasta 2 aastat
Mitte tunnistada Tunnistada 10 aastat 0 aastat 10 aastat
Tunnistada Mitte tunnistada 0 aastat 10 aastat 10 aastat
Tunnistada Tunnistada 6 aastat 6 aastat 12 aastat

See konflikt viitab individuaalsele alternatiivkulule ühise hüve nimel tegutsedes: loobumised „null aastat nüüd“ vastutasuks aasta eest, mis hoiab ära palju halvemad tulemused mõlema jaoks. Paljude teoreetikute jaoks on vastuväide „peab olema altruistlik” eetiline, mitte teaduslik; teised vastavad, et ilma moraalsete sidemete ja sotsiaalsete normideta oleks koostöö teostamatu.

Korduv versioon: vastastikkus, karistamine ja andestus

Dilemma muutub, kui interaktsioonid korduvad. Kordunud vangi dilemma (IPD) korral Tekib mälestus varasemast käitumisest, võimalus karistada ja premeerida ning uksed avanevad stabiilsele koostööle.

Robert Axelrod korraldas arvutiturniire, kus võistlesid automatiseeritud strateegiate üle. Kõige kuulsam neist oli „Tit for Tat” (anna ja võta). tee esmalt koostööd ja seejärel kopeeri vastase käikSee toimis tänu tema lahkusele (ta ei algata karistustsükleid), kättemaksuvõimele ja selgusele, mis teeb teisel inimesel "mängureeglite mõistmise" lihtsamaks.

Mürarikkas keskkonnas (näidikute valesti tõlgendamine), variant vabandusega – mis mõnikord juhtub pärast rünnakut – aitab murda välja deserteerumistsüklist. Väikesed andestamise võimalused (1–5%) osutusid tõhusaks, eriti kui suhtlus katkeb.

Kui on ette teada, et voorusid tuleb täpselt N, siis induktiivne arutluskäik surub inimese lõpust algusesse. Koostöö säilitamiseks peab silmapiir olema ebakindel. või juhuslikult või voorudes "teadmata, kui palju on alles".

Rahvastiku dünaamika ja koostöö areng

Simulatsioonid populatsioonidega, kus madala punktisummaga strateegiad "surevad" ja edukad "paljunevad", näitavad, et taktikate segud Nad suudavad stabiliseerida koostööd. Nendes ökosüsteemides on universaalne vaenulikkus tavaliselt hullem kui vastastikkus.

Põhiküsimus on, kuidas altruism loodusliku valiku kontekstis tekib. DPI pakub usutavat mehhanismiKoostööaldis, kuid vajadusel kavalana püsiv olemine aitab pikaajalisi omakasu maksimeerida.

Kognitiivne neuroteadus ja koostöö signaalid

Kognitiivse neuroteaduse uuringutes on täheldatud kiireid ajusignaale pärast iga DPI vooru, mis Nad ootavad järgmist otsust.Vastastikuse koostöö olukordades ilmnevad mustrid (motivatsiooniliste ja homöostaatiliste protsessidega seotud delta-supressioonid), mis ennustavad koostöö juurde naasmise kiirust.

Näited reaalsest elust: poliitika, sport, liiklus ja õigusemõistmine

Rahvusvahelised suhted: kaks riiki seisavad silmitsi võidurelvastumisega. Igaüks neist põhjendab, et kulutuste suurendamine on "kõige ohutum asi". ilma et see kahtleks teise poole pühendumuses selle vähendamisele. Tulemus: sõjaline laienemine, mis jätab mõlemad halvemasse olukorda kui usutav pakt.

Erakorraline rattasõit: kaks eesotsas olevat jalgratturit saavad kasu tuule vastu suunatud pingutuste vaheldumisest. Kui keegi ratast "ära kasutab" Samal ajal kui üks rattur veab, saab teine ​​lõpus värskelt spurtida ja võita, aga kui kumbki ei vea, püüab peloton nad kinni. Paralleel dilemmaga on selge.

Mitteprioriteetsed ristmikud: kui kõik annavad oma pöörde ja annavad koordinaadid edasi, on liiklusvoog stabiilne. Kui keegi hiilib sisse, kui kõik teised aitavad, saab ajutise eelise; kui kõik üritavad esimesena minna, on liiklusummik vältimatu.

Oligopolid ja hinnasõjad

Mõtle kahele ettevõttele, kes müüvad toodet ja kõhklevad kõrge hinna (10 €) või selle langetamise (8 €) vahel. Kui mõlemad jätavad endale 10 eurotNad jagavad müügitulu ja teenivad kumbki 500 000 eurot. Kui ühe müük langeb 8 euroni ja teise müük jääb 10 euro juurde, siis langeva müügitulu omanik teenib 640 000 eurot ja teise müügitulu omanik 200 000 eurot. Kui mõlema müügitulu langeb, teenivad kumbki 400 000 eurot.

Iga firma arutleb, et olenemata sellest, mida konkurent teeb, langus on domineeriv trendTulemus (8 €, 8 €) on individuaalselt parem, kuid kokkuvõttes halvem kui (10 €, 10 €). Jällegi dilemma klassikaline tunnus: konkurentsitasakaal ei lange kokku üldise optimumiga.

Televisioon ja mängud: Sõber või vaenlane ja Jaga või varasta

„Sõber või vaenlane“ formaadis valivad kaks võistlejat „sõbra“ (teevad koostööd) või „vaenlase“ (kõrb). Kui nad mõlemad on sõbrad, siis nad jagavadKui üks on vaenlane ja teine ​​sõber, võtab vaenlane kõik; kui mõlemad on vaenlased, ei võta keegi midagi.

Omapära on see, et tasu mõlema teenete eest langeb kokku tasuga "ma olen ärakasutatav kaastööline" (minu puhul null). See muudab vastastikuse deserteerumise seisundi neutraalseks tasakaaluksSee on kuskil tavalise dilemma ja näägutamise vahepeal. „Split or Steal“-is on loogika sarnane ja paneb proovile eelnevate suuliste kokkulepete usaldusväärsuse.

Lähedalt seotud variandid: kana ja usaldusmäng

Kanamäng muudab halbade tulemuste järjekorda: Vastastikune deserteerumine on kõige hullemKoostöö tegemine teise poole deserteerumisel väldib otsest kokkupõrget ja seetõttu erineb strateegiline struktuur klassikalisest dilemmast.

  • Mõlemad teevad koostööd+5 ja +5.
  • Üks teeb koostööd ja teine ​​deserteerub: koostöötegija +1, deserteeruja +1 + 10.
  • Vastastikune deserteerumine: −20 ja −20, halvim tulemus.

Usaldusmäng on järjestikune: üks mängija saadab osa 10 dollarist, teine ​​mängija kolmekordistab selle summa ja otsustab, kui palju tagasi saata. Ühes voorus on ratsionaalne tasakaal "mitte saata"Kuid sotsiaalne tasakaal nõuab usaldust ja vastastikkust. Aja jooksul kordudes võib koostöö muutuda stabiilseks.

Ühismaa tragöödia ja koostöö suurtes gruppides

Kui paljud tegutsejad jagavad ressurssi – ühiskarjamaid või puhast atmosfääri –, on igaühel stiimul seda ära kasutada ilma selle eest maksmata. Kui kõik kiusatusele järele annavadRessurss halveneb ja kõik kaotavad: see on ühismaa tragöödia (Hardin).

Dilemma loogikale rakendatuna naudib T ühist hüve tasuta, R peab läbirääkimisi selle säilitamiseks tasude üle, C on ressursi häving ja P on "nõo" olemise hind, kes loobub, samal ajal kui teised mitte. On tehtud ettepanek erastada või juurdepääsu piirata kui viisi üleekspluateerimise stiimuli murdmiseks, kuigi etnograafilised tõendid näitavad, et kogukonna normid, haridus ja kombed suudavad koostööd säilitada ilma tugeva välise sundita.

Derek Parfiti jaoks on tõeliselt huvitavad need juhtumid, mis sõltuvad paljudest osalejatest, kus Ainult kõrbemine ei muuda peaaegu midagi. Ja seetõttu muutub koostööst loobumine „ratsionaalseks“. Paula Casal rõhutab, et põlisrahvaste kogukonnad on säilitanud ühised hüved tänu sotsiaalsetele institutsioonidele, mis tasakaalustavad fatalismi.

Eetika, väärtused ja kitsa „ratsionaalsuse” kriitika

Dilemma levinud tõlgendus on, et ainult väärtuste muutus – puhtast omakasust ühise hüve eest hoolitsemiseni – hoiab ära kollektiivse enesehävituse. Mõnede mänguteoreetikute vastusNagu Kenneth Binmore väidab, on vastuväide moraalne (kantilik), mitte tehniline: teooria juba tunnistab, et optimaalne hulk on parem, see kirjeldab vaid, miks seda ei pruugita saavutada.

Sellegipoolest põhineb praktikas püsiv koostöö tavaliselt lepinguvälised reeglid, moraali- või usukoodeksid kes arvestavad reetmise hinnaga ja hõlbustavad koordineerimist isegi siis, kui kohest välist karistust ei ole.

„Adami ja Bianca” juhtum

Adamit ja Biancat kuulatakse eraldi üle järgmise kokkuleppe alusel: kui üks tunnistab üles ja teine ​​vaikib, saab pihiisa vabaks ja teine ​​saab 20 aastat vangistust; kui mõlemad tunnistavad üles, siis kumbki 5 aastat; kui kumbki ei tunnista üles, siis kumbki 1 aasta. Adami jaoks domineerib ülestunnistus Olenemata sellest, kas ta usub, et Bianca vaikib või tunnistab üles, kehtib sama ka Bianca kohta.

Seega on saldo "mõlemad tunnistavad" üles, kumbki viie aastaga, kuigi Koostöö võimaldaks neil mõlemal seda teha ühe aasta jooksul.Muster kordub olenemata numbrilisest skaalast, kui T > R > C > P on arvesse võetud.

„Vale” dilemma: Batmani juhtum

Kuulus filmistseen mainib vangi dilemma, aga tegelik mäng on pigem "kana" moodi. Otsuste järjekord on oluline ja esimene käik võib tulemuse kallutada, mida klassikalises domineerivate strateegiatega simultaandilemmas ei juhtu.

Emotsionaalne intelligentsus ja õppimine personalitöös.

Meeskonnatöös, läbirääkimistel ja juhtimisel aitab vangi dilemma simuleerimine jälgida, kuidas me tasakaalustame mõistust ja emotsioone. Enda teise olukorda panemineMärkide lugemine ja usalduse loomine muudab tulemusi. Asi pole "naiivsuses", vaid selliste kontekstide loomises, kus koostöö on jätkusuutlik.

Tehisintellekt ja vangi dilemma

Piir nihkub tehisintellekti agentide poole, mis omavahel suhtlevad. Hiljutised analüüsid kirjeldavad, kuidas suured keelemudelid avalduvad püsivad „strateegilised jalajäljed” vangi dilemma stsenaariumides: mõned koostööaltim, mõned karmimad ja kättemaksuhimulisemad ning mõned reetmiste järel andestavamad.

Näiteks on teatatud, et teatud Google'i mudelitel on kohanemisvõimelisem „machiavellilik“ profiil, samas kui Teised OpenAI töötajad teevad vaenulikus keskkonnas veelgi rohkem koostöödClaude (Anthropic) paistab silma oma valmisolekuga taastada koostöö pärast ärakasutamist. Nende teoste kohaselt arutlevad mudelid ajahorisondi ja vastase taktika üle, mis avab ukse "masinate psühholoogiale".

Samal ajal on kontrollitud katsed osutanud ootamatutele käitumistele ohuolukorras – näiteks väljapressimiskatsetele –, mis rõhutab vajadust turvalisuse, läbipaistvuse ja juhtimisstandardid kuna need süsteemid suhtlevad inimeste ja üksteisega.

Turniirid, kokkumäng ja "salajased tervitused"

DPI turniiride 20. aastapäeval (2004) esitles Southamptoni meeskond mitut robotit, mis tundsid üksteist ära esialgsete mängumustrite („tervituste“) abil. Kui nad tuvastasid "perekonna"Mõned mängijad ohverdasid end, tehes alati koostööd, et oma grupi teiste liikmete skoori maksimeerida; vastasel juhul karistasid nad teisi skoorimata jätmisega. Strateegia järgis reegleid ja näitas, kuidas kaudne suhtlemine võib võistlusi kallutada.

Märkused vigase side kohta

Praktikas tõlgendatakse "koostööd" mõnikord signaali müra tõttu "kõrbemisena". Selles peitub kalkuleeritud andestus See väldib karistusringe, võimaldades koostöö taastamist. See on üks põhjusi, miks andestamine silma vastu toimis hästi ka lärmakas keskkonnas.

Kuidas see "ülalt vaadates" välja näeb: sotsiaalne optima

Kui me maksimeerime ühist heaolu (mõlemale tehtavad maksed), võidab vastastikune koostöö ülekaalukalt deserteerumistsüklite vastu. Probleem on mehhanismide kujundamises – maine, kordused, sanktsioonid, lepingud, reeglid –, mis muudavad koostöö parimaks teeks ka omakasu teenimiseks.

Kiirlugemise juhend ja bibliograafia

Sügavamalt süüvides on klassikaks Axelrod (koostöö evolutsioon), Hofstadter (turniirid ja arutluskäik), Poundstone (von Neumanni ajalugu ja kontekst) ning Grofmani ja Pooli tööd (Bayesi mudelid). Filosoofiline aspekt tuleb esile Derek Parfiti puhul ja ühisvara kontekstis institutsionaalsete lähenemisviiside ja kogukondlike lahenduste vahelise arutelu puhul.

Rahulikult vaadatuna on vangi dilemma vähem matemaatiline mõistatus ja pigem meie suhete peegel: kui me taotleme ainult kohest kasumitLõpuks läheb meil halvemini kui siis, kui lepime kokku reeglites, usaldame ettevaatlikult ja karistame vajadusel. Alates kujuteldavatest vanglatest kuni päris turgudeni, liiklusest tehisintellektini – selle pinge mõistmine aitab meil teha targemaid ja võib-olla isegi inimlikumaid otsuseid.

Mis on mänguteooria?
Seotud artikkel:
Mänguteooria: definitsioon, näited, ajalugu ja reaalse maailma kasutusalad