- Fångens dilemma ställer den dominerande strategin mot Pareto-optimum.
- I sin itererade version framträder samarbete och ömsesidig bestraffning.
- Varianter som kyckling eller nyansincitamenten i förtroendespelet.
- Tillämpningar: politik, marknader, trafik, rättvisa och AI-modeller.
I hjärtat av spelteori Det är en kort, beroendeframkallande historia: två medbrottslingar, separata förhör och ett beslut som förändrar allt. Den berättelsen är fångens dilemma., ett enkelt ramverk som ändå förklarar allt från priskrig i oligopol till trafikstockningar eller vapenkapprustningar mellan stater.
Utöver sitt polisexempel tvingar fångens dilemma oss att tänka på hur vi agerar när vår nytta också beror på vad en annan person gör. Det förvånande är att individuella rationella val Detta leder till ett kollektivt resultat som ingen skulle vilja ha om det kunde samordnas. Det är därför detta spel berör discipliner: ekonomi, statsvetenskap, sociologi, evolutionär biologi, neurovetenskap och, i allt högre grad, studiet av artificiell intelligens beteende.
Klassisk definition och berättelse
Tänk dig att polisen griper två misstänkta och håller dem isolerade. De erbjuder alla samma behandlingOm du erkänner och den andra förblir tyst, går du fri och den andra får 10 år; om ni båda erkänner får var och en 6 år; om ingen av erkänner kan ni bara dömas till 1 år för en lindrigare anklagelse. Nyckeln är att ni inte kan kommunicera med varandra, och ni kan inte heller lita helt på varandra även om ni skulle prata.
Detta schema kan presenteras i form av en beslutsmatris för att visualisera resultat när varje person väljer mellan att samarbeta (förbli tyst) eller överge (bekänna). Det är spelets skelett med tusentals praktiska tillämpningar.
| Du erkänner | Du förblir tyst | |
|---|---|---|
| Han erkänner | Båda: 6 år gamla vardera | Du: 10 år; Han: fri |
| Han förblir tyst | Du: fri; Han: 10 år | Båda: 1 år vardera |
Om vi antar att varje fånge bara försöker minimera sitt eget straff, är resonemanget enkelt: Om du tror att den andra personen kommer att förbli tyst, så frigörs du av att förråda dem.Om du tror att han kommer att erkänna, minskar informering ditt straff från 10 till 6 år. Därför är erkännande den dominerande strategin i båda fallen.
Betalningsmatris och kanoniska villkor
Spelet tillåter olika numeriska skalor om incitamentsstrukturen respekteras. Nyckelvillkoret är T > R > C > P, där T (frestelsen) är betalningen för att desertera när den andra samarbetar, R belöningen för ömsesidigt samarbete, C straffet för ömsesidig desertering och P kusinens lön (samarbete när den andra deserterar).
När det gäller positiva nyttor är en typisk kanonisk matris: (3,3) att samarbeta – samarbeta(5,−5) och (−5,5) när den ena defekterar och den andra samarbetar, och (−1,−1) för ömsesidig defektion. Dessutom krävs för den itererade versionen vanligtvis (T + P)/2 < R, vilket stimulerar till att upprätthålla samarbete på lång sikt.
| Samarbeta | Öken | |
|---|---|---|
| Samarbeta | 3, 3 | -5, 5 |
| Öken | 5,-5 | -1, -1 |
Om vi översätter detta till "win-win"-språk är samarbete fördelaktigt för båda; att utnyttja en samarbetspartner ger en "betydande vinst" för den ena och en stor förlust för den andra, och När båda deserterar, förlorar de båda.även om ingen kommer ut lika illa som den utnyttjade "kusinen".
Dominant strategi, Nash och Pareto
Att bekännelse är dominant för varje spelare antyder att Nash-jämvikten är "båda bekänner". Konflikten är att den inte är Pareto-effektiv.För att det finns en annan situation (båda förblir tysta) som gynnar båda parter utan att skada någon. Det är där dilemmat uppstår.
Om vi utvärderar utifrån gemensamt välbefinnande skulle målet vara att minimera det totala antalet straffår, vilket innebär att båda förblir tysta. Det sociala kriteriet och den individuella konfliktenDet som maximerar ens egna intressen på kort sikt leder till ett sämre totalresultat.
| Fånge A | Fånge B | A (straff) | B (straff) | Totalt |
|---|---|---|---|---|
| Att inte erkänna | Att inte erkänna | 1 år | 1 år | 2 år |
| Att inte erkänna | Att erkänna | 10 år | 0 år | 10 år |
| Att erkänna | Att inte erkänna | 0 år | 10 år | 10 år |
| Att erkänna | Att erkänna | 6 år | 6 år | 12 år |
Denna kollision antyder en individuell alternativkostnad när man agerar för det gemensamma bästa: avståenden till "noll år nu" i utbyte mot ett år som undviker mycket sämre resultat för båda. För många teoretiker är invändningen "man måste vara altruistisk" etisk, inte vetenskaplig; andra svarar att utan moraliska band och sociala normer skulle samarbete vara ogenomförbart.
Itererad version: ömsesidighet, straff och förlåtelse
Dilemmat förändras när interaktionerna upprepas. I det itererade fångens dilemma (IPD) Det finns ett minne av tidigare beteenden, möjligheten att bestraffa och belöna, och dörrar öppnas för ett stabilt samarbete.
Robert Axelrod organiserade datorturneringar där automatiserade strategier tävlade. Den mest kända var "Tit for Tat" (give and take). samarbeta först, sedan kopiera motståndarens dragDet fungerade tack vare hans vänlighet (han initierar inte straffcykler), hans förmåga till vedergällning och hans tydlighet, vilket gör det lättare för den andra personen att "förstå spelets regler".
I bullriga miljöer (feltolkningar av pjäser), en variant med ursäkt —vilket ibland inträffar efter en attack—hjälper till att bryta cykler av desertering. Små chanser till förlåtelse (1–5 %) visade sig effektiva, särskilt när kommunikationen bryter samman.
När det är känt i förväg att det kommer att finnas exakt N omgångar, driver induktivt resonemang en att avvika från slutet till början. För att samarbetet ska kunna upprätthållas måste horisonten vara oviss. eller slumpmässigt, eller omgångar "utan att veta hur många som är kvar".
Befolkningsdynamik och utvecklingen av samarbete
Simuleringar med populationer där strategier med låg poäng "dör" och framgångsrika "reproducerar" visar att blandningar av taktiker De kan stabilisera samarbetet. I dessa ekosystem är universell fientlighet vanligtvis värre än ömsesidighet.
Den grundläggande frågan är hur altruism uppstår i sammanhang av naturligt urval. DPI erbjuder en rimlig mekanismAtt vara samarbetsvillig, men ha tänderna vid behov, kan maximera långsiktigt egenintresse.
Kognitiv neurovetenskap och signaler för samarbete
Studier inom kognitiv neurovetenskap har observerat snabba hjärnsignaler efter varje omgång DPI som De väntar på nästa beslut.I situationer av ömsesidigt samarbete uppträder mönster (deltasuppressioner associerade med motivations- och homeostatiska processer) som förutsäger hastighet i återgången till samarbete.
Verkliga exempel: politik, sport, trafik och rättvisa
Internationella relationer: två stater står inför en kapprustning. Var och en resonerar att ökade utgifter är "det säkraste att göra" utan att tvivla på den andras engagemang för att minska den. Resultat: militär expansion som försätter båda i en sämre position än en trovärdig pakt.
Utbrytningscykling: två cyklister i ledningen gynnas av att växla ansträngning mot vinden. Om man "utnyttjar" hjulet Medan den ena cyklisten drar iväg kan den andra spurta framåt i slutet och vinna, men om ingen av dem drar iväg kommer klungan att hinna ikapp dem. Parallellen med dilemmat är tydlig.
Icke-prioriterade korsningar: när alla ger sin tur och koordinater är flödet stabilt. Om någon smyger in medan alla andra hjälper till, får en tillfällig fördel; om alla försöker åka först är en trafikstockning oundviklig.
Oligopol och priskrig
Tänk på två företag som säljer en produkt och tvekar mellan att välja ett högt pris (10 euro) eller att sänka det (8 euro). Om båda behåller 10 euroDe delar på försäljningen och tjänar var och en 500 000 euro. Om den ena sjunker till 8 euro och den andra stannar på 10 euro, tjänar den som sjunker 640 000 euro och den andra 200 000 euro. Om båda sjunker tjänar de 400 000 euro var.
Varje företag resonerar att, oavsett vad konkurrenten gör, nedåtgående trend är den dominerande trendenResultatet (8 €, 8 €) är individuellt bättre men totalt sett sämre än (10 €, 10 €). Återigen, det klassiska kännetecknet för dilemmat: den konkurrensmässiga jämvikten sammanfaller inte med det övergripande optimala.
TV och spel: Vän eller fiende och Split eller Steal
I formatet ”Vän eller fiende” väljer två tävlande ”vän” (samarbeta) eller ”fiende” (öken). Om de båda är vänner, delar deOm den ena är en fiende och den andra en vän, tar fienden allt; om båda är fiender, tar ingen någonting.
Det säregna är att betalningen när båda förtjänar sammanfaller med den för "Jag är en utnyttjad kollaboratör" (noll för mig). Det förvandlar tillståndet av ömsesidig desertering till en neutral jämviktDet är någonstans mellan ett vanligt dilemma och en omgång kyckling. I "Split or Steal" är logiken liknande och testar trovärdigheten hos tidigare muntliga överenskommelser.
Närbesläktade varianter: höna och förtroendespel
Kycklingspelet ändrar ordningen på dåliga resultat: Ömsesidig desertering är det värsta av alltAtt samarbeta när motparten deserterar undviker en frontalkrock, och därför skiljer sig den strategiska strukturen från det klassiska dilemmat.
- Båda samarbetar+5 och +5.
- Den ena samarbetar och den andra överger: samarbetspartnern +1, desertören +1 +10.
- Ömsesidig desertering: −20 och −20, det sämsta resultatet.
Förtroendespelet är sekventiellt: en spelare skickar en del av 10 dollar, det beloppet tredubblas för den andra spelaren, som bestämmer hur mycket som ska skickas tillbaka. I en enda runda är den rationella jämvikten "att inte skicka"Men social jämvikt kräver förtroende och ömsesidighet. Upprepat över tid kan samarbete bli stabilt.
Allmänhetens tragedi och samarbete i stora grupper
När många aktörer delar en resurs – gemensamma betesmarker eller en ren atmosfär – har var och en ett incitament att dra nytta av den utan att betala dess kostnad. Om alla ger efter för frestelsenResursen försämras och alla förlorar: det är allmänningens tragedi (Hardin).
Tillämpat på dilemmats logik njuter T av det gemensamma bästa gratis, R förhandlar om avgifter för att upprätthålla det, C är resursens undergång och P är kostnaden för att vara en "kusin" som ger upp medan andra inte gör det. Privatisering eller åtkomstbegränsning har föreslagits som ett sätt att bryta incitamentet till överexploatering, även om etnografiska bevis visar att samhällsnormer, utbildning och seder kan upprätthålla samarbete utan stark extern tvång.
För Derek Parfit är de verkligt intressanta fallen de som är beroende av många deltagare, där Att bara desertera förändrar knappast någonting. Och därför blir det ”rationellt” att inte samarbeta. Paula Casal betonar att ursprungsbefolkningar har bevarat gemensamma tillgångar tack vare sociala institutioner, vilket motverkar fatalismen.
Etik, värderingar och kritik av snäv "rationalitet"
En vanlig tolkning av dilemmat hävdar att endast en förändring i värderingar – från rent egenintresse till omsorg om det gemensamma bästa – förhindrar kollektiv självförstörelse. Svaret från vissa spelteoretikerSom Kenneth Binmore menar är invändningen moralisk (kantiansk), inte teknisk: teorin erkänner redan att den optimala mängden är överlägsen, den beskriver bara varför den kanske inte kan uppnås.
Ändå bygger ett hållbart samarbete i praktiken vanligtvis på utomkontraktuella regler, moraliska eller religiösa koder som internaliserar kostnaden för svek och underlättar samordning, även när det inte finns någon omedelbar extern bestraffning.
Fallet "Adam och Bianca"
Adam och Bianca förhörs separat med denna överenskommelse: om den ena erkänner och den andra tiger, går biktfadern fri och den andra får 20 år; om båda erkänner, 5 år var; om ingen erkänner, 1 år var. För Adam dominerar bekännelsen Oavsett om han tror att Bianca kommer att tiga eller erkänna, gäller detsamma Bianca.
Således är balansen "båda bekänner" med 5 år vardera, även om Samarbete skulle göra det möjligt för dem båda att göra det inom ett år.Mönstret upprepas oavsett den numeriska skalan, så länge T > R > C > P respekteras.
Ett "falskt" dilemma: Batman-fallet
En känd filmscen nämner fångens dilemma, men det riktiga spelet är mer som "kyckling". Ordningen för besluten spelar roll och det första draget kan tippa resultatet, vilket inte händer i det klassiska samtidiga dilemmat med dominerande strategier.
Emotionell intelligens och lärande inom HR.
Inom teambuilding, förhandlingar och ledarskap hjälper simulering av fångens dilemma till att observera hur vi balanserar förnuft och känslor. Att sätta sig in i någon annans skorAtt läsa tecknen och bygga förtroende förändrar resultaten. Det handlar inte om att "vara naiv", utan om att utforma sammanhang där samarbete är hållbart.
AI och fångens dilemma
Gränsen förskjuts mot AI-agenter som interagerar med varandra. Nyligen genomförda analyser beskriver hur stora språkmodeller uppvisar ihållande "strategiska fotavtryck" i fångens dilemma-scenarier: vissa mer samarbetsvilliga, vissa tuffare och mer hämndlystna, och vissa mer förlåtande efter svek.
Det har till exempel rapporterats att vissa Google-modeller uppvisar en mer anpassningsbar "machiavellisk" profil, medan Andra från OpenAI samarbetar ännu mer i fientliga miljöerClaude (Anthropic) utmärker sig genom sin vilja att återupprätta samarbete efter exploatering. Enligt dessa verk resonerar modellerna kring tidshorisonten och motståndarens taktik, vilket öppnar dörren till en "maskinernas psykologi".
Parallellt har kontrollerade experiment pekat på oväntade beteenden under hot – såsom utpressningsförsök – vilket understryker behovet av säkerhets-, transparens- och styrningsstandarder eftersom dessa system interagerar med människor och med varandra.
Turneringar, samverkan och "hemliga hälsningar"
På 20-årsdagen av DPI-turneringarna (2004) presenterade ett lag från Southampton flera bottar som kände igen varandra med mönster av inledande spel ("hälsningar"). Om de upptäckte "familj"Vissa spelare offrade sig själva genom att alltid samarbeta för att maximera andras poäng i sin grupp; annars straffade de andra genom att inte göra poäng. Strategin följde reglerna och visade hur implicit kommunikation kan snedvrida tävlingar.
Anmärkningar om felaktig kommunikation
I praktiken tolkas ibland ”samarbeta” som ”överge” på grund av brus i signalen. Däri ligger den beräknade förlåtelsen Det undviker straffloopar, vilket gör att samarbetet kan återupprättas. Detta är en av anledningarna till att ömsesidig förlåtelse fungerade bra i bullriga miljöer.
Hur det ser ut ”uppifrån”: social optimism
Om vi maximerar den gemensamma välfärden (summan av betalningarna till båda), vinner det ömsesidiga samarbetet med övertag mot deserteringscykler. Problemet är att utforma mekanismer —rykte, upprepning, sanktioner, kontrakt, regler— som gör samarbete till den bästa vägen även för egenintresse.
Snabbläsningsguide och bibliografi
För att gå djupare in på det, så är klassikerna Axelrod (samarbetets utveckling), Hofstadter (turneringar och resonemang), Poundstone (von Neumanns historia och kontext) och Grofmans och Pools arbeten (bayesianska modeller). Den filosofiska aspekten lyser igenom hos Derek Parfit och, i allmänningens kontext, i debatten mellan institutionella tillvägagångssätt och gemenskapslösningar.
Sett lugnt är fångens dilemma mindre ett matematiskt pussel och mer en spegelbild av våra relationer: om vi bara strävar efter omedelbar vinstVi får det sämre till slut än om vi kommer överens om regler, litar försiktigt och straffar när det behövs. Från imaginära fängelser till verkliga marknader, från trafik till AI, hjälper förståelsen av denna spänning oss att fatta smartare, och kanske till och med mer humana, beslut.