Дилемата на затворника: Теория, вариации, примери и стратегии

Последна актуализация: Ноември 22, 2025
  • Дилемата на затворника противопоставя доминиращата стратегия на оптимума на Парето.
  • В итеративния си вариант се появяват сътрудничество и реципрочно наказание.
  • Варианти като пилешко или нюансови стимули в играта на доверие.
  • Приложения: политика, пазари, трафик, правосъдие и модели на изкуствен интелект.

Представяне на дилемата на затворника

В сърцето на теория на игрите Има кратка, пристрастяваща история: двама съучастници, отделни разпити и решение, което променя всичко. Тази история е дилемата на затворника., проста рамка, която въпреки това обяснява всичко - от ценови войни в олигополите до задръствания или надпревара във въоръжаването между държавите.

Отвъд примера с полицията, дилемата на затворника ни кара да се замислим как действаме, когато нашата полза зависи и от това, което прави друг човек. Изненадващото е, че индивидуалният рационален избор Това води до колективен резултат, който никой не би искал, ако можеше да бъде координиран. Ето защо тази игра обхваща различни дисциплини: икономика, политически науки, социология, еволюционна биология, невронаука и все по-често изучаването на поведението на изкуствения интелект.

Класическо определение и история

Представете си, че полицията арестува двама заподозрени и ги държи в изолация. Те предлагат на всеки едно и също лечениеАко признаете, а другият мълчи, ще бъдете освободен, а другият ще получи 10 години; ако и двамата признаете, всеки ще получи по 6; ако никой от двамата не признае, можете да бъдете осъдени само на 1 година за по-леко обвинение. Ключовото е, че не можете да общувате помежду си, нито пък можете да си имате пълно доверие, дори ако говорите.

Тази схема може да бъде представена под формата на матрица на решенията, за да се визуализират резултатите, когато всеки човек избира между сътрудничество (мълчание) или дезертьорство (признаване). Това е скелетът на играта с хиляди практически приложения.

Ти признаваш Ти мълчиш
Той признава И двете: на 6 години Ти: 10 години; Той: свободен/свободна
Той мълчи Ти: свободна; Той: 10 години И двете: по 1 година всяко

Ако приемем, че всеки затворник се стреми само да намали собствената си присъда, разсъжденията са ясни: Ако смяташ, че другият човек ще мълчи, предателството му те освобождава.Ако вярвате, че ще си признае, информирането намалява присъдата ви от 10 на 6 години. Следователно, признанието е доминиращата стратегия и в двата случая.

Платежна матрица и канонични условия

Играта позволява различни числови скали, ако се спазва структурата на стимулите. Ключовото условие е T > R > C > P, където T (изкушение) е плащането за дезертьорство, когато другият сътрудничи, R е наградата за взаимно сътрудничество, C е наказанието за взаимно дезертьорство и P е заплащането на братовчеда (за сътрудничество, когато другият дезертира).

От гледна точка на положителните полезности, типична канонична матрица е: (3,3) да сътрудничим – да сътрудничим(5,−5) и (−5,5), когато единият дефектира, а другият сътрудничи, и (−1,−1) за взаимно дефектиране. Освен това, за итерираната версия обикновено се изисква (T + P)/2 < R, което стимулира поддържането на сътрудничество в дългосрочен план.

Сътрудничи Пустиня
Сътрудничи 3, 3 -5, 5
Пустиня 5, 5 -1, -1

Ако преведем това на език, от който „печелят всички“, сътрудничеството е от полза и за двамата; експлоатацията на сътрудник води до „значителна печалба“ за единия и голяма загуба за другия. Когато и двамата дезертират, и двамата губят.въпреки че никой не излиза толкова зле, колкото експлоатираният „братовчед“.

Доминантна стратегия, Наш и Парето

Това, че признаването е доминиращо за всеки играч, предполага, че равновесието на Наш е „и двамата си признават“. Конфликтът е, че не е Парето ефективен.Защото има друга ситуация (и двамата мълчат), която е от полза и за двете страни, без да вреди на никого. Именно оттам възниква дилемата.

Ако оценяваме въз основа на съвместното благополучие, целта би била да се сведе до минимум общият брой години присъда, което включва мълчание и на двамата. Социалният критерий и индивидуалният сблъсъкТова, което максимизира собствените интереси в краткосрочен план, води до по-лош общ резултат.

Затворник А Затворник Б А (дузпа) Б (дузпа) Обща сума
Да не си призная Да не си призная 1 години 1 години 2 година
Да не си призная Да си призная 10 година 0 година 10 година
Да си призная Да не си призная 0 година 10 година 10 година
Да си призная Да си призная 6 година 6 година 12 година

Този сблъсък предполага индивидуална алтернативна цена, когато се действа за общото благо: откази до „нула години сега“ в замяна на година, която избягва много по-лоши резултати и за двамата. За много теоретици възражението „човек трябва да бъде алтруистичен“ е етично, а не научно; други отговарят, че без морални връзки и социални норми сътрудничеството би било невъзможно.

Повторена версия: реципрочност, наказание и прошка

Дилемата се трансформира, когато взаимодействията се повтарят. В повтарящата се дилема на затворника (IPD) Съществува спомен за минало поведение, възможност за наказание и възнаграждение и се отварят врати към стабилно сътрудничество.

Робърт Акселрод организира компютърни турнири, където се състезаваха автоматизирани стратегии. Най-известният беше „Око за око“ (даване и вземане). първо сътрудничи, след това копирай хода на противникаТова проработи заради неговата доброта (той не инициира цикли на наказание), способността му за отмъщение и яснотата му, което улеснява другия човек да „разбере правилата на играта“.

В шумна среда (неправилни тълкувания на пиеси), вариант с извинение — което понякога се случва след нападение — помага за излизане от цикли на дезертьорство. Малките шансове за прошка (1–5%) се оказаха ефективни, особено когато комуникацията се прекъсне.

Когато е известно предварително, че ще има точно N рунда, индуктивното разсъждение тласка човек да се отклони от края към началото. За да се поддържа сътрудничеството, хоризонтът трябва да е неопределен. или произволни, или кръгове „без да се знае колко са останали“.

Динамика на населението и еволюцията на сътрудничеството

Симулации с популации, където стратегиите с нисък резултат „умират“, а успешните „се възпроизвеждат“, показват, че смеси от тактики Те могат да стабилизират сътрудничеството. В тези екосистеми всеобщата враждебност обикновено е по-лоша от реципрочността.

Основният въпрос е как алтруизмът възниква в контекста на естествения подбор. DPI предлага правдоподобен механизъмДа бъдеш отзивчив, но и да използваш зъби, когато е необходимо, може да увеличи максимално дългосрочния личен интерес.

Когнитивна невронаука и сигнали за сътрудничество

Проучвания в когнитивната невронаука са наблюдавали бързи мозъчни сигнали след всеки цикъл на DPI, които... Те очакват следващото решение.В ситуации на взаимно сътрудничество се появяват модели (делта потискания, свързани с мотивационни и хомеостатични процеси), които предсказват скоростта на връщане към сътрудничество.

Примери от реалния свят: политика, спорт, трафик и правосъдие

Международни отношения: две държави са изправени пред надпревара във въоръжаването. Всеки от тях твърди, че увеличаването на разходите е „безопасното нещо“. без да се съмнява в ангажимента на другия да го намали. Резултат: военна експанзия, която поставя и двете страни в по-лошо положение, отколкото един надежден пакт.

Колоездене с откъсване: двама колоездачи начело печелят, като редуват усилието срещу вятъра. Ако някой „се възползва“ от волана Докато единият колоездач дърпа, другият може да спринтира свежо накрая и да спечели, но ако никой от двамата не дърпа, пелотонът ще го настигне. Паралелът с дилемата е ясен.

Неприоритетни кръстовища: когато всички отстъпват реда и координатите си, потокът е стабилен. Ако някой се промъкне, докато всички останали помагат, получава временно предимство; ако всички се опитат да минат първи, задръстването е неизбежно.

Олигополи и ценови войни

Помислете за две компании, които продават даден продукт и се колебаят между висока цена (10 евро) и понижаването ѝ (8 евро). Ако и двамата запазят по 10 евроТе си поделят продажбите и всеки печели по 500 000 евро. Ако цената на единия падне до 8 евро, а другият остане на 10 евро, този, който падне, печели 640 000 евро, а на другия - 200 000 евро. Ако и двамата паднат, всеки от тях печели по 400 000 евро.

Всяка фирма разсъждава, че каквото и да прави конкурентът, доминиращата тенденция е спадътРезултатът (€8, €8) е индивидуално по-добър, но като цяло е по-лош от (€10, €10). Отново, класическият отличителен белег на дилемата: конкурентното равновесие не съвпада с общия оптимум.

Телевизия и игри: Приятел или враг и Разделяне или кражба

Във формата „Приятел или враг“ двама състезатели избират „приятел“ (сътрудничат) или „враг“ (пустиня). Ако и двамата са приятели, те споделятАко единият е враг, а другият приятел, врагът взема всичко; ако и двамата са врагове, никой не взема нищо.

Особеността е, че плащането и при двете заслуги съвпада с това на „Аз съм експлоатиран колаборационист“ (нула за мен). Това превръща състоянието на взаимно дезертьорство в неутрално равновесиеТова е нещо средно между стандартна дилема и игра на пилета. В „Раздели или открадни“ логиката е подобна и подлага на изпитание достоверността на предходни устни споразумения.

Тясно свързани варианти: игра на кокошка и игра на доверие

Играта на пилето променя реда на лошите резултати: Взаимното дезертьорство е най-лошото от всичкоСътрудничеството, когато другата страна дезертира, избягва челен сблъсък и следователно стратегическата структура се различава от класическата дилема.

  • И двамата си сътрудничат+5 и +5.
  • Единият сътрудничи, а другият дезертира: сътрудникът +1, дезертьорът +1 +10.
  • Взаимно дезертьорство: −20 и −20, най-лошият резултат.

Играта на доверие е последователна: единият играч изпраща част от $10, тази сума се утроява за втория играч, който решава колко да изпрати обратно. В един рунд рационалното равновесие е „да не се изпраща“Но социалното равновесие изисква доверие и реципрочност. Повтарящо се с течение на времето, сътрудничеството може да стане стабилно.

Трагедията на общото благо и сътрудничеството в големи групи

Когато много агенти споделят даден ресурс – общи пасища или чиста атмосфера – всеки има стимул да се възползва от него, без да плаща цената му. Ако всеки се поддаде на изкушениетоРесурсът се деградира и всички губят: това е трагедията на общото благо (Хардин).

Приложено към логиката на дилемата, Т се наслаждава безплатно на общото благо, R договаря такси, за да го поддържа, C е разрухата на ресурса, а P е цената на това да бъдеш „братовчед“, който се отказва, докато другите не го правят. Предложена е приватизация или ограничаване на достъпа като начин за преодоляване на стимула за свръхексплоатация, въпреки че етнографските доказателства показват, че общностните норми, образованието и обичаите могат да поддържат сътрудничеството без силна външна принуда.

За Дерек Парфит наистина интересните случаи са тези, които зависят от много участници, където Самото дезертьорство едва ли променя нещо. И следователно става „рационално“ да не се сътрудничи. Паула Касал подчертава, че местните общности са запазили общите блага благодарение на социалните институции, уравновесявайки фатализма.

Етика, ценности и критика на тясната „рационалност“

Често срещано тълкуване на дилемата е, че само промяна в ценностите – от чист личен интерес към грижа за общото благо – предотвратява колективното самоунищожение. Реакцията на някои теоретици на игритеКакто твърди Кенет Бинмор, възражението е морално (кантианско), а не техническо: теорията вече признава, че оптималното множество е превъзходно, тя само описва защо то може да не бъде постигнато.

Въпреки това, на практика устойчивото сътрудничество обикновено се основава на извъндоговорни правила, морални или религиозни кодекси които интернализират цената на предателството и улесняват координацията, дори когато няма незабавно външно наказание.

Случаят „Адам и Бианка“

Адам и Бианка са разпитвани поотделно по следната сделка: ако единият признае, а другият запази мълчание, изповедникът е освободен, а другият получава 20 години; ако и двамата признаят, по 5 години; ако никой не признае, по 1 година. За Адам доминира признанието Независимо дали вярва, че Бианка ще мълчи или ще си признае, същото важи и за Бианка.

Следователно, балансът е „и двамата признават“ с по 5 години всеки, въпреки че Сътрудничеството би им позволило и на двамата да го направят за 1 годинаМоделът се повтаря независимо от числовата скала, стига да се спазва T > R > C > P.

„Фалшива“ дилема: случаят с Батман

В една известна филмова сцена се споменава дилемата на затворника, но истинската игра е по-скоро като „пиле“. Редът на решенията е важен и първият ход може да предопредели резултата, което не се случва в класическата едновременна дилема с доминиращи стратегии.

Емоционална интелигентност и учене в човешките ресурси.

В изграждането на екип, преговорите и лидерството, симулирането на дилемата на затворника помага да се наблюдава как балансираме разума и емоциите. Да се ​​поставиш на мястото на някой другРазчитането на знаците и изграждането на доверие променят резултатите. Не става въпрос за „наивност“, а за създаване на контексти, в които сътрудничеството е устойчиво.

Изкуственият интелект и дилемата на затворника

Границата се измества към агенти с изкуствен интелект, които взаимодействат помежду си. Последните анализи описват как големите езикови модели показват... постоянни „стратегически отпечатъци“ в сценариите на дилемата на затворника: някои по-кооперативни, други по-твърди и по-отмъстителни, а трети по-прощаващи след предателства.

Съобщава се например, че някои модели на Google проявяват по-адаптивен „макиавелистки“ профил, докато Други от OpenAI си сътрудничат още повече във враждебна средаКлод (Антропик) се откроява с готовността си да възстанови сътрудничеството след експлоатация. Според тези трудове моделите разсъждават за времевия хоризонт и тактиките на противника, което отваря вратата към „психология на машините“.

Успоредно с това, контролирани експерименти са показали неочаквано поведение под заплаха – като например опити за изнудване – което подчертава необходимостта от стандарти за сигурност, прозрачност и управление тъй като тези системи взаимодействат с хората и помежду си.

Турнири, тайни споразумения и „тайни поздрави“

По случай 20-годишнината на турнирите на DPI (2004 г.), отбор от Саутхемптън представи множество ботове, които се разпознаваха взаимно по модели на първоначални игри („поздрави“). Ако открият „семейство“Някои играчи се жертваха, като винаги си сътрудничеха, за да увеличат максимално резултата на другите в групата си; в противен случай те наказваха другите, като не успяваха да отбележат. Стратегията следваше правилата и показваше как имплицитната комуникация може да повлияе на състезанията.

Бележки относно неправилна комуникация

На практика понякога „сътрудничество“ се тълкува като „дезертиране“ поради шум в сигнала. В това се крие пресметната прошка Това избягва цикли на наказание, позволявайки възстановяване на сътрудничеството. Това е една от причините, поради които прошката „око за око“ е работила добре в шумна среда.

Как изглежда „отгоре“: социални оптимуми

Ако максимизираме съвместното благосъстояние (сумата от плащанията и към двете страни), взаимното сътрудничество печели с голяма разлика срещу циклите на дезертьорство. Проблемът е в проектирането на механизми — репутация, повторение, санкции, договори, правила — които правят сътрудничеството най-добрият път и за личен интерес.

Кратко ръководство за четене и библиография

За да се задълбочим, класиците са Акселрод (еволюция на сътрудничеството), Хофщатер (турнири и разсъждения), Паундстоун (история и контекст на фон Нойман) и работата на Грофман и Пул (байесови модели). Философският аспект проличава с Дерек Парфит и, в контекста на общите блага, с дебата между институционалните подходи и общностните решения.

Погледната спокойно, дилемата на затворника е по-малко математическа загадка и по-скоро огледало на нашите взаимоотношения: ако преследваме само незабавна печалбаВ крайна сметка се оказваме по-зле, отколкото ако се съгласяваме с правилата, доверяваме се предпазливо и наказваме, когато е необходимо. От въображаеми затвори до реални пазари, от трафика до изкуствения интелект, разбирането на това напрежение ни помага да вземаме по-умни и може би дори по-хуманни решения.

Какво е теория на игрите?
Свързана статия:
Теория на игрите: определение, примери, история и приложения в реалния свят