2. Стандартні ігрові стратегії. Гра "дилема ув'язненого". Гра "курча"
Теорія ігор – розділ прикладної математики, який вивчає математичні моделі прийняття рішень у так званих конфліктних ситуаціях, що мають місце. Основоположниками теорії ігор є математик Дж. Фон Непман та економіст О. Моргенштерн.
Сутність теорії ігор полягає у встановленні оптимальної (у тому чи іншому змісті) стратегії поведінки в конфліктних ситуаціях. Метою теорії ігор є визначення оптимальної стратегії для кожного гравця.
Стратегією гравця називається сукупність правил, що обумовлюють вибір його дій при кожному особистому ході залежно від наявної ситуації.
Під конфліктом розуміється ситуація, в якій стикаються інтереси двох чи більше сторін, які переслідують різні (інколи протилежні) цілі. Кожна з сторін-учасників конфліктних ситуацій може у певний спосіб впливати на хід подій, але не має змоги повністю ним керувати. Конфліктні ситуації виникають під час вирішення різноманітних економічних проблем (відносини між організаціями-виробниками і споживачами, торгівля, економічна конкуренція тощо).
Щоб дослідити конфліктну ситуацію будують її формалізовану спрощену модель, яка називається грою. Теорія ігор встановлює для різних класів конфліктних ситуацій оптимальні лінії поведінки учасників – стратегії гравців, що забезпечують рівновагу у грі. Оптимальні стратегії гравців гарантують кожному з них якийсь виграш, причому такий, що відхід будь-якого з учасників від узгодженої стратегії може тільки зменшити його виграш.
Ігри різняться за числом учасників, характеристиками так званих платіжних функцій, які визначають виграш кожного гравця залежно від його поведінки і поведінки інших учасників конфлікту, за інформацією про ситуацію, що склалася та яка є в розпорядженні партнерів, за правилами, що обмежують вибір лінії поведінки учасників, за можливостями укладання угод між ними і входження в коаліції, за визначенням поняття "рівноваги" чи "справедливого вирішення гри".
Наприклад, теорія ігор математично описує характерні для ринкової економіки явища конкуренції у вигляді гри. Простий варіант передбачає протистояння двох конкурентів за ринок збуту. Складні варіанти передбачають, що в грі беруть участь багато супротивників, вступаючи при цьому між собою в постійні або в тимчасові союзи. У першому випадку гра називається парною, в другому – гра л-осіб, або множинна. У виразі наявності союзів гра має назву коаліційної.
Складовою теорії ігор виступає статистична теорія ігор. Це розділ сучасної прикладної математики, який вивчає методи обґрунтування оптимальних рішень в конфліктних ситуаціях.
У теорії статистичних ігор наявні такі поняття як вихідна стратегічна гра і власне статистична гра. В цій теорії першого гравця називають природою, вкладаючи в це поняття сукупність обставин, в яких доводиться приймати рішення другому гравцю, якого називають статистиком.
Якщо виграш одного гравця дорівнює програшу іншого, то гра називається антагоністичною або грою з нульовою сумою. У процесі гри її учасники здійснюють ходи. Ходом гравця називається вибір та здійснення однієї із передбачених правилами дій.
Ходи бувають двох видів: особисті та випадкові. Особистий хід – це свідомий вибір гравцем одного з можливих варіантів дій. У подальшому ми будемо розглядати тільки особисті ходи гравців. Випадковий хід – це випадково вибрана дія.
Для того, щоб вирішити гру, або знайти рішення гри необхідно для кожного гравця вибрати стратегію, яка б відповідала умові оптимальності. Це означає, що один із гравців повинен одержати максимальний виграш, у той час як другий дотримується своєї стратегії. Такі стратегії називаються оптимальними.
Оптимальні стратегії мають також відповідати умові стійкості, тобто будь-кому з гравців повинно бути невигідно відмовитися від своєї стратегії у цій грі.
Якщо гра повторюється багато разів, то тоді гравців може цікавити не виграш і програш кожного разу в кожній конкретній партії, а середній виграш (програш) в усіх партіях.
Можна виділити наступні переваги теорії ігор:
1) завдяки даної теорії можна виявити які стани гри вважаються справедливими, рівноважним, оптимальними, а також проаналізувати властивості і способи досягнень таких станів;
2) використовуючи теорії ігор підприємство отримує можливість передбачити ходи своїх партнерів і конкурентів;
3) дозволяє гравцеві вибирати з певної кількості альтернативних варіантів "найкращий хід" який представляється йому "кращою відповіддю" на дію інших гравців;
4) теорія ігор показує виграш чи програш учасників.
Найбільш поширеними та продуктивними стандартними моделями ігрової динаміки, які добре відображають поведінку акторів у конфліктній ситуації, є ігри «дилема ув’язненого» та «курча». Дані ігри мають теорію виграшних та програшних стратегій.
Дилема ув'язненого - фундаментальна проблема втеорії ігор, згідно з якоюгравціне завжди будуть співпрацювати один з одним, навіть якщо це в їхніх інтересах. Передбачається, що гравець ("ув'язнений") максимізує свій власний виграш, не піклуючись про вигоду інших.
Суть проблеми була сформульована Мірилом Флад і Мелвіном Дрешер в 1950 році. Назва дилемі дав математик Альберт Такер.
Утеорії ігордилема в'язня (ДВ) —гразненульовою сумою, в якій гравці прагнуть одержати вигоду, співпрацюючи один з одним або зраджуючи. Як у всій теорії ігор, передбачається, що гравець («в'язень») максимізує свій власний виграш, не піклуючись про вигоду інших.
У дилемі в'язня зрада строго домінує над співпрацею, тому єдина можлива рівновага — зрада обох учасників. Простіше кажучи, не важливо, що зробить інший гравець, кожен виграє більше, якщо зрадить. Оскільки в будь-якій ситуації зрадити вигідніше, ніж співпрацювати, всі раціональні гравці виберуть зраду.
Поводячись окремо раціонально, разом учасники приходять до нераціонального рішення: якщо обидва зрадять, вони одержать в сумі менший виграш, ніж якби співпрацювали (єдина рівновага в цій грі не веде до Парето-оптимального рішення). У цьому і полягає дилема.
У дилемі в'язня, що повторюється, гра відбувається періодично, і кожен гравець може «покарати» іншого за неспівпрацю раніше. У такій грі співпраця може стати рівновагою, а стимул зрадити може переважуватися загрозою покарання (із зростанням числа ітераційрівновага Нешапрагне доПарето-оптимуму).
Класична дилема ув'язненого така:
Двоє підозрюваних, А і Б, арештовані. У поліції немає достатніх доказів для звинувачення, і ізолювавши їх один від одного, вони пропонують їм одну і ту ж операцію: якщо один свідчить проти іншого, а той зберігає мовчання, то перший звільняється, а другий одержує 10 років в'язниці. Якщо обидва мовчать, у поліції мало доказів, і вони засуджуються до 6 місяців. Якщо обидва свідчать проти один одного, вони одержують по 2 роки. Кожен ув'язнений вибирає, мовчати або свідчити проти іншого. Проте жоден з них не знає точно, що зробить інший. Що відбудеться?
Гру можна представити у вигляді такої таблиці:
В'язень Б зберігає мовчання |
В'язень Б надає свідчення |
|
В'язень А зберігає мовчання |
Обидва одержують півроку. |
А одержує 10 років
Б звільняється
|
В'язень А надає свідчення |
А звільняється
Б одержує 10 років тюрми
|
Обидва одержують 2 роки в'язниці |
Дилема з'являється, якщо припустити, що обидва піклуються тільки про мінімізацію власного терміну ув'язнення.
Представимо міркування одного з ув'язнених. Якщо партнер мовчить, то краще за нього зрадити і вийти на свободу (інакше - півроку в'язниці). Якщо партнер свідчить, то краще теж свідчити проти нього, щоб одержати 2 роки (інакше - 10 років). Стратегія «свідчити» строго домінує над стратегією «мовчати». Аналогічно інший ув'язнений приходить до того ж висновку.
З погляду групи (цих двох в'язнів) краще всього співпрацювати один з одним, зберігати мовчання і одержати по півроку, оскільки це зменшить сумарний термін ув'язнення. Будь-яке інше рішення буде менш вигідним. Це дуже наочно демонструє, що в грі з ненульовою сумою Парето-оптимум може бути протилежним рівновазі Неша.