Prisoner 's Dilemma ( tai vähemmän yleisesti tunnettu Bandit's Dilemma ) on peliteorian perusongelma , jonka mukaan rationaaliset pelaajat eivät aina tee yhteistyötä keskenään, vaikka se olisi heidän etujensa mukaista. Oletetaan, että pelaaja ("vanki") maksimoi oman voittonsa välittämättä muiden hyödystä.
Meryl Flood ja Melvin Drescher muotoilivat ongelman olemuksen vuonna 1950. Dilemman nimen antoi matemaatikko Albert Tucker .
Vangin dilemmassa pettäminen hallitsee tiukasti yhteistyötä, joten ainoa mahdollinen tasapaino on molempien osallistujien pettäminen. Yksinkertaisesti sanottuna, riippumatta toisen pelaajan käyttäytymisestä, jokainen hyötyy enemmän, jos hän pettää. Koska on parempi pettää kuin tehdä yhteistyötä missä tahansa tilanteessa, kaikki rationaaliset pelaajat päättävät pettää.
Käyttäytyessään yksilöllisesti rationaalisesti osallistujat päätyvät yhdessä irrationaaliseen ratkaisuun: jos molemmat pettävät, he saavat pienemmän kokonaishyödyn kuin jos he tekisivät yhteistyötä (ainoa tasapaino tässä pelissä ei johda Pareton optimaaliseen ratkaisuun). Siinä piilee dilemma.
Toistuvassa vangin dilemmassa peliä pelataan säännöllisin väliajoin, ja jokainen pelaaja voi "rangaista" toista yhteistyökyvyttömyydestä aikaisemmin. Tällaisessa pelissä yhteistyöstä voi tulla tasapaino, ja pettämisen kannustin voi olla suurempi kuin rangaistuksen uhka (iteraatioiden määrän kasvaessa Nash-tasapaino pyrkii Pareto-optimiin ).
Kaikissa oikeusjärjestelmissä rangaistus rosvollisuudesta (rikosten tekeminen osana järjestäytynyttä ryhmää) on paljon ankarampi kuin samoista yksin tehdyistä rikoksista (tämä nimi "rosvo dilemma").
Vangin dilemman klassinen muotoilu on:
Kaksi rikollista - A ja B - jäivät kiinni suunnilleen samaan aikaan vastaavista rikoksista. On syytä uskoa, että he toimivat yhteistyössä, ja poliisi, eristettyään heidät toisistaan, tarjoaa heille saman sopimuksen: jos toinen todistaa toista vastaan ja hän vaikenee, ensimmäinen vapautetaan auttamaan tutkinnassa. ja toinen saa enimmäisrangaistuksen (10 vuotta). Jos molemmat ovat hiljaa, heidän tekonsa menee kevyemmän artiklan alle ja kumpikin tuomitaan kuudeksi kuukaudeksi vankeuteen. Jos molemmat todistavat toisiaan vastaan, he saavat vähimmäisrangaistuksen (kumpikin 2 vuotta). Jokainen vanki päättää, pysyykö vaiti vai todistaako toista vastaan. Kumpikaan ei kuitenkaan tiedä tarkalleen, mitä toinen tekee. Mitä tapahtuu?
Peli voidaan esittää seuraavana taulukona:
Vanki B on hiljaa | Vanki B todistaa | |
Vanki A on hiljaa | Molemmat saavat kuusi kuukautta. | A saa 10 vuotta, B vapautetaan |
Vanki A todistaa | A vapautuu, B saa 10 vuoden vankeusrangaistuksen |
Molemmat saavat 2 vuotta vankeutta |
Vangin dilemma normaalimuodossa . |
Dilemma syntyy, jos oletetaan, että molemmat välittävät vain oman vankeusrangaistuksensa minimoimisesta.
Kuvittele yhden vangin perustelut. Jos kumppani on hiljaa, on parempi pettää hänet ja päästä vapaaksi (muuten - kuusi kuukautta vankilassa). Jos kumppani todistaa, on parempi todistaa myös häntä vastaan saadakseen 2 vuotta (muuten - 10 vuotta) vankeutta. "Todistaja"-strategia hallitsee tiukasti "ole hiljaa" -strategiaa. Samoin toinen vanki tulee samaan johtopäätökseen.
Ryhmän (nämä kaksi vankia) näkökulmasta on parasta tehdä yhteistyötä keskenään, olla hiljaa ja saada kuusi kuukautta, sillä tämä lyhentää vankeusrangaistuksen kokonaisaikaa. Mikä tahansa muu ratkaisu on vähemmän kannattava. Tämä osoittaa erittäin selvästi, että nollasta poikkeavassa pelissä Pareton optimi voi olla Nashin tasapainon vastakohta .
Tehdä yhteistyötä | pettää | |
Tehdä yhteistyötä | C, C | c, D |
pettää | DC | d, d |
Vangin dilemman kanoninen voittomatriisi |
Voit laajentaa pelin järjestelmää edelleen irrottautumalla vankien tekstistä. Pelin yleistettyä muotoa käytetään usein kokeellisessa taloustieteessä . Seuraavat säännöt antavat tyypillisen pelin toteutuksen:
Nämä säännöt on laatinut Douglas Hofstadter , ja ne muodostavat kanonisen kuvauksen tyypillisestä vangin dilemmasta.
Hofstadter [2] ehdotti, että ihmiset ymmärtävät Prisoner's Dilemman kaltaiset ongelmat helpommin, kun ne esitetään erillisenä pelinä tai kaupankäyntiprosessina. Yksi esimerkki on "suljettujen pussien vaihto":
Kaksi ihmistä tapaa ja vaihtavat suljettuja pusseja ymmärtäen, että toinen heistä sisältää rahaa, toinen - tavaroita. Jokainen pelaaja voi kunnioittaa sopimusta ja laittaa pussiin sen, mitä on sopinut, tai pettää kumppaniaan antamalla tyhjän pussin.
Tässä pelissä pettäminen on aina ratkaisu, jolla on suurin lyhyen aikavälin aineellinen hyöty.
Jotkut peliohjelmat käyttävät samanlaista periaatetta joko kierroksen tai finaalin voittajien määrittämiseen. Esimerkki ongelmasta esitettiin vuonna 2012 brittiläisessä peliohjelmassa The Bank Job jokaisen kauden finaalissa: finaaliin päässeet kaksi pelaajaa joutuivat päättämään, miten voitot hävitetään. Puolet pelatusta jättipotista oli matkalaukuissa, joissa oli merkintä CASH, kaksi muuta olivat sanomalehtileikkeitä, joissa oli merkintä TRASH (pelaajalla on yksi matkalaukku kutakin tyyppiä). Jokaisen pelaajan oli otettava yksi matkalaukkuistaan ja annettava se toiselle. Jos molemmat pelaajat saivat matkalaukut käteistä, he jakavat voitot kahtia. Jos joku antoi matkalaukun TRASHille, hän otti pelin koko pankin. Jos molemmat antoivat TRASHin, molemmat jäivät ilman rahaa, ja voitot menivät finaalin edellisissä vaiheissa pois jääneille pelaajille.
Esimerkit vangeista, korttipeleistä ja suljettujen laukkujen vaihdosta saattavat tuntua kaukaa haetulta, mutta todellisuudessa on monia esimerkkejä ihmisen ja eläimen vuorovaikutuksista, joilla on sama voittomatriisi. Siksi vangin dilemma kiinnostaa yhteiskuntatieteitä, kuten taloustieteitä , valtiotieteitä ja sosiologiaa , sekä biologia - etologian ja evoluutiobiologian osia . Monet luonnolliset prosessit on yleistetty malleiksi, joissa elävät olennot osallistuvat loputtomiin vangin dilemma -tyyppisiin leikkeihin. Tämä dilemman laaja sovellettavuus tekee tästä pelistä erittäin tärkeän.
Esimerkiksi poliittisessa realismissa dilemma-skenaariota käytetään usein havainnollistamaan kahden kilpavarusteluun osallistuvan valtion ongelmaa . Molemmat valtiot ilmoittavat, että niillä on kaksi vaihtoehtoa: joko lisätä sotilasmenoja tai vähentää aseistusta. Tässä tapauksessa vangin dilemman postulaatit (D > C > d > c) [3] ilmeisesti täyttyvät :
A-puolen kannalta, jos puoli B ei viritä, niin A:lle on valinta D:n ja C:n välillä - on parempi virittää. Jos B on virittämässä, niin A:lle on valinta d:n ja c:n välillä - taas on kannattavampaa virittää. Siten minkä tahansa B:n valinnan osalta on kannattavampaa, että puoli A on viritetty. Tilanne B-puolella on täsmälleen sama, ja molemmat osapuolet hakevat lopulta sotilaallista laajentumista .
William Poundstone kuvaa vangin dilemmaa käsittelevässä kirjassaan tilannetta Uudessa-Seelannissa , jossa sanomalehtilaatikot jätetään auki. Sanomalehti on mahdollista ottaa maksamatta, mutta harvat tekevät niin, koska useimmat ihmiset ovat tietoisia siitä, mitä haittaa siitä aiheutuisi, jos kaikki varastaisivat sanomalehtiä. Koska vangin dilemma on puhtaimmassa muodossaan kaikille pelaajille samanaikainen (kukaan ei voi vaikuttaa muiden päätöksiin), tätä yhteistä ajattelutapaa kutsutaan " maagiseksi ajatteluksi ". Selityksenä pikkuvarkauksien puutteelle maaginen ajattelu selittää vapaaehtoisen äänestämisen vaaleissa (jossa äänestämättä jättänyt katsotaan jäniksiksi ). Vaihtoehtoisesti tämä käyttäytyminen voidaan selittää tulevien toimien odotuksella (eikä vaadi yhteyttä "maagiseen ajatteluun"). Tulevien toimien mallintaminen vaatii aikaulottuvuuden lisäämistä, mikä tehdään toistuvan pulman yhteydessä.
Dilemman teoreettinen johtopäätös on yksi syy siihen, miksi kanneneuvottelut ovat kiellettyjä monissa maissa . Usein dilemman skenaario toistuu hyvin tarkasti: molempien epäiltyjen etu on tunnustaa ja todistaa toista epäiltyä vastaan, vaikka molemmat olisivat syyttömiä. Ehkä pahin tapaus on, kun vain yksi on syyllinen, jolloin syytön ei todennäköisesti tunnusta mitään, ja syyllinen menee eteenpäin ja todistaa viatonta vastaan.
Monet tosielämän ongelmat koskevat useita pelaajia. Vaikka Hardinin " yhteisten tragedia " on metaforinen, sitä voidaan pitää yleistyksenä useiden pelaajien ongelmasta. Jokainen yhteisön asukas valitsee, laiduntaako karjaa yhteisellä laitumella ja hyötyykö he resurssejaan vai rajoittaako tulojaan. Laitumen yleisen (tai toistuvan) maksimikäytön kollektiivinen tulos on alhainen tulo (joka johtaa yhteisön tuhoutumiseen). Tällainen peli ei kuitenkaan ole muodollinen, koska se voidaan jakaa klassisiksi 2 pelaajan peliksi.
Vuonna 1984 kirjassaan The Evolution of Cooperation Robert Axelrod tutki dilemma-skenaarion laajennusta, jota hän kutsui toistuvan vangin dilemmaksi (RPD). Siinä osallistujat tekevät valintoja yhä uudelleen ja muistavat aikaisemmat tulokset. Axelrod kutsui akateemisia kollegoita kaikkialta maailmasta kehittämään tietokonestrategioita kilpaillakseen PDD-mestaruuskilpailuissa. Sen sisältämät ohjelmat vaihtelivat algoritmisen monimutkaisuuden, alkuperäisen vihamielisyyden, kyvyn antaa anteeksi ja niin edelleen.
Axelrod havaitsi, että jos peliä toistettiin pitkään useiden pelaajien kesken, joilla kullakin oli eri strategia, "ahneet" strategiat menestyivät huonosti pitkällä aikavälillä, kun taas " epäitsekkäämmät " strategiat toimivat paremmin oman edun kannalta. Hän käytti tätä osoittaakseen mahdollisen mekanismin altruistisen käyttäytymisen kehittymiselle mekanismeista, jotka ovat alun perin puhtaasti itsekkäitä , luonnollisen valinnan kautta .
Paras deterministinen strategia oli Tit for Tat , jonka Anatoly Rapoport kehitti ja esitti mestaruutta varten . Se oli yksinkertaisin kaikista osallistuvista ohjelmista, ja se koostui vain 4 rivistä PERUSkoodia . Strategia on yksinkertainen: tee yhteistyötä pelin ensimmäisessä iteraatiossa, jonka jälkeen pelaaja tekee saman asian, jonka vastustaja teki edellisessä vaiheessa. "Tit for an Tat with Forgiveness" -strategia toimii hieman paremmin. Kun vastustaja pettää, seuraavassa vaiheessa pelaaja joskus, riippumatta edellisestä askeleesta, tekee yhteistyötä pienellä todennäköisyydellä (1-5%). Tämän avulla voit satunnaisesti poistua keskinäisen petoksen kierteestä. Se toimii parhaiten, kun peliin tuodaan virheviestintä – kun yhden pelaajan päätökset välitetään toiselle virheellisesti.
Analysoidessaan parhaita tuloksia saaneita strategioita Axelrod nimesi useita ehtoja, jotka ovat välttämättömiä strategian korkean tuloksen saavuttamiseksi:
Siten Axelrod tuli utopistiseen - kuulostavaan johtopäätökseen, että itsekkäät yksilöt oman itsekkään edunsa vuoksi pyrkisivät olemaan ystävällisiä, anteeksiantavia ja kateettomia.
Harkitse jälleen kilpa-asemallia. Pääteltiin, että ainoa järkevä strategia on aseistaa, vaikka molemmat maat haluaisivat käyttää BKT:nsa öljyyn aseiden sijaan [4] . Mielenkiintoista on, että yritykset osoittaa, että dilemma-päätelmä toimii käytännössä (tekemällä analyysi "korkeista" ja "pienistä" sotilasmenoista jaksojen välillä TPP:n oletuksiin perustuen) osoittavat usein, että tällaista käyttäytymistä ei tapahdu ( esim . Turkin sotilasmenot eivät muutu "silmä silmästä" -strategian mukaisesti, vaan todennäköisimmin noudattavat sisäpolitiikkaa). Tämä voi olla esimerkki rationaalisesta käytöksestä , joka eroaa yhden laukauksen ja usean liikkeen peleistä.
Jos yhden liikkeen pelissä petosstrategia hallitsee joka tapauksessa, niin moniliikepelissä optimaalinen strategia riippuu muiden osallistujien käyttäytymisestä. Esimerkiksi, jos kaikki väestössä pettää toisiaan ja joku käyttäytyy "silmä silmästä" -periaatteen mukaisesti, hän on pienessä tappiossa ensimmäisellä liikkeellä tapahtuneen tappion vuoksi. Tällaisessa populaatiossa optimaalinen strategia on aina pettää. Jos "silmä silmästä" -periaatetta tunnustavien määrä on suurempi, niin tulos riippuu jo heidän osuudestaan yhteiskunnassa.
Optimaalisen strategian määrittämiseen on kaksi tapaa:
Vaikka tit-for-tat-strategiaa pidettiin menestyneimpänä yksinkertaisena strategiana, professori Nicholas Jenningsin [6] johtama Southamptonin yliopiston tiimi esitteli uuden strategian PKD-mestaruuden 20-vuotisjuhlaksi. Tämä strategia on ollut menestyneempi kuin tiaista. Se luotti ohjelmien väliseen vuorovaikutukseen saadakseen yhdelle niistä maksimipisteet. Yliopisto esitti mestaruuteen 60 ohjelmaa, jotka tunnistivat toisensa sarjoilla toimenpiteillä ensimmäisissä 5-10 siirrossa. Toisen tunnistamisen jälkeen yksi ohjelma teki aina yhteistyötä, kun taas toinen petti, mikä antoi petturille maksimipisteet. Jos ohjelma ymmärsi, että vastustaja ei ollut Southamptonista, se jatkaisi hänen pettämistä koko ajan minimoidakseen vastustajan tuloksen. Tuloksena [7] tämä strategia sijoittui kilpailussa kolmelle ensimmäiselle sijalle sekä useita paikkoja peräkkäin alla.
Vaikka tämä evolutionaarisesti vakaa strategia osoittautui tehokkaammaksi kilpailussa, tämä saavutettiin kustannuksella, että useat agentit saivat osallistua kyseiseen kilpailuun. Jos pelaaja voi hallita vain yhtä agenttia, tit for tat on paras. Hän noudattaa myös sääntöä, jonka mukaan pelaajien välillä ei saa kommunikoida. Se tosiasia, että Southamptonin ohjelmat suorittivat "rituaalitanssin" ensimmäisten 10 kierroksen aikana oppiakseen tuntemaan toisiaan, vain vahvistaa, kuinka tärkeää viestintä on pelin tasapainon muuttamisessa.
Jos PDZ toistetaan täsmälleen N kertaa (jokin tunnettu vakio N), on toinen mielenkiintoinen tosiasia. Nashin tasapaino on aina pettää. Todistamme induktiolla: jos molemmat tekevät yhteistyötä, on kannattavaa pettää viimeisellä liikkeellä, niin vastustajalla ei ole mahdollisuutta kostaa. Siksi molemmat pettävät toisensa viimeisellä liikkeellä. Koska vastustaja pettää joka tapauksessa viimeisellä siirrolla, jokainen pelaaja haluaa pettää toiseksi viimeisellä siirrolla ja niin edelleen. Jotta yhteistyö säilyisi kannattavana, tulevaisuuden on oltava epävarma molemmille toimijoille. Yksi ratkaisu on tehdä luku N satunnainen ja laskea tulokset keskimääräisellä voitolla per kierros.
Vangin dilemma on perustavanlaatuinen joillekin teorioille ihmisten vuorovaikutuksesta ja luottamuksesta. Dilemmamallin oletuksesta, että kahden ihmisen välinen transaktio vaatii luottamusta, voidaan mallintaa populaatioiden luottamuskäyttäytymistä pelistä moninpelin iteratiivisella versiolla. Tämä on inspiroinut monia tiedemiehiä vuosia. Vuonna 1975 Grofman ja Poole arvioivat tälle aiheelle omistettujen papereiden lukumääräksi noin 2000.
Jos pelaajat voivat arvioida muiden pelaajien pettämisen mahdollisuutta, kokemus vaikuttaa heidän käyttäytymiseensa. Yksinkertaiset tilastot osoittavat, että kokemattomat pelaajat käyttäytyvät yleensä liian hyvin tai huonosti. Jos he toimivat näin koko ajan, he häviävät, koska ovat liian aggressiivisia tai liian ystävällisiä. Kun he saavat enemmän kokemusta, he arvioivat realistisemmin petoksen todennäköisyyttä ja saavuttavat parempia tuloksia. Varhaiset pelit vaikuttavat kokemattomiin pelaajiin voimakkaammin kuin myöhemmät pelit kokeneisiin pelaajiin. Tämä on esimerkki siitä, miksi varhaiset kokemukset vaikuttavat nuoriin niin paljon ja miksi he ovat erityisen alttiita motivoimattomalle aggressiolle, ja he ovat toisinaan samanlaisia.
On mahdollista vähentää väestön pettämisen todennäköisyyttä tekemällä yhteistyötä varhaisissa peleissä, mikä mahdollistaa luottamuksen rakentamisen [8] . Siksi itsensä uhrautuminen voi joissakin tilanteissa lisätä ryhmän moraalia. Jos ryhmä on pieni, positiivinen käyttäytyminen on todennäköisemmin vastavuoroista, mikä rohkaisee yksilöitä jatkamaan yhteistyötä. Tämä liittyy toiseen dilemmaan, että hyvä kohtelu ilman syytä on hemmottelua, joka voi alentaa moraalista luonnetta.
Nämä prosessit ovat vastavuoroisen altruismin , ryhmävalinnan , perhevalinnan ja etiikan pääasiallinen kiinnostuksen kohde .
Uskonnolliset esitykset lisäävät merkittävästi pelaajien välistä yhteistyötä. Tutkimuksissa jopa uskonnollisten sanojen implisiittinen maininta alustavassa tehtävässä ennen peliä johti prososiaalisen käyttäytymisen merkittävään lisääntymiseen [9] .
Sanakirjat ja tietosanakirjat | ||||
---|---|---|---|---|
|
Peliteoria | |
---|---|
Peruskonseptit | |
Pelityypit |
|
Ratkaisukonseptit | |
Peliesimerkkejä | |
Päätösteorian paradoksit | |
---|---|
|