Anarkian hinta ( englanniksi Price of Anarchy , PoA ) [1] on taloustieteen ja peliteorian käsite , joka mittaa kuinka paljon järjestelmän tehokkuus heikkenee sen agenttien itsekkäästä käytöksestä johtuen .
Anarkian hinta on yleinen käsite, joka voidaan laajentaa erilaisiin järjestelmiin ja tehokkuuskonsepteihin. Harkitse esimerkiksi liikennejärjestelmää kaupungissa, jossa monet agentit yrittävät matkustaa jostain aloituspisteestä johonkin päätepisteeseen. Olkoon tehokkuus tässä tapauksessa keskimääräistä aikaa, jonka agentti pääsee määränpäähän. "Keskitetyssä" ratkaisussa keskusviranomainen voi kertoa kullekin edustajalle, mikä reitti edustajan tulee kulkea keskimääräisen matka-ajan minimoimiseksi. "Hajautetussa" versiossa jokainen agentti valitsee reitin oman harkintansa mukaan. Anarkian hinta heijastaa näiden kahden tapauksen keskimääräisten matka-aikojen suhdetta.
Tyypillisesti järjestelmä mallinnetaan peliksi ja tehokkuus on jokin pelin tuloksen funktio (esim. verkon maksimiviive, liikenneruuhkat, huutokaupan sosiaaliset edut jne.). Agenttien itsekkään käyttäytymisen mallintamiseen voidaan käyttää erilaisia tasapainokäsitteitä, joista yleisin on Nash-tasapaino . Nashin tasapainon erilaiset muunnelmat johtavat anarkiakustannusten käsitteen vaihteluihin, kuten puhdas anarkiakustannus (deterministisille tasapainoille), sekalainen anarkiakustannus (satunnaistetuille tasapainoille) ja Bayes-Nash-anarkiakustannus (peleille, joissa on puutteellisia tietoja). Muut käsitteet kuin Nash-tasapaino johtavat vaihtoehtoihin, kuten upotushintaan [2] .
Termiä "anarkian hinta" käyttivät ensin Elias Koutsoupias ja Christos Papadimitriou [1] , mutta ajatus tasapainon tehottomuuden mittaamisesta on vanhempi [3] . Käsite nykyisessä muodossaan oli tarkoitettu vastaamaan "likiarvotekijää" approksimaatioalgoritmissa tai "kilpailukykytasoa" online-algoritmissa . Termi on linjassa nykyaikaisen pelianalyysin suuntauksen kanssa algoritmisilla linsseillä ( Algorithmic Game Theory ).
Harkitse peliä , jonka määrittelee pelaajajoukko , kunkin pelaajan strategiat ja hyödyllisyysfunktio (jota kutsutaan myös tulosjoukoksi). Voimme määritellä kunkin tuloksen tehokkuuden mittarin, jota kutsumme hyötyfunktioksi . Luonnollisia ehdokkaita ovat pelaajien hyötyjen summa (kohdeapuohjelmat), minimihyöty (tavoite oikeudenmukaisuus tai tasa-arvoisuus) ... tai mikä tahansa analysoitavalle pelille järkevä toiminto, joka tulisi maksimoida.
Voimme määritellä osajoukon tasapainossa olevien strategioiden joukoksi (esimerkiksi Nash-tasapainojen joukko ). Anarkian hinta määritellään sitten optimaalisen "keskitetyn" ratkaisun ja "pahimman tasapainon" suhteeksi:
Jos sen "hyvän" sijasta, jonka haluamme maksimoida, tehokkuusmittausfunktio on "kustannusfunktio" , jonka haluamme minimoida (kuten verkkoviiveet), käytämme (noudattamalla approksimaatioalgoritmeissa käytettyjä käytäntöjä):
Tähän liittyvä konsepti on vakauden hinta ( PoS ) , joka mittaa "parhaan tasapainon" ja optimaalisesti "keskitetyn" ratkaisun välistä suhdetta:
tai hintafunktioiden tapauksessa:
Tiedämme sen määritelmän mukaan. Peliteorian rajoituksista johtuvan tehokkuuden menetyksen odotetaan olevan jossain PoS:n ja PoA:n välissä.
Molemmat arvot, PoS ja PoA, laskettiin eri tyyppisille peleille. Alla on joitain esimerkkejä.
Harkitse 2x2-peliä nimeltä Prisoner 's Dilemma, joka esitetään seuraavan kustannusmatriisin avulla:
Tehdä yhteistyötä | pettää | |
---|---|---|
Tehdä yhteistyötä | 1 ; yksi | 7 ; 0 |
pettää | 0 ; 7 | 5 ; 5 |
ja anna hintafunktion olla Nyt minimihinta on, kun molemmat pelaajat tekevät yhteistyötä ja tuloksena oleva hinta on . Nash-tasapaino havaitaan kuitenkin vain, kun molemmat pettävät, jolloin hinta on . Silloin tämän pelin PoA:n arvo on yhtä suuri kuin .
Koska pelissä on ainutlaatuinen Nash-tasapaino, PoS-arvo on PoA, joka on myös 5.
Luonnollisempi esimerkki on yksi työaikatauluongelmista . Pelaajia on ja jokaisella heistä on tehtävää. He voivat valita yhden koneista työn suorittamiseen. Anarkian hinta vertailee tilannetta, jossa koneiden valinta määräytyy keskitetysti, ja tilannetta, jossa jokainen pelaaja valitsee auton siten, että työnsä valmistuu nopeammin.
Jokaisella koneella on nopeus Jokaisella työllä on painonsa Pelaaja valitsee koneen suorittaakseen työnsä. Siten jokaisen pelaajan strategiat ovat Määrittele koneen kuormitus seuraavasti:
Pelaajan hinta on sama , eli se on yhtä suuri kuin pelaajan valitseman koneen kuormitus. Tarkastellaan tasa -arvoista hintafunktiota , jota kutsutaan tässä käsittelyjaksoksi.
Tarkastelemme kahta tasapainon käsitettä - puhdasta Nash-strategiaa ja sekoitettua Nash-strategiaa . On selvää, että sekoitettu PoA on puhdas PoA, koska mikä tahansa puhdas Nash-tasapaino on myös sekoitettu Nash-tasapaino (epäyhtälö voi osoittautua tiukaksi kun,esimerkiksi ). Ensimmäinen asia, joka meidän on tehtävä, on osoittaa puhtaan Nash-tasapainon olemassaolo.
lausunto . Jokaiselle työnjakopelille on olemassa vähintään yksi puhdas Nash-tasapainostrategia.
Todiste . Meidän on saatava sosiaalisesti optimaalinen joukko strategioita . Tämä voi yksinkertaisesti tarkoittaa joukkoa strategioita, joiden käsittelyaika on minimaalinen. Tämä ei kuitenkaan riitä. Tällaisia strategioita voi olla useita, mikä johtaa useisiin erilaisiin kuormitusjakaumiin (kaikilla on sama maksimikuorma). Lisäksi rajoitamme siihen, että kuorma on toiseksi pienin. Tämä taas johtaa moniin mahdollisiin kuormitusjakaumiin, ja toistamme prosessia, kunnes saamme th parhaan (eli pienimmän) kuorman, jossa voi olla vain yksi kuormajakauma (ainoa permutaatioon asti). Tätä voidaan kutsua myös leksikografisesti pienimmäksi lajiteltujen latausten vektoriksi.
Väitämme, että tämä on puhdas strategia Nash-tasapaino. Todistamme ristiriidalla. Oletetaan, että joku pelaaja voi parantaa suorituskykyään siirtymällä koneelta toiselle . Tämä tarkoittaa, että lisääntynyt konekuormitus siirtymän jälkeen jää pienemmäksi kuin koneen kuormitus ennen siirtymää. Koska koneen kuormituksen pitäisi laskea siirtymän seurauksena eikä se vaikuta muihin koneisiin, mikä tarkoittaa, että uusi konfiguraatio takaa jakelun -:nneksi suurimman kuormituksen pienenemisen. Tämä kuitenkin rikkoo leksikografista minimaalisuusoletusta . Q.E.D.
lausunto . Minkään työnjakopelin puhdas strategia PoA ei ylitä .
Todiste . Ylhäältä on helppo sitoa mikä tahansa Nashin tasapainosekoitusstrategiana saatu hyvä kaavalla
Harkitse selvyyden vuoksi mitä tahansa puhdasta strategiaa , niin se on selvää
Koska edellä oleva pätee myös sosiaaliseen optimiin, suhdelukujen vertailu vahvistaa väitteen . Q.E.D
Harkitse tieverkostoa, jolla tietyn määrän kuljettajia on kuljettava yhteisestä lähtöpisteestä yhteiseen päätepisteeseen. Oletetaan, että jokainen kuljettaja valitsee reitin itsekkäästi ja että matka-aika riippuu lineaarisesti reitin valitsevien kuljettajien lukumäärästä.
Voimme formalisoida nämä ehdot reitinvalintaongelmaksi suunnatussa yhdistetyssä graafissa , jossa halutaan lähettää virtausyksikkö lähdesolmusta nielusolmuun (kuvitellaan, että virtaus koostuu eri kuljettajien valituista reiteistä). Olkoon virtaus erityisesti funktio, joka määrittää ei-negatiivisen reaaliluvun kullekin reunalle, ja harkitse joukkoa lineaarisia funktioita , jotka kuvaavat reunan läpi kulkevan virtauksen reunan viiveeseen. Määritellään myös virtauksen sosiaalinen hyöty
Tarkastellaan kuvan esimerkkiä - jos pistekatkoista tietä ei ole saatavilla, Nash-tasapaino sekastrategioissa saadaan, kun jokainen pelaaja valitsee ylemmän reitin ja alemman reitin samalla todennäköisyydellä - tämän tasapainon sosiaalinen kustannus on 1,5, ja se Kuljettajalta kuluu 1,5 yksikköä aikaa kullekin kuljettajalle siirtymiseen paikasta . Verkon läpikulun parantamisen toivossa lainsäätäjä voi päättää avata pienillä viiveillä kuljettajille katkotien. Tässä tapauksessa Nash-tasapaino voi tapahtua vain, jos kuka tahansa kuljettaja käyttää uutta tietä, joten sosiaaliset kustannukset kasvavat 2:lla ja kullekin kuljettajalle kuluu nyt 2 yksikköä ajaa paikasta kohteeseen .
Siksi saadaan epätavallinen tulos - lainsäädännöllinen kielto käyttää nopeampaa tietä voi joissain tapauksissa olla positiivinen.
Braesin paradoksissa esitetty reititysongelma voidaan yleistää useisiin eri virtauksiin samassa graafissa samanaikaisesti.
Määritelmä (yleistetty stream) . Olkoon , ja määritellään samalla tavalla kuin edellä, ja oletetaan, että haluamme välittää arvot jokaisen eri solmuparin kautta . Vuo määritellään todellisten ei-negatiivisten lukujen jakamiseksi kullekin polulle , joka kulkee kohteesta , rajoituksin
Tietyn graafin reunan läpi kulkeva virtaus määritellään seuraavasti
Kirjoitamme lyhyyden vuoksi, jos asiayhteys on selvää.
Määritelmä (Nash-tasapainovirtaus) . Virtaus on Nash-tasapainovirtaus silloin ja vain silloin ja välillä kohteeseen
Tämä määritelmä liittyy läheisesti siihen, mistä puhumme, kun sekastrategia ylläpitää Nash-tasapainoa normaalimuodossa olevissa peleissä.
Määritelmä (ehdollinen virtaushyvä) . Antaa ja olla kaksi virtaa liittyvät joukkoja ja . Jäljempänä jätämme indeksin pois merkinnän helpottamiseksi. Kuvittele graafin funktioiden generoimat kiinteät viiveet — ehdollinen hyvä suhteessa on määritelty
Fakta 1 . Jos on Nash-tasapainovirtaus ja mikä tahansa muu virtaus , .
Todistus (käänteisestä) . Oletetaan, että . Määritelmän mukaan
.Koska ja liittyvät samoihin joukkoihin , tiedämme sen
Siksi on oltava pari ja kaksi polkua sellaiseen , että , , ja
Toisin sanoen virta voi saada vain pienemmän hyödyn kuin jos kahdella reitillä on eri hinnat, ja jos se ohjaa osan virtauksesta kalliilta reitiltä halvemmalle polulle. On selvää, että tämä tilanne on ristiriidassa sen oletuksen kanssa, että kyseessä on Nashin tasapainovirta. Q.E.D.
Huomaa, että Fakta 1 ei tarkoita mitään tiettyä joukkorakennetta .
Fakta 2 . Jos kaksi reaalilukua ja , annetaan .
Todiste . Tämä on toinen tapa ilmaista oikea eriarvoisuus . Q.E.D.
Lause . Puhtaan strategian PoA kaikille yleisille reititysongelmille lineaarisilla viiveillä on yhtä suuri kuin .
Todiste . Huomaa, että tämä lause vastaa sanomista, että jokainen Nash-tasapainovirtaus , , jossa on mikä tahansa muu virtaus. Määritelmän mukaan
Käyttämällä Fact 2 saamme
koska
Voimme päätellä, että , ja todistaa väite tosiasian 1. avulla, joka oli todistettava.
Huomaa, että todistuksessa käytimme laajasti olettamusta, että funktiot ovat lineaarisia. Itse asiassa yleisemmät tosiasiat pitävät paikkansa.
Lause . Kun otetaan huomioon yleinen reititysongelma graafissa ja polynomiasteviivefunktiot ei-negatiivisilla kertoimilla, PoA on puhdas strategia .
Huomaa, että PoA voi kasvaa . Tarkastellaan kuvassa esitettyä esimerkkiä, jossa oletetaan yksikkövirtaa: Nash-tasapainovirtojen sosiaalinen hyöty on 1. Paras hyöty kuitenkin saavutetaan , kun tässä tapauksessa
Arvo lähestyy nollaa, kun se lähestyy ääretöntä.
Peliteoria | |
---|---|
Peruskonseptit | |
Pelityypit |
|
Ratkaisukonseptit | |
Peliesimerkkejä | |