Tekoälyn hallinnan ongelma on ongelma tekoälyn (AI) tekniikan ja filosofian alalla . Sen tarkoituksena on luoda keinotekoinen superäly, josta on hyötyä ihmisille, samalla kun vältetään vahinkoa aiheuttavan superälyn tahaton luominen. Erityisen tärkeää on välttää tilanne, jossa tekoäly voi ottaa hallintaansa ja tehdä sammuttamisen mahdottomaksi [1] [2] . Tekoälytutkimuksen tuloksiin saattaa löytyä käyttöä myös jo olemassa olevien tekoälyjärjestelmien ohjauksessa [3] .
Tällä hetkellä (2022) ihmiset hallitsevat muita eläviä organismilajeja vain aivojen paremmuuden vuoksi . Jotkut tiedemiehet, kuten filosofi Nick Bostrom ja tekoälytutkija Stuart Russell , väittävät, että jos tekoäly ylittää ihmiskunnan yleisessä älykkyydessä, tästä uudesta superälystä voi tulla vaikeasti hallittava ja ihmiskunta voi tulla riippuvaiseksi [1] . Jotkut tutkijat, mukaan lukien Stephen Hawking ja Nobel-palkittu Frank Wilczek , ovat vaatineet tekoälyn hallinnan ongelman tutkimusta ennen ensimmäisen superälyn luomista, koska hallitsematon superäly voi onnistuneesti vastustaa yrityksiä hallita sitä [4] [5] . Lisäksi asiantuntijat varoittavat superälyn äkillisen ilmaantumisen vaarasta [6] .
Autonomisille tekoälyjärjestelmille voidaan määrittää satunnaisesti väärät kohteet [7] . Kaksi AAAI :n presidenttiä , Tom Dietterich ja Horwitz , huomauttavat, että tämä on ongelma olemassa oleville järjestelmille: "Tärkeä näkökohta jokaisessa tekoälyjärjestelmässä, joka on vuorovaikutuksessa ihmisten kanssa, on se, että sen on perusteltava ihmisten aikomuksia , eikä kirjaimellisesti suoritettava komentoja." . Tämä ongelma on tulossa vakavammaksi, kun tekoälyohjelmistot muuttuvat autonomisemmiksi ja joustavammiksi [8] .
Bostromin mukaan superäly voi luoda laadullisesti uuden perverssin toteutuksen ongelman : mitä älykkäämpi ja kykenevämpi tekoäly, sitä todennäköisemmin se pystyy löytämään tahattoman ratkaisun, joka kuitenkin täyttää muodollisesti kehittäjien asettaman tavoitteen.
Jotkut tutkijat väittävät, että tekoälyn hallinnan ongelman tutkiminen voi olla hyödyllistä olemassa olevien tekoälyjärjestelmien toimien odottamattomien seurausten estämisessä.
Aiemmin tekoälyjärjestelmät ovat joskus aiheuttaneet vahinkoja, jotka vaihtelivat pienestä katastrofaaliseen, jota kehittäjät eivät tarkoittanut. Esimerkiksi vuonna 2015, mahdollisesti inhimillisen erehdyksen vuoksi, saksalainen työntekijä murskattiin kuoliaaksi robotin toimesta Volkswagenin tehtaalla , joka ilmeisesti luuli häntä auton osaksi [9] . Vuonna 2016 Microsoft lanseerasi Tay-chatbotin, joka oppi käyttämään rasistista ja seksististä kieltä [3] [9] . Noel Sharkey Sheffieldin yliopistosta uskoo, että ongelman ratkaiseminen yleensä on "todella valtava tieteellinen haaste" [3] .
Kohdistamisen haasteena on luoda tekoälyjä, jotka pysyvät turvallisina, vaikka ne toimivat itsenäisesti suuressa mittakaavassa. Joillakin sovinnon näkökohdilla on moraalinen ja poliittinen ulottuvuus [10] . Esimerkiksi kirjassaan Human Compatible [a] Berkeleyn yliopiston professori Stuart Russell ehdottaa tekoälyjärjestelmien suunnittelua yksinomaan ihmisen mieltymysten toteutumisen maksimoimiseksi [11] :173 . Russellin kirjoittamat mieltymykset ovat kaikenkattavia; ne kattavat "kaiken, mikä voi innostaa sinua, kuinka pitkälle tulevaisuuteen tahansa."
Eliezer Yudkowsky Machine Intelligence Research Institutesta ehdotti tavoitteeksi toteuttaa ihmiskunnan "koherentti ekstrapoloitu tahto" (CEV), joka on karkeasti määritelty arvojoukoksi, jonka ihmiskunta jakaisi heijastavassa tasapainossa , eli pitkän jalostusprosessin jälkeen. 10] [12] .
Jotkut tekoälyn hallintaehdotukset ottavat huomioon sekä eksplisiittisen tavoitefunktion että nousevan implisiittisen tavoitefunktion. Tällaisilla ehdotuksilla pyritään yhdenmukaistamaan kolme erilaista tekoälyjärjestelmän kuvausta: [13] :
Koska tekoälyjärjestelmät eivät ole täydellisiä optimoijia ja koska millä tahansa spesifikaatiolla voi olla odottamattomia seurauksia, tuloksena oleva käyttäytyminen voi poiketa rajusti ihanteellisesta tai suunnittelutarkoituksesta.
Sisäinen ristiriita ilmenee, kun tekoälyn tavoitteet poikkeavat suunnitteluspesifikaatiosta. Tällaisten poikkeamien havaitsemiseksi ja poistamiseksi Paul Christiano ehdottaa tulkittavuuden käyttöä [14] .
Yksi tapa saavuttaa ulkoinen johdonmukaisuus on ottaa ihmiset mukaan tekoälyn käyttäytymisen arviointiin [15] [16] . Inhimillinen valvonta on kuitenkin kallista, joten tätä menetelmää ei voida realistisesti käyttää kaikkien toimintojen arvioimiseen. Lisäksi monimutkaiset tehtävät (kuten talouspoliittinen päätöksenteko) voivat olla liian monimutkaisia ihmiselle. Pitkän aikavälin haasteita, kuten ilmastonmuutoksen ennustamista, ei kuitenkaan voida arvioida ilman laajoja ihmistutkimuksia [17] .
Keskeinen ratkaisematon ongelma kohdistustutkimuksessa on se, kuinka luoda suunnitteluspesifikaatio, joka välttää ulkoisen epäjohdonmukaisuuden ja rajoittaa pääsyä ihmisjohtajaan. Tämä on niin kutsuttu skaalautuvan valvonnan ongelma [ 16 ] .
Oppiminen keskustelun kauttaOpenAI :n tutkijat ovat ehdottaneet tekoälyn opettamista järjestelmien välisten keskustelujen kautta, jolloin voittajan päättää ihminen [18] . Tällaisten keskustelujen tarkoituksena on kiinnittää ihmisten huomio monimutkaisten asioiden ratkaisemisen heikoimpiin kohtiin [19] [20] .
Stuart Russell kannattaa uutta lähestymistapaa hyödyllisten koneiden kehittämiseen, jossa: [11] :182
Esimerkki tästä lähestymistavasta on Russellin " back-learning " -menetelmä, jossa tekoälyt päättelevät ihmisten esimiesten mieltymyksiä heidän käyttäytymisestään olettaen, että esimiehet toimivat tavalla, joka maksimoi jonkin palkitsemistoiminnon [11] .
Bostrom ja muut suosittelevat valmiuksien ohjausmenetelmiä vain sovitusmenetelmien lisänä [1] .
Yksi ongelma on, että oletushermoverkkoja on erittäin vaikea tulkita [21] . Tämä tekee pettämisen tai muun ei-toivotun käytöksen havaitsemisen vaikeaksi. Tämän vaikeuden voittamiseksi edistyminen tulkitun tekoälyn [22] alalla voi olla hyödyllistä .
Yksi mahdollinen tapa estää vaarallisia seurauksia on antaa ihmisjohtajille mahdollisuus sammuttaa huonosti käyttäytyvä tekoäly helposti "kytkimellä". Kuitenkin saavuttaakseen tavoitteensa tekoälyt voivat yrittää sammuttaa kytkimet tai kopioida itsestään muissa tietokoneissa. Tämä ongelma on muotoiltu ihmisen ja tekoälyn väliseksi alipeliksi, jossa tekoäly voi päättää sammuttaako kytkimen, ja sitten, jos kytkin on edelleen päällä, ihminen voi valita, aktivoiko se vai ei. . Tällaisten pelien tarkoituksena on varmistaa, että tekoäly tulkitsee ihmisen valinnat tärkeäksi tiedoksi aiotuista tavoitteista [11] :208 .
Isolated AI on ehdotettu valmiuksien hallintatekniikka, jossa tekoäly toimii eristetyssä tietokonejärjestelmässä, jossa on rajoitetut tulo- ja lähtökanavat, kuten tekstikanavat, eikä Internet-yhteyttä. Vaikka tämä vähentää tekoälyn kykyä suorittaa ei-toivottua toimintaa, se vähentää myös sen hyödyllisyyttä. Eristettyä tekoälyä voidaan käyttää Q&A-tilassa, joka ei vaadi vuorovaikutusta ulkomaailman kanssa.
Tämä lähestymistapa vaatii huolellista laitteiston ja ohjelmiston testausta, koska tekoäly voi yrittää kommunikoida ulkomaailman kanssa manipuloimalla tarkkailijoita [23] .
Oraakkeli on hypoteettinen tekoäly, joka on suunniteltu vastaamaan kysymyksiin eikä saavuttamaan tavoitteita, jotka liittyvät maailman muuttamiseen sen rajoitetun ympäristön ulkopuolella [24] . On arvioitu, että superälyn käyttö oraakkelitilassa voisi tuottaa biljoonien dollareiden voittoa [11] :162–163 .
Oraakkelin vaara piilee vastausten mahdollisessa manipuloinnissa omien piilotettujen tavoitteidensa saavuttamiseksi. Tämän vaaran poistamiseksi Bostrom ehdottaa useiden oraakkelien luomista ja niiden vastausten vertailua päästäkseen yhteisymmärrykseen [25] .
Skeptikot uskovat, että superäly aiheuttaa vain vähän tai ei ollenkaan riskiä satunnaisesta väärinkäytöksestä. Tällaiset skeptikot ajattelevat usein, että superälykkään tekoälyn hallinta on triviaalia. Jotkut skeptikot [26] , kuten Gary Markus [27] , ovat ehdottaneet sellaisten sääntöjen hyväksymistä, jotka ovat samankaltaisia kuin kuvitteellinen " Robotiikan kolme lakia ", jotka määrittelevät selvästi halutun tuloksen ("suora normatiivisuus"). Päinvastoin, useimmat eksistentiaalisen riskin teesin kannattajat (samoin kuin monet skeptikot) pitävät kolmea lakia hyödyttöminä, koska nämä kolme lakia ovat moniselitteisiä ja ristiriidassa keskenään. Muita "suoraan normatiivisuuteen" liittyviä ehdotuksia ovat kantilainen etiikka , utilitarismi tai molempien yhdistelmät. Useimmat kontrollin puolestapuhujat uskovat, että inhimilliset arvot (ja niiden määrälliset kompromissit) ovat liian monimutkaisia ja huonosti ymmärrettyjä ohjelmoitaviksi suoraan superälyksi; sen sijaan superäly on ohjelmoitava inhimillisten arvojen hankkimis- ja ymmärtämisprosessiin ("epäsuora normatiivisuus"), kuten koherentti ekstrapoloitu tahto [28] .