Tekoälyn hallinnan ongelma

Tekoälyn hallinnan ongelma on ongelma tekoälyn (AI) tekniikan ja filosofian alalla . Sen tarkoituksena on luoda keinotekoinen superäly, josta on hyötyä ihmisille, samalla kun vältetään vahinkoa aiheuttavan superälyn tahaton luominen. Erityisen tärkeää on välttää tilanne, jossa tekoäly voi ottaa hallintaansa ja tehdä sammuttamisen mahdottomaksi [1] [2] . Tekoälytutkimuksen tuloksiin saattaa löytyä käyttöä myös jo olemassa olevien tekoälyjärjestelmien ohjauksessa [3] .

Ongelman kuvaus

Eksistentiaalinen riski

Tällä hetkellä (2022) ihmiset hallitsevat muita eläviä organismilajeja vain aivojen paremmuuden vuoksi . Jotkut tiedemiehet, kuten filosofi Nick Bostrom ja tekoälytutkija Stuart Russell , väittävät, että jos tekoäly ylittää ihmiskunnan yleisessä älykkyydessä, tästä uudesta superälystä voi tulla vaikeasti hallittava ja ihmiskunta voi tulla riippuvaiseksi [1] . Jotkut tutkijat, mukaan lukien Stephen Hawking ja Nobel-palkittu Frank Wilczek , ovat vaatineet tekoälyn hallinnan ongelman tutkimusta ennen ensimmäisen superälyn luomista, koska hallitsematon superäly voi onnistuneesti vastustaa yrityksiä hallita sitä [4] [5] . Lisäksi asiantuntijat varoittavat superälyn äkillisen ilmaantumisen vaarasta [6] .

Satunnaisen sukupolven ongelma

Autonomisille tekoälyjärjestelmille voidaan määrittää satunnaisesti väärät kohteet [7] . Kaksi AAAI :n presidenttiä , Tom Dietterich ja Horwitz , huomauttavat, että tämä on ongelma olemassa oleville järjestelmille: "Tärkeä näkökohta jokaisessa tekoälyjärjestelmässä, joka on vuorovaikutuksessa ihmisten kanssa, on se, että sen on perusteltava ihmisten aikomuksia , eikä kirjaimellisesti suoritettava komentoja." . Tämä ongelma on tulossa vakavammaksi, kun tekoälyohjelmistot muuttuvat autonomisemmiksi ja joustavammiksi [8] .

Bostromin mukaan superäly voi luoda laadullisesti uuden perverssin toteutuksen ongelman : mitä älykkäämpi ja kykenevämpi tekoäly, sitä todennäköisemmin se pystyy löytämään tahattoman ratkaisun, joka kuitenkin täyttää muodollisesti kehittäjien asettaman tavoitteen.

Olemassa olevien tekoälytoimien odottamattomat seuraukset

Jotkut tutkijat väittävät, että tekoälyn hallinnan ongelman tutkiminen voi olla hyödyllistä olemassa olevien tekoälyjärjestelmien toimien odottamattomien seurausten estämisessä.

Aiemmin tekoälyjärjestelmät ovat joskus aiheuttaneet vahinkoja, jotka vaihtelivat pienestä katastrofaaliseen, jota kehittäjät eivät tarkoittanut. Esimerkiksi vuonna 2015, mahdollisesti inhimillisen erehdyksen vuoksi, saksalainen työntekijä murskattiin kuoliaaksi robotin toimesta Volkswagenin tehtaalla , joka ilmeisesti luuli häntä auton osaksi [9] . Vuonna 2016 Microsoft lanseerasi Tay-chatbotin, joka oppi käyttämään rasistista ja seksististä kieltä [3] [9] . Noel Sharkey Sheffieldin yliopistosta uskoo, että ongelman ratkaiseminen yleensä on "todella valtava tieteellinen haaste" [3] .

Harmonisointi

Kohdistamisen haasteena on luoda tekoälyjä, jotka pysyvät turvallisina, vaikka ne toimivat itsenäisesti suuressa mittakaavassa. Joillakin sovinnon näkökohdilla on moraalinen ja poliittinen ulottuvuus [10] . Esimerkiksi kirjassaan Human Compatible [a] Berkeleyn yliopiston professori Stuart Russell ehdottaa tekoälyjärjestelmien suunnittelua yksinomaan ihmisen mieltymysten toteutumisen maksimoimiseksi [11] :173 . Russellin kirjoittamat mieltymykset ovat kaikenkattavia; ne kattavat "kaiken, mikä voi innostaa sinua, kuinka pitkälle tulevaisuuteen tahansa."

Eliezer Yudkowsky Machine Intelligence Research Institutesta ehdotti tavoitteeksi toteuttaa ihmiskunnan "koherentti ekstrapoloitu tahto" (CEV), joka on karkeasti määritelty arvojoukoksi, jonka ihmiskunta jakaisi heijastavassa tasapainossa , eli pitkän jalostusprosessin jälkeen. 10] [12] .

Sisäinen ja ulkoinen koordinointi

Jotkut tekoälyn hallintaehdotukset ottavat huomioon sekä eksplisiittisen tavoitefunktion että nousevan implisiittisen tavoitefunktion. Tällaisilla ehdotuksilla pyritään yhdenmukaistamaan kolme erilaista tekoälyjärjestelmän kuvausta: [13] :

Ihanteellinen määritys: Mitä kehittäjä haluaa järjestelmän tekevän, mutta mikä voi olla huonosti artikuloitua.
Suunnittelun erittely: Suunnitelma, jota todella käytetään tekoälyjärjestelmän luomiseen. Vahvistusoppimisjärjestelmässä tämä voi yksinkertaisesti olla järjestelmän palkitsemistoiminto.
Emergent Behavior : Mitä tekoäly todella tekee.

Koska tekoälyjärjestelmät eivät ole täydellisiä optimoijia ja koska millä tahansa spesifikaatiolla voi olla odottamattomia seurauksia, tuloksena oleva käyttäytyminen voi poiketa rajusti ihanteellisesta tai suunnittelutarkoituksesta.

Sisäinen ristiriita ilmenee, kun tekoälyn tavoitteet poikkeavat suunnitteluspesifikaatiosta. Tällaisten poikkeamien havaitsemiseksi ja poistamiseksi Paul Christiano ehdottaa tulkittavuuden käyttöä [14] .

Skaalautuva valvonta

Yksi tapa saavuttaa ulkoinen johdonmukaisuus on ottaa ihmiset mukaan tekoälyn käyttäytymisen arviointiin [15] [16] . Inhimillinen valvonta on kuitenkin kallista, joten tätä menetelmää ei voida realistisesti käyttää kaikkien toimintojen arvioimiseen. Lisäksi monimutkaiset tehtävät (kuten talouspoliittinen päätöksenteko) voivat olla liian monimutkaisia ihmiselle. Pitkän aikavälin haasteita, kuten ilmastonmuutoksen ennustamista, ei kuitenkaan voida arvioida ilman laajoja ihmistutkimuksia [17] .

Keskeinen ratkaisematon ongelma kohdistustutkimuksessa on se, kuinka luoda suunnitteluspesifikaatio, joka välttää ulkoisen epäjohdonmukaisuuden ja rajoittaa pääsyä ihmisjohtajaan. Tämä on niin kutsuttu skaalautuvan valvonnan ongelma [ 16 ] .

Oppiminen keskustelun kautta

OpenAI :n tutkijat ovat ehdottaneet tekoälyn opettamista järjestelmien välisten keskustelujen kautta, jolloin voittajan päättää ihminen [18] . Tällaisten keskustelujen tarkoituksena on kiinnittää ihmisten huomio monimutkaisten asioiden ratkaisemisen heikoimpiin kohtiin [19] [20] .

Ihmisten mieltymysten päättäminen käyttäytymisestä

Stuart Russell kannattaa uutta lähestymistapaa hyödyllisten koneiden kehittämiseen, jossa: [11] :182

Koneen ainoan tarkoituksen tulisi olla ihmisten mieltymysten paras toteuttaminen;
Aluksi koneella ei ole tarkkaa käsitystä siitä, mitä nämä mieltymykset ovat;
Luotettavin tietolähde henkilön mieltymyksistä on jälkimmäisen käyttäytyminen.

Alkuperäinen teksti (englanniksi)[ näytäpiilottaa]

Koneen ainoa tavoite on maksimoida ihmisten mieltymysten toteutuminen.
Kone on aluksi epävarma näiden mieltymysten suhteen.
Lopullinen tiedonlähde ihmisten mieltymyksistä on ihmisen käyttäytyminen.

Esimerkki tästä lähestymistavasta on Russellin " back-learning " -menetelmä, jossa tekoälyt päättelevät ihmisten esimiesten mieltymyksiä heidän käyttäytymisestään olettaen, että esimiehet toimivat tavalla, joka maksimoi jonkin palkitsemistoiminnon [11] .

Valmiuksien hallinta

Bostrom ja muut suosittelevat valmiuksien ohjausmenetelmiä vain sovitusmenetelmien lisänä [1] .

Yksi ongelma on, että oletushermoverkkoja on erittäin vaikea tulkita [21] . Tämä tekee pettämisen tai muun ei-toivotun käytöksen havaitsemisen vaikeaksi. Tämän vaikeuden voittamiseksi edistyminen tulkitun tekoälyn [22] alalla voi olla hyödyllistä .

Mahdollisuus keskeyttää ja sammuttaa

Yksi mahdollinen tapa estää vaarallisia seurauksia on antaa ihmisjohtajille mahdollisuus sammuttaa huonosti käyttäytyvä tekoäly helposti "kytkimellä". Kuitenkin saavuttaakseen tavoitteensa tekoälyt voivat yrittää sammuttaa kytkimet tai kopioida itsestään muissa tietokoneissa. Tämä ongelma on muotoiltu ihmisen ja tekoälyn väliseksi alipeliksi, jossa tekoäly voi päättää sammuttaako kytkimen, ja sitten, jos kytkin on edelleen päällä, ihminen voi valita, aktivoiko se vai ei. . Tällaisten pelien tarkoituksena on varmistaa, että tekoäly tulkitsee ihmisen valinnat tärkeäksi tiedoksi aiotuista tavoitteista [11] :208 .

Eristäminen

Isolated AI on ehdotettu valmiuksien hallintatekniikka, jossa tekoäly toimii eristetyssä tietokonejärjestelmässä, jossa on rajoitetut tulo- ja lähtökanavat, kuten tekstikanavat, eikä Internet-yhteyttä. Vaikka tämä vähentää tekoälyn kykyä suorittaa ei-toivottua toimintaa, se vähentää myös sen hyödyllisyyttä. Eristettyä tekoälyä voidaan käyttää Q&A-tilassa, joka ei vaadi vuorovaikutusta ulkomaailman kanssa.

Tämä lähestymistapa vaatii huolellista laitteiston ja ohjelmiston testausta, koska tekoäly voi yrittää kommunikoida ulkomaailman kanssa manipuloimalla tarkkailijoita [23] .

Oracle

Oraakkeli on hypoteettinen tekoäly, joka on suunniteltu vastaamaan kysymyksiin eikä saavuttamaan tavoitteita, jotka liittyvät maailman muuttamiseen sen rajoitetun ympäristön ulkopuolella [24] . On arvioitu, että superälyn käyttö oraakkelitilassa voisi tuottaa biljoonien dollareiden voittoa [11] :162–163 .

Oraakkelin vaara piilee vastausten mahdollisessa manipuloinnissa omien piilotettujen tavoitteidensa saavuttamiseksi. Tämän vaaran poistamiseksi Bostrom ehdottaa useiden oraakkelien luomista ja niiden vastausten vertailua päästäkseen yhteisymmärrykseen [25] .

Skeptisyys tekoälyn riskiin

Skeptikot uskovat, että superäly aiheuttaa vain vähän tai ei ollenkaan riskiä satunnaisesta väärinkäytöksestä. Tällaiset skeptikot ajattelevat usein, että superälykkään tekoälyn hallinta on triviaalia. Jotkut skeptikot [26] , kuten Gary Markus [27] , ovat ehdottaneet sellaisten sääntöjen hyväksymistä, jotka ovat samankaltaisia kuin kuvitteellinen " Robotiikan kolme lakia ", jotka määrittelevät selvästi halutun tuloksen ("suora normatiivisuus"). Päinvastoin, useimmat eksistentiaalisen riskin teesin kannattajat (samoin kuin monet skeptikot) pitävät kolmea lakia hyödyttöminä, koska nämä kolme lakia ovat moniselitteisiä ja ristiriidassa keskenään. Muita "suoraan normatiivisuuteen" liittyviä ehdotuksia ovat kantilainen etiikka , utilitarismi tai molempien yhdistelmät. Useimmat kontrollin puolestapuhujat uskovat, että inhimilliset arvot (ja niiden määrälliset kompromissit) ovat liian monimutkaisia ja huonosti ymmärrettyjä ohjelmoitaviksi suoraan superälyksi; sen sijaan superäly on ohjelmoitava inhimillisten arvojen hankkimis- ja ymmärtämisprosessiin ("epäsuora normatiivisuus"), kuten koherentti ekstrapoloitu tahto [28] .

Muistiinpanot

Kommentit

↑ Otsikon likimääräinen käännös: "Yhteensopivuus ihmisten kanssa"

Lähteet

↑ 1 2 3 Bostrom, Nick. Yliäly: polut, vaarat, strategiat. — Ensin. - 2014. - ISBN 978-0199678112 .
↑ Yampolskiy, Roman (2012). "Singularity Artificial Intelligence -rajoitusongelman tiivistäminen". Journal of Consciousness Studies . 19 (1-2): 194-214.
↑ 1 2 3 Google kehittää tappokytkintä tekoälylle , BBC News (8. kesäkuuta 2016). Arkistoitu alkuperäisestä 11. kesäkuuta 2016. Haettu 12. kesäkuuta 2016.
↑ Stephen Hawking: "Transcendence tarkastelee keinotekoisuuden vaikutuksia – mutta otammeko tekoälyn riittävän vakavasti?" , The Independent . Arkistoitu alkuperäisestä 25. syyskuuta 2015. Haettu 14. kesäkuuta 2016.
↑ Stephen Hawking varoittaa, että tekoäly voi lopettaa ihmiskunnan , BBC (2. joulukuuta 2014). Arkistoitu alkuperäisestä 30. lokakuuta 2015. Haettu 14. kesäkuuta 2016.
↑ Tekoälyn ennakointi. luonto . 532 (7600). 26. huhtikuuta 2016. Bibcode : 2016Natur.532Q.413. . DOI : 10.1038/532413a . PMID 27121801 .
↑ Russell, Stuart. 26.3: Tekoälyn kehittämisen etiikka ja riskit // Tekoäly: Moderni lähestymistapa / Stuart Russell, Peter Norvig . - Prentice Hall, 2009. - ISBN 978-0-13-604259-4 .
↑ Dietterich, Thomas (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF) . ACM:n viestintä . 58 (10): 38&ndash, 40. DOI : 10.1145/2770869 . Arkistoitu (PDF) alkuperäisestä 2016-03-04 . Haettu 14. kesäkuuta 2016 . Käytöstä poistettu parametri |deadlink=( ohje )
↑ 1 2 'Paina isoa punaista nappia': Tietokoneasiantuntijat haluavat tappamiskytkimen estääkseen robotteja tekemästä roistoja , Washington Post . Arkistoitu alkuperäisestä 12. kesäkuuta 2016. Haettu 12. kesäkuuta 2016.
↑ 1 2 Gabriel, Iason (1. syyskuuta 2020). "Tekoäly, arvot ja suuntautuminen" . Mielet ja koneet ]. 30 (3): 411-437. arXiv : 2001.09768 . DOI : 10.1007/s11023-020-09539-2 . ISSN 1572-8641 . Arkistoitu alkuperäisestä 2021-02-15 . Haettu 7. helmikuuta 2021 . Käytöstä poistettu parametri |deadlink=( ohje )
↑ 1 2 3 4 5 Russell, Stuart. Ihmisten yhteensopivuus: tekoäly ja hallinnan ongelma . — Yhdysvallat : Viking, 8. lokakuuta 2019. — ISBN 978-0-525-55861-3 .
↑ Yudkowsky, Eliezer. Monimutkaiset arvojärjestelmät ystävällisessä tekoälyssä // Keinotekoinen yleinen älykkyys. - 2011. - Voi. 6830.—s. 388–393. - ISBN 978-3-642-22886-5 . - doi : 10.1007/978-3-642-22887-2_48 .
↑ Ortega. Turvallisen tekoälyn rakentaminen : spesifikaatio, kestävyys ja varmuus . Keskitaso (27. syyskuuta 2018). Haettu 12. joulukuuta 2020. Arkistoitu alkuperäisestä 12. joulukuuta 2020.
↑ Christiano. Keskustelu Paul Christianon kanssa . AI-vaikutukset . AI Impacts (11. syyskuuta 2019). Haettu 6. tammikuuta 2021. Arkistoitu alkuperäisestä 19. elokuuta 2020. (määrätön)
↑ Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane & Amodei, Dario (13. heinäkuuta 2017), Deep Reinforcement Learning from Human Preferences, arΧiv : 1706.03741 [stat.ML].
↑ 1 2 Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John & Mané, Dan (25. heinäkuuta 2016), Concrete Problems in AI Safety, arΧiv : 1606.06565 [cs.AI].
↑ Amodei, Dario; Christiano, Paul; Ray, Alex oppii ihmisten mieltymyksistä . OpenAI (13. kesäkuuta 2017). Haettu 6. tammikuuta 2021. Arkistoitu alkuperäisestä 3. tammikuuta 2021.
↑ Irving, Geoffrey; Christiano, Paul; Amodei, Dario & OpenAI (22. lokakuuta 2018), tekoälyn turvallisuus keskustelun kautta, arΧiv : 1805.00899 [stat.ML].
↑ Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal & Legg, Shane (19. marraskuuta 2018), Skaalautuva agenttien kohdistus palkkiomallinnuksen avulla: tutkimussuunta, arvo : 1811.07871 [cs.LG].
↑ Banzhaf, Wolfgang. Geneettisen ohjelmoinnin teoria ja käytäntö XVII : [ eng. ] / Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman … [ et al. ] . - Springer Nature, toukokuu 2020. - ISBN 978-3-030-39958-0 . Arkistoitu 15. helmikuuta 2021 Wayback Machinessa
↑ Montavon, Gregoire (2018). "Menetelmät syvien hermoverkkojen tulkintaan ja ymmärtämiseen". Digitaalinen signaalinkäsittely: Review Journal ]. 73 :1-15. DOI : 10.1016/j.dsp.2017.10.011 . ISSN 1051-2004 .
↑ Yampolskiy, Roman V. "Tekoälyn selittämättömyys ja käsittämättömyys." Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277-291.
↑ Chalmers, David (2010). "Singulariteetti: Filosofinen analyysi". Journal of Consciousness Studies . 17 (9-10): 7-65.
↑ Armstrong, Stuart (2012). "Thinking Inside the Box: Ohjaus ja käyttö Oracle AI". Mielet ja koneet . 22 (4): 299-324. DOI : 10.1007/s11023-012-9282-2 .
↑ Bostrom, Nick. Yliäly: polut, vaarat, strategiat. - Oxford : Oxford University Press, 2014. - ISBN 9780199678112 .
↑ Älykkäät koneet: Tarvitseeko meidän todella pelätä tekoälyä? , BBC News (27. syyskuuta 2015). Arkistoitu 8. marraskuuta 2020. Haettu 9. helmikuuta 2021.
↑ Marcus . Mielipiteitä | Kuinka rakentaa tekoälyä, johon voimme luottaa (julkaistu 2019) , The New York Times (6. syyskuuta 2019). Arkistoitu alkuperäisestä 22.9.2020. Haettu 9. helmikuuta 2021.
↑ Sotala, Kaj (19.12.2014). "Reaktiot katastrofaaliseen AGI-riskiin: kysely". Physica Scripta . 90 (1): 018001. Bibcode : 2015PhyS ...90a8001S . DOI : 10.1088/0031-8949/90/1/018001 .

Kirjallisuus

Gary Marcus, Ernest Davis. Tekoäly: Käynnistä uudelleen. Kuinka luoda koneäly, johon voit todella luottaa = Tekoälyn uudelleenkäynnistäminen: Luotettavan tekoälyn rakentaminen. - M . : Henkinen kirjallisuus, 2021. - 304 s. — ISBN 978-5-907394-93-3 .

Tekoäly
Tarina	Tekoälyn historia Tekoälyn talvi Dartmouthin seminaari
Filosofia	Turingin testi kiinalainen huone Vahva ja heikko tekoäly Ystävällinen tekoäly Tekoälyn etiikka Ohjausongelma
Ohjeet	Agentin lähestymistapa Mukautuva ohjaus Tietotekniikka Toimiva järjestelmämalli Koneoppiminen Neuroverkko sumea logiikka luonnollisen kielen käsittely Hahmontunnistus Parven älykkyys Symbolinen AI Evoluutioalgoritmit Asiantuntijajärjestelmä
Sovellus	Ääniohjaus Luokitteluongelma Asiakirjojen luokittelu Asiakirjojen klusterointi ryhmäanalyysi Paikallinen haku Konekäännös Optinen hahmon tunnistus Puheentunnistus Käsialan tunnistus Peli AI
Tutkijat	Charles Babbage Vladimir Vapnik Joseph Weizenbaum Norbert Wiener Viktor Glushkov Vladimir Gorodetsky Jan LeCun Aleksei Ljapunov John McCarthy Marvin Minsky Allen Newell Seymour Papert Juudan helmi Germogen Pospelov Dmitri Pospelov Frank Rosenblatt Herbert Alexander Simon Alan Turing Patrick Winston Viktor Finn Sergei Fomin Demis Hassabis Geoffrey Hinton Noam Chomsky Claude Shannon Andrew Eun Eliezer Judkovski