Perceptron

Perceptron tai perceptron [nb 1] ( eng. perceptron lat. perceptio -  perception ; germ . Perzeptron ) - matemaattinen tai tietokonemalli aivojen tiedon havaitsemisesta ( aivojen kyberneettinen malli ), jonka Frank Rosenblatt ehdotti vuonna 1958 ja toteutettiin ensimmäisen kerran muodossa elektroninen kone "Mark-1" [nb 2] vuonna 1960 . Perceptronista tuli yksi ensimmäisistä hermoverkkomalleista ja Mark-1:stä maailman ensimmäinen neurotietokone .    

Perceptroni koostuu kolmen tyyppisistä elementeistä, nimittäin: antureilta tulevat signaalit välitetään assosiatiivisille elementeille ja sitten reagoiville elementeille. Siten perceptronit mahdollistavat joukon "assosiaatioita" tuloärsykkeiden ja halutun lähtövasteen välille . Biologisesti tämä vastaa esimerkiksi visuaalisen tiedon muuntamista fysiologiseksi vasteeksi motorisista neuroneista . Nykyajan terminologian mukaan perceptronit voidaan luokitella keinotekoisiksi hermoverkoiksi:

  1. yhdellä piilotetulla kerroksella; [nb 3]
  2. kynnyksen siirtotoiminnolla ;
  3. suoralla signaalin etenemisellä .

Neuroverkkojen kasvavan suosion taustalla vuonna 1969 julkaistiin Marvin Minskyn ja Seymour Papertin kirja , joka osoitti perceptronien perustavanlaatuiset rajoitukset. Tämä on johtanut tekoälyn tutkijoiden kiinnostuksen muuttumiseen symbolisen laskennan alalla , toisin kuin hermoverkkojen [nb 4] . Lisäksi perceptronien matemaattisen tutkimuksen monimutkaisuuden ja yleisesti hyväksytyn terminologian puutteen vuoksi on syntynyt erilaisia ​​epätarkkuuksia ja väärinkäsityksiä .

Myöhemmin kiinnostus hermoverkkoja ja erityisesti Rosenblattin työtä kohtaan alkoi uudelleen. Nopeasti kehittyy siis esimerkiksi biolaskenta , joka muun muassa teoreettisessa laskentaperustassaan perustuu hermoverkkoihin ja perceptroni toistetaan bakteerirodopsiinia sisältävien kalvojen perusteella .

Perceptronin tulo

Vuonna 1943 Warren McCulloch ja Walter Pitts ehdottivat keinotekoisen hermoverkon käsitettä artikkelissaan "A logical calculus of ideas related to hermotoimintaa" [1] . Erityisesti he ehdottivat keinotekoista neuronimallia . Donald Hebb kuvaili vuoden 1949 artikkelissaan "Käyttäytymisen järjestäminen" [2] neuronien oppimisen perusperiaatteet.

Nämä ideat kehitti muutama vuosi myöhemmin amerikkalainen neurofysiologi Frank Rosenblatt . Hän ehdotti järjestelmää laitteelle, joka simuloi ihmisen havainnointiprosessia , ja kutsui sitä "perceptroniksi". Perceptron välitti signaaleja valokennoista , jotka olivat aistikenttä, sähkömekaanisten muistisolujen lohkoihin. Nämä solut yhdistettiin satunnaisesti toisiinsa konnektivismin periaatteiden mukaisesti . Vuonna 1957 Cornellin ilmailulaboratoriossa perceptronin toiminnan simulointi IBM 704 -tietokoneella saatiin onnistuneesti päätökseen , ja kaksi vuotta myöhemmin, 23. kesäkuuta 1960, Cornellin yliopistossa esiteltiin ensimmäinen neurotietokone  - Mark-1. , joka pystyi tunnistamaan joitain englannin aakkosten kirjaimia [3] [4] .

Perceptronin "opettamiseksi" luokittelemaan kuvia kehitettiin erityinen iteratiivinen kokeilu- ja virheoppimismenetelmä, joka muistuttaa ihmisen oppimisprosessia - virheenkorjausmenetelmää [5] . Lisäksi perceptroni saattoi tietyn kirjaimen tunnistaessaan korostaa kirjaimelle ominaisia ​​piirteitä, jotka olivat tilastollisesti yleisempiä kuin yksittäistapauksissa merkityksettömät erot. Siten perceptron pystyi yleistämään eri tavoin kirjoitetut kirjaimet (käsinkirjoitus) yhdeksi yleistetyksi kuvaksi. Perceptronin ominaisuudet olivat kuitenkin rajalliset: kone ei pystynyt luotettavasti tunnistamaan osittain suljettuja kirjaimia, samoin kuin erikokoisia kirjaimia, jotka sijaitsevat siirrolla tai kiertoliikkeellä, kuin mitä sen koulutusvaiheessa käytettiin [6] .

Raportti ensimmäisistä tuloksista ilmestyi jo vuonna 1958  - silloin Rosenblatt julkaisi artikkelin "Perceptron: A probabilistic model for store and organizing information in aivos" [7] . Mutta hän kuvaa havaintoprosesseja ja perceptroneja koskevia teorioitaan ja oletuksiaan tarkemmin vuonna 1962 kirjassa "Neurodynamiikan periaatteet: Perceptronit ja aivojen mekanismien teoria". Kirjassa hän ei käsittele vain valmiita perceptronimalleja, joissa on yksi piilotettu kerros, vaan myös monikerroksisia perceptroneja , joissa on risti- (kolmas luku) ja käänteiset (neljäs luku) kytkennät. Kirjassa esitellään myös useita tärkeitä ajatuksia ja lauseita, esimerkiksi perceptronin konvergenssilause [8] on todistettu .

Kuvaus alkeisperceptronista

Alkuaineperceptroni koostuu kolmen tyyppisistä elementeistä: S-elementeistä, A-elementeistä ja yhdestä R-elementistä. S-elementit ovat kerros antureita tai reseptoreita. Fyysisessä suoritusmuodossa ne vastaavat esimerkiksi valoherkkiä soluja silmän verkkokalvossa tai kameraryhmän valovastuksia . Jokainen reseptori voi olla jossakin kahdesta tilasta - lepo- tai viritystilasta , ja vain jälkimmäisessä tapauksessa se lähettää yhden signaalin seuraavalle kerrokselle, assosiatiivisille elementeille.

A-elementtejä kutsutaan assosiatiivisiksi, koska jokainen tällainen elementti vastaa pääsääntöisesti kokonaista S-elementtien joukkoa (assosiaatiota). A-elementti aktivoituu heti, kun S-elementtien signaalien määrä sen sisääntulossa ylittää tietyn arvon [nb 5] . Siten, jos joukko vastaavia S-elementtejä sijaitsee aistikentässä "D"-kirjaimen muodossa, A-elementti aktivoituu, jos riittävä määrä reseptoreita on ilmoittanut "valkoisen valopisteen" ilmaantumisen. niiden läheisyydessä, eli A-elementti liitetään ikään kuin D-kirjaimen läsnäoloon/puuttumiseen jollakin alueella.

Herätetyistä A-elementeistä tulevat signaalit puolestaan ​​välitetään summaimelle R ja signaali i:nnestä assosiatiivisesta elementistä lähetetään kertoimella [9] . Tätä kerrointa kutsutaan A-R-sidoksen painoksi .

Aivan kuten A-elementit, R-elementti laskee tulosignaalien arvojen summan kerrottuna painoilla ( lineaarinen muoto ). R-elementti ja sen mukana alkeisperceptroni antavat arvon "1", jos lineaarinen muoto ylittää kynnyksen , muuten tulos on "-1". Matemaattisesti R-elementin toteuttama funktio voidaan kirjoittaa seuraavasti:

Alkeisperceptronin harjoittelu koostuu A–R-sidosten painokertoimien muuttamisesta. S–A-linkkien painot (jotka voivat saada arvot {−1; 0; +1}) ja A-elementtien kynnysarvot valitaan satunnaisesti heti alussa eivätkä sitten muutu. (Katso alta kuvaus algoritmista .)

Harjoittelun jälkeen perceptron on valmis työskentelemään tunnistus [10] tai yleistys [11] tilassa . Tässä tilassa perceptronille esitetään aiemmin tuntemattomia kohteita, ja perceptronin on määritettävä, mihin luokkaan ne kuuluvat. Perceptronin työ on seuraava: kun kohde esitetään, viritetyt A-elementit lähettävät R-elementille signaalin, joka on yhtä suuri kuin vastaavien kertoimien summa . Jos tämä summa on positiivinen, päätetään, että annettu objekti kuuluu ensimmäiseen luokkaan ja jos se on negatiivinen, niin sitten toiseen [12] .

Perceptronien teorian peruskäsitteet

Perceptronien teorian vakava perehtyminen edellyttää perusmääritelmien ja -lauseiden tuntemista, joiden kokonaisuus on perusta kaikille myöhemmille keinotekoisille hermoverkkotyypeille . Mutta ainakin on välttämätöntä ymmärtää ainakin signaaliteorian näkökulmasta , joka on alkuperäinen, eli perceptronin kirjoittajan F. Rosenblattin kuvaama.

Signaaliin perustuva kuvaus

Ensin määritellään perceptronin ainesosat, jotka ovat erikoistapauksia keinotekoisesta neuronista , jolla on kynnyssiirtofunktio .

Jos minkä tahansa elementin lähdössä saamme 1, niin sanomme, että elementti on aktiivinen tai jännittynyt .

Kaikkia tarkasteltuja elementtejä kutsutaan yksinkertaisiksi , koska ne toteuttavat hyppyfunktioita . Rosenblatt väitti myös, että muun tyyppisiä toimintoja, kuten lineaarisia [14] , voidaan tarvita monimutkaisempien ongelmien ratkaisemiseen .

Tämän seurauksena Rosenblatt esitteli seuraavat määritelmät:

Lisäksi voit viitata seuraaviin kirjassa esitettyihin ja myöhemmin hermoverkkoteorian puitteissa kehitettyihin käsitteisiin:

Kuvaus perustuu predikaatteihin

Marvin Minsky tutki rinnakkaislaskennan ominaisuuksia , joista perceptron oli tuolloin erikoistapaus. Analysoidakseen sen ominaisuuksia hänen täytyi esittää perceptronien teoria uudelleen predikaattien kielellä . Lähestymistavan ydin oli seuraava: [nb 6] [19]

"Visuaaliseen" perceptroniin sovellettuna muuttuja X symboloi jonkin geometrisen hahmon ( ärsykkeen ) kuvaa. Yksityinen predikaatti antoi jokaisen "tunnistaa" oman hahmonsa. Predikaatti ψ tarkoitti tilannetta, jossa lineaarinen yhdistelmä (  — lähetyskertoimet) ylitti tietyn kynnyksen θ.

Tutkijat ovat tunnistaneet 5 perceptroniperhettä, joilla on heidän mielestään mielenkiintoisia ominaisuuksia: [20]

  1. Perceptronit ovat halkaisijaltaan rajoitettuja  - jokainen tiettyjen predikaattien tunnistama luku X ei ylitä halkaisijaltaan jotakin kiinteää arvoa.
  2. Rajallisen järjestyksen perceptronit  - jokainen tietty predikaatti riippuu rajatusta määrästä pisteitä X:stä.
  3. Gamba  -perceptronit - jokaisen tietyn predikaatin on oltava lineaarinen kynnysfunktio, eli miniperceptroni.
  4. Satunnaiset perceptronit  ovat rajoitetun kertaluvun perceptroneja, joissa osittaiset predikaatit ovat satunnaisesti valittuja Boolen funktioita. Kirjassa huomautetaan, että juuri tätä mallia Rosenblattin ryhmä tutki perusteellisemmin.
  5. Rajatut perceptronit  - osittaisten predikaattien joukko on ääretön, ja kertoimien mahdollisten arvojen joukko on äärellinen.

Vaikka tällainen matemaattinen laitteisto mahdollisti analyysin soveltamisen vain Rosenblatt- perceptronin alkuaineeseen , se paljasti monia perustavanlaatuisia rajoituksia rinnakkaislaskentaan, joista mikään nykyaikainen keinotekoinen hermoverkko ei ole vapaa.

Historiallinen luokitus

Perceptronin käsitteellä on mielenkiintoinen, mutta kadehdittava historia. Viime vuosien kehittymättömän hermoverkkojen terminologian, perceptronitutkimuksen tehtävien ankaran kritiikin ja väärinymmärryksen sekä toisinaan väärän lehdistötiedotuksen seurauksena tämän käsitteen alkuperäinen merkitys on vääristynyt. Vertaamalla Rosenblatin kehitystä nykyaikaisiin arvosteluihin ja artikkeleihin, voimme erottaa 4 melko eristettyä perceptroniluokkaa:

Perceptron, jossa on yksi piilotettu kerros Tämä on klassinen perceptron, jolle suurin osa Rosenblattin kirjasta on omistettu ja jota tarkastellaan tässä artikkelissa: siinä on yksi kerros S-, A- ja R-elementtejä. Yksikerroksinen perceptroni Tämä on malli, jossa tuloelementit on kytketty suoraan lähtöelementteihin painojärjestelmän avulla. Se on yksinkertaisin myötäkytkentäverkko  - lineaarinen luokitin ja klassisen perceptronin erikoistapaus, jossa jokainen S-elementti vastaa yksilöllisesti yhtä A-elementtiä, S-A-linkkien paino on +1 ja kaikki A-elementit on kynnys θ = 1. Yksikerroksiset perceptronit ovat itse asiassa muodollisia hermosoluja eli McCulloch-Pittsin kynnyselementtejä. Niillä on monia rajoituksia, erityisesti ne eivät pysty tunnistamaan tilannetta, kun niiden tuloihin syötetään erilaisia ​​signaaleja ("XOR-tehtävä", katso alla ). Monikerroksinen perceptroni (Rosenblattin mukaan) Tämä on perceptron, jossa on lisäkerroksia A-elementtejä. Rosenblatt analysoi sitä kirjansa kolmannessa osassa. Monikerroksinen perceptroni (Rumelhartin mukaan) Tämä on perceptron, jossa on lisäkerroksia A-elementtejä, lisäksi tällaisen verkon koulutus suoritetaan virheen takaisin-etenemismenetelmän mukaisesti ja kaikki perceptronin kerrokset (mukaan lukien S-A) koulutetaan. Se on Rosenblatin monikerroksisen perceptronin erikoistapaus.

Tällä hetkellä kirjallisuudessa termi "perceptron" ymmärretään useimmiten yksikerroksiseksi perceptroniksi ( englanniksi  Single-layer perceptron ), ja lisäksi on yleinen väärinkäsitys, että se oli tämä Rosenblatin ehdottama yksinkertaisin malli. Toisin kuin yksikerroksinen, he laittoivat "monikerroksisen perceptronin" ( eng.  Multilayer perceptron ), mikä tarkoittaa useimmiten Rumelhartin monikerroksista perceptronia, ei Rosenblatin. Klassista perceptronia tällaisessa dikotomiassa kutsutaan monikerroksiseksi.

Oppimisalgoritmit

Minkä tahansa hermoverkon tärkeä ominaisuus on kyky oppia . Oppimisprosessi on toimenpide painojen ja kynnysten säätämiseksi halutun (tavoite) ja tuloksena olevien tulosvektorien välisen eron pienentämiseksi. Kirjassaan Rosenblatt yritti luokitella erilaisia ​​perceptron-oppimisalgoritmeja ja kutsui niitä vahvistusjärjestelmille.

Palkkiojärjestelmä  on mikä tahansa joukko sääntöjä, joiden perusteella perceptronin vuorovaikutusmatriisia (tai muistitilaa) voidaan muuttaa ajan myötä [21] .

Kuvaamalla näitä vahvistusjärjestelmiä ja täsmentäen niiden mahdollisia tyyppejä Rosenblatt perustui D. Hebbin vuonna 1949 esittämiin oppimisajatuksiin [2] , jotka voidaan muotoilla uudelleen seuraavaksi kaksiosaiseksi säännöksi:

Ohjattu oppiminen

Klassinen menetelmä perceptronin kouluttamiseen on virheenkorjausmenetelmä [8] . Se on ohjattua oppimista , jossa yhteyden paino ei muutu niin kauan kuin perceptronin nykyinen reaktio pysyy oikeana. Kun tapahtuu virheellinen reaktio, paino muuttuu yhdellä ja merkki (+/-) määritetään vastakkaiseksi virheen etumerkistä.

Oletetaan, että haluamme kouluttaa perceptronin erottamaan kaksi objektiluokkaa siten, että kun ensimmäisen luokan objektit esitetään, perceptronin tulos on positiivinen (+1) ja kun toisen luokan objektit esitetään, se on negatiivinen ( −1). Tätä varten suoritamme seuraavan algoritmin: [5]

  1. Valitsemme satunnaisesti kynnykset A-elementeille ja muodostamme S-A-yhteydet (ne eivät muutu enempää).
  2. Alkukertoimien oletetaan olevan nolla.
  3. Esitämme harjoitusnäytteen : objektit (esimerkiksi ympyrät tai neliöt), jotka osoittavat luokan, johon ne kuuluvat.
    • Näytämme perceptronin ensimmäisen luokan objektin. Tässä tapauksessa jotkut A-elementit kiihtyvät. Näitä viritettyjä elementtejä vastaavia kertoimia kasvatetaan yhdellä.
    • Esitämme toisen luokan objektin ja niiden A-elementtien kertoimet, jotka virittyvät tämän näytön aikana, pienennetään yhdellä.
  4. Molemmat vaiheen 3 osat suoritetaan koko harjoitussarjan ajan. Harjoittelun tuloksena muodostuu kytkentäpainojen arvot .

Perceptronin konvergenssilause [8] , jonka F. Rosenblatt on kuvannut ja todennut (joihin osallistuivat Block, Joseph, Kesten ja muut hänen kanssaan työskennelleet tutkijat), osoittaa, että alkeisperceptroni on koulutettu tällaisen algoritmin mukaan riippumatta alkuperäisestä painokertoimien tila ja järjestys kannustinten ilmaantuminen johtaa aina ratkaisun saavuttamiseen rajallisessa ajassa.

Oppimista ilman opettajaa

Klassisen perceptron-oppimismenetelmän lisäksi Rosenblatt esitteli myös ohjaamattoman oppimisen käsitteen ja ehdotti seuraavaa oppimismenetelmää:

Alfa-vahvistusjärjestelmä  on vahvistusjärjestelmä, jossa kaikkien elementtiin johtavien aktiivisten liitosten painot muuttuvat saman verran r, ja ei- aktiivisten liitosten painot eivät muutu tänä aikana [23] .

Sitten, kun kehitettiin monikerroksisen perceptronin käsite, alfajärjestelmää muutettiin ja siitä tuli tunnetuksi delta-sääntö . Muokkaus tehtiin oppimisfunktion tekemiseksi differentioituvaksi (esim. sigmoidi ), mikä puolestaan ​​on tarpeen gradienttilaskeutumismenetelmän soveltamiseksi, jonka ansiosta voidaan harjoitella useampaa kuin yhtä kerrosta.

Takaisinpropagointimenetelmä

Monikerroksisten verkkojen kouluttamiseksi useat tutkijat, mukaan lukien D. Rumelhart , ehdottivat valvottua gradienttioppimisalgoritmia , joka johtaa perceptronin ulostulojen laskeman virhesignaalin tuloihinsa kerros kerrokselta. Tämä on nykyään suosituin menetelmä monikerroksisten perceptronien harjoittamiseen. Sen etuna on, että se pystyy kouluttamaan kaikkia hermoverkon kerroksia, ja se on helppo laskea paikallisesti. Tämä menetelmä on kuitenkin erittäin aikaa vievä, ja lisäksi sen soveltamiseksi on välttämätöntä, että hermosolujen siirtofunktio on differentioituva. Samanaikaisesti perceptroneissa oli välttämätöntä luopua binäärisignaalista ja käyttää jatkuvia arvoja sisääntulossa [24] .

Perinteiset harhaluulot

Toimittajien ja markkinoijien keinotekoisten hermoverkkojen popularisoinnin seurauksena tehtiin useita epätarkkuuksia, jotka nuoret (silloin) tutkijat tulkitsivat väärin tämän aiheen alkuperäisten teosten riittämättömällä tutkimuksella. Tästä johtuen perceptronin toimivuudesta ei ole tähän päivään mennessä löydetty riittävän syvällistä tulkintaa muihin myöhempinä vuosina kehitettyihin neuroverkkoihin verrattuna.[ milloin? ]

Terminologiset epätarkkuudet

Yleisin terminologiavirhe on perceptronin määritteleminen hermoverkoksi ilman piilotettuja kerroksia (yksikerroksinen perceptroni, katso yllä ). Tämä virhe johtuu siitä, että hermoverkkojen alalla ei ole kehitetty tarpeeksi terminologiaa niiden kehityksen varhaisessa vaiheessa. F. Wasserman yritti luokitella erityyppisiä neuroverkkoja tietyllä tavalla:

Kuten julkaisuista voidaan nähdä, ei ole yleisesti hyväksyttyä tapaa laskea verkon kerrosten määrää. Monikerroksinen verkko koostuu vuorottelevista hermosolujen ja painojen joukoista. Syötekerros ei suorita summausta. Nämä neuronit toimivat vain haaroina ensimmäiselle painosarjalle eivätkä vaikuta verkon laskentakykyihin. Tästä syystä ensimmäistä kerrosta ei oteta huomioon tasoja laskettaessa, ja verkkoa pidetään kaksikerroksisena, koska vain kaksi kerrosta suorittaa laskelmia. Lisäksi kerroksen painojen katsotaan liittyvän niitä seuraaviin hermosoluihin. Siksi kerros koostuu painotusjoukosta, jonka jälkeen neuronit summaavat painotetut signaalit [25] .

Tämän esityksen seurauksena perceptroni kuului "yksikerroksisen hermoverkon" määritelmän alle. Tämä on osittain totta, koska siinä ei ole piilotettuja oppimishermosolujen kerroksia (jonka painot mukautuvat tehtävään). Ja siksi järjestelmän koko joukko kiinteitä yhteyksiä S-elementeistä A-elementteihin voidaan loogisesti korvata joukolla (tiukan säännön mukaan muunnettuja) uusia tulosignaaleja, jotka tulevat välittömästi A-elementteihin (eli eliminoimalla ensimmäisen kerroksen yhteyksistä kokonaan). Mutta tässä he eivät vain ota huomioon, että tällainen muunnos muuttaa ongelman epälineaarisen esityksen lineaariseksi.

Siksi yksinkertaisesti jättämällä huomiotta kiinteitä yhteyksiä sisältävät kerrokset, joita ei voida harjoitella (alkeisperceptronissa nämä ovat S-A-yhteyksiä), voit tehdä vääriä johtopäätöksiä hermoverkon ominaisuuksista. Joten Minsky toimi hyvin oikein muotoillessaan A-elementin uudelleen predikaatiksi (eli funktioksi); päinvastoin, Wasserman on jo menettänyt tämän idean ja hänellä on A-elementti - vain syöte (melkein S-elementtiä vastaava). Tällaisella terminologisella sekaannuksella jää huomiotta se tosiasia, että perceptroni kartoittaa S-elementtien reseptiivisen kentän A-elementtien assosiatiiviseen kenttään, minkä seurauksena mikä tahansa lineaarisesti erottamaton ongelma muuttuu lineaarisesti erotettavaksi.

Toiminnallisia virheitä

Useimmat toiminnalliset väärinkäsitykset tiivistyvät oletettuun mahdottomuuteen ratkaista lineaarisesti erottamaton ongelma perceptronilla. Mutta tästä aiheesta on monia muunnelmia, harkitsemme tärkeimpiä.

XOR-ongelma

Väärinkäsitys: Perceptron ei pysty ratkaisemaan " XOR-ongelmaa ".

Hyvin yleinen väärinkäsitys. Oikealla oleva kuva näyttää perceptronin ratkaisun tähän ongelmaan. Tämä väärinkäsitys johtuu ensinnäkin siitä, että Minskyn perceptronin määritelmää tulkitaan väärin (katso yllä ), eli predikaatit vastaavat välittömästi syötteitä, vaikka Minskyn predikaatti on funktio, joka tunnistaa kokonaisen joukon syötearvoja [nb 7 ] . Toiseksi, koska klassinen Rosenblatt-perceptron sekoitetaan yksikerroksiseen perceptroniin (yllä kuvatun terminologisen epätarkkuuden vuoksi).

Erityistä huomiota tulee kiinnittää siihen, että "yksikerroksinen perceptron" nykyaikaisessa terminologiassa ja "yksikerroksinen perceptroni" Wassermanin terminologiassa ovat eri kohteita. Ja kuvassa esitetty esine on Wassermanin terminologian mukaan kaksikerroksinen perceptroni.

Lineaarisesti erottamattomien ongelmien opittavuus

Väärinkäsitys: valitsemalla satunnaiset painot , oppiminen voidaan saavuttaa lineaarisesti erottamattomissa (yleensä minkä tahansa) tehtävissä, mutta vain jos onnekas , ja uusissa muuttujissa (A-neuronien lähdöt) tehtävä osoittautuu lineaarisesti erotettavaksi. Mutta et ehkä ole onnekas.

Perceptronin konvergenssilause [8] osoittaa, että ei ole eikä voi olla mitään "ei voi olla onnekas"; kun A-elementit ovat yhtä suuria kuin ärsykkeiden lukumäärä ja epäspesifinen G-matriisi  , ratkaisun todennäköisyys on 100%. Toisin sanoen, kun reseptorikenttä kartoitetaan satunnaisella (epälineaarisella) operaattorilla yhden ulottuvuuden suurempiin assosiatiiviseen kenttään , epälineaarinen ongelma muuttuu lineaarisesti erotettavaksi. Ja seuraava koulutettava kerros löytää jo lineaarisen ratkaisun eri syöttöavaruudessa. Esimerkiksi perceptronin kouluttaminen ratkaisemaan "XOR-ongelma" (katso kuva) suoritetaan seuraavissa vaiheissa:
Painot Iteraatiot
yksi 2 3 neljä 5
w1 0 yksi yksi yksi yksi 2 2 2 2
w2 0 0 yksi yksi yksi yksi yksi 2 2
w3 −1 0 yksi 0 −1 0 −1 0 −1
Tulosignaalit (x, y) yksitoista 0, 1 kymmenen yksitoista yksitoista 0, 1 yksitoista kymmenen yksitoista
Opittavuus muutamasta esimerkistä

Väärinkäsitys: jos ongelmassa panosten ulottuvuus on melko korkea ja koulutusesimerkkejä on vähän, niin tällaisessa "heikosti täytetyssä" tilassa onnistumisten määrä ei välttämättä ole pieni. Tämä osoittaa vain yksittäisen perceptronin soveltuvuuden tapauksen, ei sen universaalisuutta.

Tämä argumentti voidaan helposti testata "shakkilaudalla" tai "sienellä vedellä" [26] [nb 8] :
Annettu ketju 2· N ykköstä tai nollaa, jotka syötetään rinnakkain perceptronin tulojen kanssa. Jos tämä ketju on peilisymmetrinen keskustan suhteen, tulos on +1, muuten 0. Harjoitusesimerkit ovat kaikki (tämä on tärkeää) ketjuja.
Tästä tehtävästä voi olla muunnelmia, esimerkiksi:
Otetaan mustavalkoinen kuva, jonka koko on 256×256 elementtiä ( pikseliä ). Perceptronin syöttödata on pisteen koordinaatit (8 bittiä + 8 bittiä, yhteensä tarvitaan 16 S-elementtiä), lähdössä vaaditaan pisteen väri. Harjoittelemme perceptronia kaikille pisteille (koko kuva). Tuloksena meillä on 65 536 erilaista ärsyke-vaste-paria. Opi ilman virheitä.
Jos tämä väite on totta, perceptroni ei koskaan pysty oppimaan tekemättä yhtäkään virhettä. Muuten perceptron ei koskaan tee virhettä. Käytännössä osoittautuu, että tämä tehtävä on perceptronille hyvin yksinkertainen: sen ratkaisemiseksi perceptroni tarvitsee 1500 A-elementtiä (mihin tahansa tehtävään vaadittavien 65 536 kokonaisen sijaan). Tässä tapauksessa iteraatioiden määrä on noin 1000. 1000 A-elementillä perceptroni ei konvergoi 10 000 iteraatiossa. Jos A-elementtien määrä kuitenkin kasvatetaan 40 000:een, voidaan konvergenssia odottaa 30-80 iteraatiossa. Tällainen argumentti syntyy, koska tämä ongelma sekoitetaan Minsky-ongelmaan "predikaatti"pariteettista" [27] . Painon vakauttaminen ja lähentyminen

Väärinkäsitys: Rosenblatin perceptronissa on yhtä monta A-elementtiä kuin on syötteitä. Ja Rosenblatin mukaan konvergenssi on painojen stabiloitumista.

Rosenblattissa luemme:

Jos ärsykkeiden lukumäärä avaruudessa W on yhtä suuri kuin n > N (eli enemmän kuin alkeisperceptronin A-elementtien lukumäärä), on olemassa jokin luokitus C(W) , jolle ei ole ratkaisua [28 ] .

Tästä seuraa, että:
  1. Rosenblattissa A-elementtien määrä on yhtä suuri kuin ärsykkeiden lukumäärä (harjoitusesimerkit), ei syötteiden lukumäärä;
  2. konvergenssi Rosenblattin mukaan, tämä ei ole painojen stabilointi, vaan kaikkien vaadittujen luokittelujen olemassaolo, eli itse asiassa virheiden puuttuminen.
Piilotettujen elementtien määrän eksponentiaalinen kasvu

Väärinkäsitys: jos piilokerroksen elementtien (A-elementtien) painokertoimet ovat kiinteitä, on välttämätöntä, että piilokerroksen elementtien lukumäärä (tai niiden monimutkaisuus) kasvaa eksponentiaalisesti ongelman ulottuvuuden kasvaessa (reseptorien lukumäärä). Siten niiden tärkein etu menetetään - kyky ratkaista mielivaltaisen monimutkaisia ​​​​ongelmia yksinkertaisten elementtien avulla.

Rosenblatt osoitti, että A-elementtien lukumäärä riippuu vain tunnistettavien ärsykkeiden määrästä (katso edellinen kappale tai perceptronin konvergenssilause ). Siten reseptorien lukumäärän kasvaessa, jos A-elementtien lukumäärä on kiinteä, perceptronin kyky ratkaista mielivaltaisen monimutkaisuuden ongelmia ei suoraan riipu. Tämä väärinkäsitys tulee seuraavasta Minskyn lauseesta:

Pariteettipredikaattia tarkasteltaessa havaitsimme, että kertoimet voivat kasvaa |R|:lla (pisteiden määrä kuvassa) eksponentiaalisesti [29] .

Lisäksi Minsky tutki muita predikaatteja, kuten "tasa-arvo". Mutta kaikki nämä predikaatit edustavat melko erityistä tehtävää yleistämiselle, eivät tunnistamiselle tai ennustamiselle. Joten esimerkiksi, jotta perceptron täyttää "pariteetti"-predikaatin, sen on sanottava, onko mustien pisteiden määrä mustavalkoisessa kuvassa parillinen vai ei; ja "tasa-arvo"-predikaatin täyttämiseksi sano, onko kuvan oikea puoli yhtä suuri kuin vasen puoli. On selvää, että tällaiset tehtävät ylittävät tunnistus- ja ennustetehtävien laajuuden ja ovat yleistystehtäviä tai yksinkertaisesti tiettyjen ominaisuuksien laskemista. Minsky osoitti tämän vakuuttavasti, ja se ei rajoita vain perceptroneja, vaan myös kaikkia rinnakkaisalgoritmeja , jotka eivät pysty laskemaan tällaisia ​​predikaatteja nopeammin kuin peräkkäiset algoritmit. Siksi tällaiset tehtävät rajoittavat kaikkien hermoverkkojen ja erityisesti perceptronien kykyjä, mutta tällä ei ole mitään tekemistä ensimmäisen kerroksen kiinteiden yhteyksien kanssa; koska ensinnäkin kyse oli toisen kerroksen yhteyksien kertoimien arvosta, ja toiseksi kysymys on vain tehokkuudesta, ei periaatteesta. Toisin sanoen perceptronia voidaan myös kouluttaa tähän tehtävään, mutta tähän vaadittava muistikapasiteetti ja oppimisnopeus ovat suurempia kuin käytettäessä yksinkertaista sekventiaalialgoritmia. Harjoitettavien painojen käyttöönotto ensimmäisessä kerroksessa vain pahentaa tilannetta, koska se vaatii enemmän harjoitusaikaa, koska S:n ja A:n väliset suhdemuuttujat pikemminkin haittaavat kuin edistävät oppimisprosessia [30] . Lisäksi valmistettaessa perceptronia erityistyyppisten ärsykkeiden tunnistamiseen tehokkuuden ylläpitämiseksi tarvitaan erityisiä ehtoja stokastiselle oppimiselle [31] , minkä Rosenblatt osoitti kokeissa perceptronilla, jossa on vaihtelevia S-A-sidoksia .

Mallin ominaisuudet ja rajoitukset

Mallin ominaisuudet

Rosenblatt itse piti perceptronia ensisijaisesti seuraavana tärkeänä askeleena kohti hermoverkkojen tutkimusta ja käyttöä, ei valmiina versiona " ajattelemaan kykenevästä koneesta " [nb 9] . Jo kirjansa esipuheessa hän totesi kritiikkiin vastaten, että "perceptronin tutkimusohjelma ei liity pääasiassa " keinoälyn" laitteiden keksimiseen, vaan fyysisten rakenteiden ja neurodynaamisten periaatteiden tutkimukseen" [32] .

Rosenblatt ehdotti useita psykologisia testejä hermoverkkojen kykyjen määrittämiseksi: kokeilut syrjinnästä , yleistyksestä , sekvenssin tunnistamisesta , abstraktien käsitteiden muodostumisesta, " itsetietoisuuden " muodostumisesta ja ominaisuuksista , luovasta mielikuvituksesta ja muista [33] . Jotkut näistä kokeista ovat kaukana perceptronien nykyisistä kyvyistä, joten niiden kehitys on filosofisemmin konnektivismin suunnassa . Perceptroneille on kuitenkin havaittu kaksi tärkeää tosiasiaa, joita voidaan soveltaa käytännön ongelmiin: luokittelumahdollisuus (objektit) ja approksimointimahdollisuus ( luokkien ja funktioiden rajat) [34] .

Perceptronien tärkeä ominaisuus on niiden kyky oppia, lisäksi melko yksinkertaisen ja tehokkaan algoritmin mukaan (katso yllä ).

Mallin rajoitukset

Rosenblatt itse tunnisti kaksi perusrajoitusta kolmikerroksisille perceptroneille (jotka koostuvat yhdestä S-kerroksesta, yhdestä A-kerroksesta ja R-kerroksesta): niiden kyvyttömyys yleistää ominaisuuksiaan uusiin ärsykkeisiin tai uusiin tilanteisiin ja kyvyttömyys analysoida monimutkaisia tilanteet ulkoisessa ympäristössä jakamalla ne yksinkertaisempiin [17] .

Vuonna 1969 Marvin Minsky ja Seymour Papert julkaisivat kirjan Perceptrons, jossa he osoittivat matemaattisesti, että Rosenblattin kaltaiset perceptronit eivät pohjimmiltaan pystyneet suorittamaan monia perceptroneista haluttuja toimintoja. Lisäksi siihen aikaan rinnakkaislaskennan teoria oli huonosti kehittynyt, ja perceptron oli täysin yhdenmukainen tällaisten laskelmien periaatteiden kanssa. Yleisesti ottaen Minsky osoitti peräkkäisen laskennan edun rinnakkaislaskentaan verrattuna tietyissä invarianttiseen esitykseen liittyvissä ongelmissa. Hänen kritiikkinsä voidaan jakaa kolmeen teemaan:

  1. Perceptroneilla on rajoituksia tehtävissä, jotka liittyvät kuvien muuttumattomaan esittämiseen , eli ne ovat riippumattomia niiden sijainnista aistikentässä ja suhteessa muihin kuvioihin. Tällaisia ​​ongelmia syntyy esimerkiksi, jos meidän on rakennettava painettujen kirjainten tai numeroiden lukemiseen tarkoitettu kone, jotta tämä kone tunnistaa ne riippumatta niiden sijainnista sivulla (eli jotta koneen päätökseen ei vaikuta kääntäminen , kierto ). , merkkien venyttely-pakkaus ) [6] ; tai jos meidän on määritettävä kuinka monesta osasta hahmo koostuu [35] ; vai ovatko kaksi hahmoa vierekkäin vai eivät [36] . Minsky osoitti, että tämän tyyppistä ongelmaa ei voida täysin ratkaista käyttämällä rinnakkaislaskentaa, mukaan lukien perceptron.
  2. Perceptroneilla ei ole toiminnallista etua analyyttisiin menetelmiin (esimerkiksi tilastollisiin ) verrattuna ennustamiseen liittyvissä tehtävissä [37] . Joissakin tapauksissa ne ovat kuitenkin yksinkertaisempi ja tuottavampi menetelmä tietojen analysointiin .
  3. On osoitettu, että jotkin ongelmat voidaan periaatteessa ratkaista perceptronilla, mutta ne voivat vaatia epärealistisen paljon aikaa [38] tai epärealistisen suurta muistia [39] .

Minskyn ja Papertin kirja vaikutti merkittävästi tekoälytieteen kehitykseen, koska se siirsi tieteellistä kiinnostusta ja tukia Yhdysvaltain hallituksen organisaatioilta toiseen tutkimussuuntaan - tekoälyn symboliseen lähestymistapaan .

Perceptronien sovellukset

Tässä näytetään vain perceptronin käytännön soveltamisen perusteet kahdessa eri tehtävässä. Ennusteongelma (ja sitä vastaava kuviontunnistusongelma ) vaatii suurta tarkkuutta, kun taas agentin ohjausongelma vaatii korkeaa  oppimisnopeutta. Siksi nämä tehtävät huomioon ottaen voidaan tutustua täysin perceptronin ominaisuuksiin, mutta tämä ei ole kaukana sen käyttömahdollisuuksista.

Käytännön ongelmissa perceptronin tulee voida valita useammasta kuin kahdesta vaihtoehdosta, mikä tarkoittaa, että sen lähdössä on oltava useampi kuin yksi R-elementti. Kuten Rosenblatt osoittaa, tällaisten järjestelmien ominaisuudet eivät eroa merkittävästi alkeisperceptronin ominaisuuksista [40] .

Ennustus ja kuviontunnistus

Näissä tehtävissä perceptronin on määritettävä, kuuluuko objekti parametrien (esimerkiksi ulkonäön, muodon, siluetin) mukaan luokkaan. Lisäksi tunnistuksen tarkkuus riippuu suurelta osin perceptronin lähtöreaktioiden esityksestä. Tässä on kolme mahdollista koodaustyyppiä: konfigurointi , sijainti ja hybridi. Paikkakoodaus, kun jokaisella luokalla on oma R-elementtinsä, antaa tarkempia tuloksia kuin muut tyypit. Tätä tyyppiä käytetään esimerkiksi E. Kussulin ym. teoksessa "Rosenblatt Perceptrons for Recognizing Handwritten Digits". Sitä ei kuitenkaan voida soveltaa tapauksissa, joissa luokkien lukumäärä on merkittävä, esimerkiksi useita satoja. Tällaisissa tapauksissa voidaan käyttää hybridikonfiguraatio-paikkakoodausta, kuten tehtiin S. Yakovlevin teoksessa "Keinohermoverkkoihin perustuva liikkuvien kohteiden tunnistamisjärjestelmä."

Agentin hallinta

Tekoälyssä ajatellaan usein oppivia ( ympäristöön mukautuvia ) tekijöitä. Samaan aikaan epävarmuuden olosuhteissa tulee tärkeäksi analysoida nykyisen tiedon lisäksi myös sen tilanteen yleistä kontekstia, johon agentti on joutunut, joten tässä käytetään palauteperceptroneja [41] . Lisäksi joissain tehtävissä tulee tärkeäksi lisätä perceptronin oppimisnopeutta esimerkiksi refraktoriness -mallinnuksen avulla [42] .

" Tekoälyn talvena " tunnetun ajanjakson jälkeen kiinnostus kyberneettisiin malleihin heräsi 1980-luvulla , kun symbolisen tekoälyn kannattajat eivät päässeet lähelle "ymmärrys" ja "merkitystä" -ongelmia, mikä aiheutti konekäännöksen ja teknisen kuviontunnistuksen . kohtalokkaat puutteet. Minsky itse ilmaisi julkisesti pahoittelunsa siitä, että hänen puheensa vahingoitti perceptronien käsitettä, vaikka kirja osoitti vain yhden laitteen ja joidenkin sen muunnelmien puutteet. Mutta yleisesti ottaen tekoälystä on tullut synonyymi symboliselle lähestymistavalle, joka ilmaistaan ​​yhä monimutkaisempien ohjelmien luomisessa tietokoneille, jotka simuloivat ihmisaivojen monimutkaisia ​​toimintoja.

Katso myös

Muistiinpanot

  1. "Perceptron" on alkuperäinen vaihtoehto, jota käytetään Rosenblattin kirjan (1965) käännöksessä, myös hakuteoksessa: Explanatory Dictionary of Artificial Intelligence / Compilers A. N. Averkin, M. G. Gaaze-Rapoport , D. A. Pospelov . - M . : Radio ja viestintä, 1992. - 256 s. Variantti "perceptron" on yleisempi, se syntyi käännettäessä Minskyn ja Papertin kirjaa (1971); Katso myös: Encyclopedia of Cybernetics. Osa 2. Mikh-Yach . - Kiova: Ch. toim. KÄYTTÖ, 1974. - S. 156-158. Arkistoitu kopio (linkki ei saatavilla) . Haettu 1. helmikuuta 2009. Arkistoitu alkuperäisestä 31. maaliskuuta 2009. 
  2. Erityisesti "Mark-1" oli järjestelmä, joka matkii ihmissilmää ja sen vuorovaikutusta aivojen kanssa.
  3. "Kolmikerroksinen" Rosenblattin hyväksymän luokituksen mukaan ja "kaksikerroksinen" nykyaikaisen merkintätavan mukaan - sillä erityispiirteellä, että ensimmäinen kerros ei ole koulutettavissa.
  4. Symbolinen lähestymistapa sisältää esimerkiksi asiantuntijajärjestelmien luomisen, tietokantojen organisoinnin , tekstianalyysin .
  5. Muodollisesti A-elementit, kuten R-elementit, ovat summaimia , joilla on kynnys , eli yksittäisiä neuroneja .
  6. Tämän osion esitys on hieman yksinkertaistettu predikaattipohjaisen analyysin monimutkaisuuden vuoksi.
  7. Predikaatti vastaa syötettä vain erikoistapauksessa - vain kun se riippuu yhdestä argumentista.
  8. M. M. Bongard pitää tätä tehtävää vaikeimpana hypertason piirtämisessä reseptorien tilaan.
  9. Tekoälytieteen kehityksen alkuvaiheessa sen tehtävää pidettiin abstraktissa mielessä - ihmismieliä muistuttavien järjestelmien luominen (katso yleinen tekoäly ). Tekoälyn nykyaikaiset tehtävämuotoilut ovat yleensä tarkempia.

Lähteet

  1. Warren S. McCulloch ja Walter Pitts . Looginen laskelma hermotoiminnan  immanentisista ideoista  // Bulletin of Mathematical Biology . - New York : Springer New York , 1943. - V. 5 , nro 4 . - S. 115-133 .
  2. 12 Donald Olding Hebb . Käyttäytymisen organisaatio: neuropsykologinen teoria . - Wiley , 1949. - 335 s. Nykypainos: Donald Olding Hebb . Käyttäytymisen organisaatio: neuropsykologinen teoria . - Lawrence Erlbaum Associates , 2002. - 335 s. - ISBN 0805843000 , ISBN 978-0-8058-4300-2 .
  3. Perceptrons: Associative Learning Network . Haettu 2. toukokuuta 2008. Arkistoitu alkuperäisestä 19. elokuuta 2011.
  4. Perceptronin ulkonäkö  (pääsemätön linkki)
  5. 1 2 Kuviontunnistusjärjestelmät (pääsemätön linkki) . Haettu 4. lokakuuta 2019. Arkistoitu alkuperäisestä 18. joulukuuta 2017. 
  6. 1 2 Minsky M., Papert S., s. viisikymmentä.
  7. Perceptron: Todennäköisyysmalli tiedon tallentamiseen ja järjestämiseen aivoissa (downlink) . Haettu 2. toukokuuta 2008. Arkistoitu alkuperäisestä 18. helmikuuta 2008. 
  8. 1 2 3 4 Rosenblatt F., s. 102.
  9. Fomin, S. V., Berkinblit, M. B. Matemaattisia ongelmia biologiassa Arkistoitu 21. joulukuuta 2009 Wayback Machinessa
  10. Rosenblatt, F., s. 158-162.
  11. Rosenblatt, F., s. 162-163.
  12. Bryukhomitsky Yu. A. Neuraaliverkkomallit tietoturvajärjestelmille, 2005.
  13. 1 2 3 Rosenblatt F., s. 81.
  14. 1 2 3 Rosenblatt, F., s. 200.
  15. 1 2 3 4 Rosenblatt F., s. 82.
  16. Rosenblatt F., s. 83.
  17. 1 2 Rosenblatt F., s. 93.
  18. Rosenblatt, F., s. 230.
  19. Minsky, Papert, s. 11-18.
  20. Minsky, Papert, s. kahdeksantoista.
  21. Rosenblatt, F., s. 85-88.
  22. Khaikin S., 2006, s. 96.
  23. Rosenblatt, F., s. 86.
  24. Khaikin S., 2006, s. 225-243, 304-316.
  25. Wasserman, F. Neurocomputer Engineering: Theory and Practice, 1992.
  26. Bongard, M. M., s. 29.
  27. Minsky M., Papert S., s. 59.
  28. Rosenblatt, F., s. 101.
  29. Minsky, Papert, s. 155, 189 (ei sanatarkasti, yksinkertaistettu ilmaisukyvyn vuoksi).
  30. Rosenblatt, s. 239
  31. Rosenblatt, s. 242
  32. Rosenblatt, F., s. kahdeksantoista.
  33. Rosenblatt, F., s. 70-77.
  34. katso Ezhov A. A., Shumsky S. A. "Neurocomputing ...", 2006. Luento 3: Ohjattu oppiminen: Kuviontunnistus Arkistokopio päivätty 1. marraskuuta 2011 Wayback Machinessa
  35. Minsky M., Papert S., s. 76-98.
  36. Minsky M., Papert S., s. 113-116.
  37. Minsky M., Papert S., s. 192-214.
  38. Minsky, Papert, s. 163-187
  39. Minsky, Papert, s. 153-162
  40. Rosenblatt, F., s. 219-224.
  41. Yakovlev S. S. Käyttämällä Jordanin toistumisperiaatetta Rosenblatt-perceptronissa, Journal "AUTOMATICS AND COMPUTING TECHNIQUE", Riika, 2009 Arkistoitu 1. heinäkuuta 2017 Wayback Machinessa . Virtuaalilaboratorio Wiki.
  42. Yakovlev S.S. , Investigation of Refractoriness Principle in Recurrent Neural Networks, Scientific report of Riga Technical University, Issue 5, Vol.36, RTU, Riga, 2008, s. 41-48. Toistuvien hermoverkkojen refraktoriteetin periaatteen tutkiminen (käännös) Arkistoitu 7. maaliskuuta 2016 Wayback Machinessa .

Kirjallisuus

Linkit