Gaussin prosessi

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 23. elokuuta 2017 tarkistetusta versiosta . tarkastukset vaativat 28 muokkausta .

Todennäköisyysteoriassa ja tilastoissa Gaussin prosessi on stokastinen prosessi (joukko satunnaismuuttujia, jotka on indeksoitu jollakin parametrilla, useimmiten aika tai koordinaatit) siten, että millä tahansa näiden satunnaismuuttujien äärellisellä joukolla on monimuuttuja normaalijakauma , eli mikä tahansa äärellinen lineaarinen yhdistelmä. niistä on normaalisti jakautunut. Gaussin prosessin jakauma on kaikkien sen satunnaismuuttujien yhteisjakauma, ja siksi se on funktioiden jakauma, jolla on jatkuva määritelmäalue.

Jos ajatellaan Gaussin prosessia tapana ratkaista koneoppimisongelmia, niin laiska oppimista ja pisteiden välisen samankaltaisuuden mittaa ( ydinfunktio ) käytetään ennusteen saamiseksi näkymätön pisteen arvosta opetusnäytteestä. Ennusteen käsite sisältää itse pisteestimaatin lisäksi tietoa epävarmuudesta - yksiulotteisesta Gaussin jakaumasta. [yksi]

Joidenkin ydinfunktioiden ennusteiden laskemiseen käytetään matriisialgebramenetelmää, krigingiä .

Gaussin prosessi on nimetty näin Carl Friedrich Gaussin mukaan, koska se perustuu Gaussin jakauman ( normaalijakauman ) käsitteeseen. Gaussin prosessia voidaan pitää monimuuttujien normaalijakaumien äärettömänä yleistyksenä. Näitä prosesseja sovelletaan tilastollisessa mallintamisessa ; käytetään erityisesti normaalisuusominaisuuksia. Esimerkiksi jos satunnainen prosessi mallinnetaan Gaussin prosessina, voidaan saada erilaisten johdettujen suureiden jakaumat, kuten prosessin keskiarvo tietyn ajanjakson aikana ja virhe sen arvioinnissa arvootoksen avulla. nimenomaisesti.

Määritelmä

Satunnainen prosessi , jolla on jatkuva aika, on Gaussin silloin ja vain jos jollekin rajalliselle indeksijoukolle indeksijoukosta

on moniulotteinen Gaussin satunnaismuuttuja . [2] Samalla tavalla kuin millä tahansa lineaarisella yhdistelmällä on yksiulotteinen normaalijakauma (Gaussin). Satunnaismuuttujien ominaisfunktioita käyttämällä Gaussin ominaisuus voidaan muotoilla seuraavasti: - Gaussin jos ja vain jos mille tahansa rajalliselle indeksien joukolle on olemassa reaaliarvoja , missä sellaisia, että kaikelle yhtälölle

Missä on kuvitteellinen yksikkö .

Numerot ja ovat prosessien muuttujien kovarianssit ja keskiarvot . [3]

Kovarianssifunktiot

Gaussin prosessien pääominaisuus on, että ne voidaan määrittää täysin toisen asteen tilastojen avulla. [4] Siksi kovarianssifunktio määrittää täysin prosessin käyttäytymisen, jos Gaussin prosessin matemaattinen odotus on nolla. On tärkeää huomata, että funktion ei-negatiivinen mää- räisyys mahdollistaa sen spektrihajoamisen Karhunen-Loeve-laajennuksella . Kovarianssifunktion avulla voidaan määrittää prosessin stationaarisuus , isotropia , tasaisuus ja jaksollisuus . [4] [5]

Stationaarisuus ilmaisee prosessin käyttäytymistä minkä tahansa kahden pisteen ja :n välisen etäisyyden suhteen . Jos prosessi on paikallaan, niin se riippuu sen pisteiden suhteellisesta sijainnista, niiden välisestä etäisyydestä , muuten se on ei-stationaarinen, eli se riippuu pisteiden todellisesta sijainnista ja . Esimerkki on Ornstein-Uhlenbeck-prosessin erikoistapaus, Brownin liikkeen prosessi : se on paikallaan.

Jos prosessi riippuu vain euklidisesta etäisyydestä (ei suunnasta) välillä ja , prosessin sanotaan olevan isotrooppinen. Kiinteää ja isotrooppista prosessia kutsutaan homogeeniseksi; [6] Käytännössä stationaarisuuden ja isotropian ominaisuudet heijastavat eroja (tai pikemminkin niiden puuttumista) prosessin käyttäytymisessä, ottaen huomioon havainnoijan aseman.

Gaussin prosessien ydin on saada a priori todennäköisyysjakaumat, joiden tasaisuus riippuu valitusta kovarianssifunktiosta. [4] Jos oletetaan, että "makaa lähellä" tulopisteitä ja niitä vastaavia lähtöpisteitä sekä "makaa lähellä", niin on oletus funktion jatkuvuudesta. Jos haluamme sallia merkittävän harhan, meidän on valittava karkeampi kovarianssifunktio. Esimerkkejä äärimmäisestä käyttäytymisestä ovat Ornstein-Uhlenbeck-kovarianssifunktio ja neliöllinen eksponentiaalinen funktio, jossa edellinen ei ole missään differentioituva ja jälkimmäinen on äärettömästi differentioituva.

Jaksoisuus ymmärretään jaksollisten kuvioiden induktioksi prosessin käyttäytymisessä. Muodollisesti tämä saavutetaan kuvaamalla syötearvo kaksiulotteiseen vektoriin

Tavalliset kovarianssifunktiot

On olemassa useita yleisiä kovarianssifunktioita: [5]

täällä . Parametri on prosessin pituusasteikon ominaisuus (käytännöllisesti katsoen "kuinka lähellä" kahden pisteen on oltava , jotta ne voivat merkittävästi vaikuttaa toisiinsa), on Kronecker-symboli ja on kohinan vaihteluiden keskihajonta . Lisäksi se on muunneltu Besselin funktio ja gammafunktio, joka lasketaan arvosta . On tärkeää huomata, että monimutkainen kovarianssifunktio voidaan määritellä lineaariseksi yhdistelmäksi muita yksinkertaisempia kovarianssifunktioita, jotta voidaan yhdistää erilaisia ​​tietoja saatavilla olevista tietojoukoista.

Ilmeisesti saadut tulokset riippuvat hyperparametrien (esimerkiksi ja ) arvoista, jotka määrittävät mallin käyttäytymisen.

Brownin liike Gaussin prosessien integraalina

Wiener-prosessi (ns. Brownin liike) on Gaussin valkoisen kohinaprosessin integraali. Se ei ole paikallaan , mutta siinä on paikallaan olevia lisäyksiä.

Ornstein-Uhlenbeck-prosessi on kiinteä Gaussin prosessi.

Brownin silta (samanlainen kuin Ornstein-Uhlenbeck-prosessi) on esimerkki Gaussin prosessista, jonka inkrementit eivät ole riippumattomia .

Brownin murtoliike on Gaussin prosessi, jonka kovarianssifunktio on yleistys Wiener-prosessifunktiosta.

Sovellukset

Gaussin prosessia voidaan käyttää funktioiden pre - todennäköisyysjakaumana Bayesin päättelyssä . [5] [8] Otetaan mille tahansa N pisteen joukolle halutussa funktioalueessa monimuuttuja Gaussin jakauma , jonka kovarianssimatriisiparametri on jollakin halutulla ytimellä otettujen N pisteiden Gram-determinantti , ja näyte tästä jakaumasta.

Jatkuvien arvojen johtaminen Gaussin prosessiin perustuen aikaisempien kovarianssien perusteella tunnetaan kriginginä (Gaussin prosessiin perustuva regressio). Siksi Gaussin prosessit ovat hyödyllisiä tehokkaana epälineaarisena moniulotteisena interpolointityökaluna . Gaussin prosessiregressiota voidaan edelleen laajentaa ratkaisemaan sekä ohjattuja että ohjaamattomia oppimisongelmia ( itseoppiminen ) .

Gaussin prosessin ennustaminen tai kriging

Mitä tulee Gaussin prosessiin ( kriging ) perustuvan regression perusongelmaan , oletetaan, että koordinaateissa havaitulle Gaussin prosessille arvovektori on vain yksi näytteistä monimuuttujaisessa Gaussin jakaumassa, jonka ulottuvuus on yhtä suuri kuin havaittujen koordinaattien määrä . Siksi nollajakauman oletuksen alaisena , jossa on kovarianssimatriisi kaikkien mahdollisten parien välillä tietylle hyperparametrijoukolle . [5] Siten marginaalitodennäköisyyden logaritmi on yhtä suuri kuin:

ja tämän marginaalisen todennäköisyyden maksimoiminen suhteessa antaa täydellisen kuvauksen Gaussin prosessista . Voidaan huomata, että ensimmäinen lauseke riippuu mallin kyvyttömyydestä sovittaa yhteen havaittuja arvoja, ja toinen lauseke on suoraan verrannollinen mallin monimutkaisuuteen. Kun on osoitettu ja tehty ennuste havaitsemattomista arvoista koordinaateissa , jää jäljelle piirtää näytteiden käyrä ennustavasta jakaumasta , jossa myöhempi keskimääräinen estimaatti määritellään

ja varianssin B myöhempi estimaatti määritellään seuraavasti

missä on kovarianssi uuden koordinaattiestimaatin ja kaikkien muiden havaittujen koordinaattien välillä annetulle hyperparametriselle vektorille , ja ne määritellään kuten aiemmin, ja on varianssi vektorin sanelemassa pisteessä . On tärkeää huomata, että myöhempi keskiarvoestimaatti ("pisteestimaatti") on lineaarinen yhdistelmä havainnoista ; samoin varianssi on käytännössä riippumaton havainnoista . Gaussin prosessiennusteen tunnettu pullonkaula on se, että ennusteen laskennallinen monimutkaisuus on kuutio pistemäärässä , eli laskenta ei ehkä ole mahdollista suurille tietojoukoille. [4] Tämän ongelman kiertämiseksi on meneillään harvat Gaussin prosessit, jotka yleensä perustuvat ajatukseen edustavan joukon rakentamisesta tietylle prosessille . [9] [10]

Katso myös

Muistiinpanot

  1. Platypus Innovation: Yksinkertainen johdatus Gaussin prosesseihin (erinomainen tietojen mallinnustyökalu) . Haettu 15. tammikuuta 2018. Arkistoitu alkuperäisestä 1. toukokuuta 2018.
  2. MacKay, David, J.C. Tietoteoria, johtopäätös ja  oppimisalgoritmit . - Cambridge University Press , 2003. - s. 540. - ISBN 9780521642989 . . — ""Funktion todennäköisyysjakaumaon Gaussin prosessi, jos minkä tahansa äärellisen pistevalikoimantiheyson Gaussin"".
  3. Dudley, R.M. Todellinen analyysi ja todennäköisyys. - Wadsworth ja Brooks/Cole, 1989.
  4. 1 2 3 4 Parturi, David. Bayesin päättely ja koneoppiminen . - Cambridge University Press , 2012. - ISBN 978-0-521-51814-7 .
  5. 1 2 3 4 Rasmussen, CE; Williams, CKI Gaussian Processes for Machine Learning . - MIT Press , 2006. - ISBN 0-262-18253-X .
  6. Grimmett, Geoffrey; David Stirzaker. Todennäköisyys ja satunnaiset prosessit  . - Oxford University Press , 2001. - ISBN 0198572220 .
  7. Scikit-learnin dokumentaatiossa on myös samanlaisia ​​esimerkkejä . Arkistoitu 19. huhtikuuta 2021 Wayback Machinessa .
  8. Liu, W.; Principe, JC; Haykin, S. Kernel Adaptive Filtering: A Comprehensive Introduction  . - John Wiley , 2010. - ISBN 0-470-44753-2 . Arkistoitu kopio (linkki ei saatavilla) . Haettu 15. tammikuuta 2018. Arkistoitu alkuperäisestä 4. maaliskuuta 2016. 
  9. Smola, AJ; Schoellkopf, B. Harva ahne matriisin approksimaatio koneoppimiseen  //  Proceedings of the Seventeenth International Conference on Machine Learning : Journal. - 2000. - P. 911-918 .
  10. Csato, L.; Opper, M. Harvat on-line Gaussin prosessit  //  Neural Computation. - 2002. - Voi. 14 . - s. 641-668 . - doi : 10.1162/089976602317250933 .

Ulkoiset linkit

Ohjelmisto