Pääkomponenttianalyysi (PCA ) on yksi tärkeimmistä tavoista pienentää datan ulottuvuutta menettäen vähiten tietoa . Sen keksi Karl Pearson vuonna 1901 . Sitä käytetään monilla aloilla, mukaan lukien ekonometria , bioinformatiikka , kuvankäsittely , tietojen pakkaus , yhteiskuntatieteet .
Pääkomponenttien laskenta voidaan supistaa datamatriisin singulaariarvojaottelun laskemiseen tai alkuperäisen datan kovarianssimatriisin ominaisvektorien ja ominaisarvojen laskemiseen . Joskus pääkomponenttimenetelmää kutsutaan Karhunen - Loeve-muunnokseksi [1] tai Hotelling - muunnokseksi .
Pääkomponenttianalyysin ongelmalla on vähintään neljä perusversiota:
Kolme ensimmäistä versiota toimivat rajallisilla tietojoukoilla. Ne ovat vastaavia eivätkä käytä hypoteesia tilastotietojen tuottamisesta. Neljäs versio toimii satunnaismuuttujilla . Äärilliset joukot esiintyvät tässä näytteinä tietystä jakaumasta ja kolmen ensimmäisen ongelman ratkaisu - Karhunen-Loeven lauseen mukaisen laajennuksen ( "todellinen Karhunen-Loeve-muunnos" ) approksimaationa. Tämä herättää ylimääräisen ja ei aivan triviaalin kysymyksen tämän likiarvon tarkkuudesta.
Pääkomponenttianalyysi alkoi rajallisen pisteiden joukon parhaan approksimoinnin ongelmalla suorilla ja tasoilla ( Pearson , 1901). Kun annetaan äärellinen joukko vektoreita , jokaiselle kaikkien ulottuvuuksien lineaarisen moninkertaisuuden joukosta löydetään sellainen , että neliöityjen poikkeamien summa on minimaalinen:
,missä on euklidinen etäisyys pisteestä lineaariseen monistoon. Mikä tahansa -ulotteinen lineaarinen monisto voidaan määritellä joukoksi lineaarisia yhdistelmiä , joissa parametrit kulkevat todellisen viivan yli ja ovat ortonormaali vektoreiden joukko
,missä on euklidinen normi, on euklidinen skalaaritulo tai koordinaattimuodossa:
.Approksimaatiotehtävän ratkaisu saadaan joukolla sisäkkäisiä lineaarisia monistoja , . Nämä lineaariset monisot määritellään ortonormaalilla vektoreiden joukolla (pääkomponenttivektorit) ja vektorilla . Vektoria etsitään ratkaisuna minimointiongelmaan :
,tuo on
.Tämä on näytekeskiarvo : .
Fréchet havaitsi vuonna 1948 , että keskiarvon vaihtelumäärittely (pisteenä, joka minimoi datapisteiden neliöetäisyyksien summan) on erittäin kätevä tilastojen muodostamiseen mielivaltaisessa metriavaruudessa , ja rakensi klassisen tilaston yleistyksen yleisavaruuksille (yleistetty). pienimmän neliösumman ).
Pääkomponenttivektorit löytyvät ratkaisuksi samantyyppisiin optimointiongelmiin :
Edelleen prosessi jatkuu, eli vaiheessa , vähennetään projektio -. pääkomponenttiin (tähän hetkeen mennessä projektiot edellisiin pääkomponentteihin on jo vähennetty):
;ja vaiheessa -th pääkomponentti määritellään ratkaisuksi ongelmaan:
(jos ratkaisu ei ole ainutlaatuinen, valitaan yksi niistä).Jokaisessa valmisteluvaiheessa projektio edelliseen pääkomponenttiin vähennetään. Löydetyt vektorit ovat ortonormaalia yksinkertaisesti kuvatun optimointitehtävän ratkaisemisen seurauksena, mutta jotta laskentavirheet eivät loukkaisi pääkomponenttivektorien keskinäistä ortogonaalisuutta, ne voidaan sisällyttää optimointitehtävän ehtoihin.
Määritelmän epäyksikkyys, triviaalin mielivaltaisuuden lisäksi merkin valinnassa ( ja ratkaista sama ongelma), voi olla merkittävämpää ja johtua esimerkiksi datasymmetriaehdoista. Viimeinen pääkomponentti on yksikkövektori, joka on ortogonaalinen kaikkiin edellisiin nähden .
Olkoon meille annettu keskitetty joukko datavektoreita ( aritmeettinen keskiarvo on nolla). Tehtävänä on löytää sellainen ortogonaalinen muunnos uuteen koordinaattijärjestelmään , jolle seuraavat ehdot olisivat tosia:
Datan näytevarianssi normalisoidun vektorin antamaa suuntaa pitkin on
(koska data on keskitetty, otosvarianssi tässä on sama kuin keskimääräinen neliöpoikkeama nollasta).
Parhaan approksimation ongelman ratkaisu antaa samat pääkomponentit kuin haettaessa ortogonaalisia projektioita, joilla on suurin sironta, hyvin yksinkertaisesta syystä: ensimmäinen termi ei riipu .
Toinen vastaava muotoilu seuraa ilmeisestä identiteetistä, joka pätee kaikille vektoreille :
Tämän identiteetin vasemmalla puolella on pisteiden välinen keskimääräinen neliöetäisyys ja oikealla hakasulkeissa otosvarianssi. Pääkomponenttimenetelmässä siis etsitään aliavaruuksia, joissa projektiossa on pisteiden keskiarvoetäisyys maksimissaan (tai mikä on sama, sen projisoinnin aiheuttama vääristymä on minimaalinen) [ 2] . Tällainen uudelleenmuotoilu mahdollistaa yleistysten rakentamisen eri parikohtaisten etäisyyksien (eikä vain pisteiden) painotuksella.
Etsi tietylle -ulotteiselle satunnaismuuttujalle sellainen ortonormaalikanta, , jossa eri koordinaattien välinen kovarianssikerroin on nolla. Tälle pohjalle muuttamisen jälkeen
varten .Tässä on kovarianssikerroin, jossa on matemaattinen odotus .
Kaikki pääkomponenttiongelmat johtavat kovarianssimatriisin tai näytteen kovarianssimatriisin diagonalisointiongelmaan. Tämä on empiirinen tai näytekovarianssimatriisi
Se on monimuuttujan satunnaismuuttujan kovarianssimatriisi
Parhaan sopivan ja siroavimman ortogonaalisen projektio-ongelmien pääkomponenttivektorit ovat empiirisen kovarianssimatriisin ortonormaalit ominaisarvojen ominaisarvojen järjestykseen järjestetyt ominaisvektorit, jotka toimivat estimaateina kovarianssimatriisin ominaisvektoreille . Kovarianssimatriisin ominaisvektorien perusteella se on luonnostaan diagonaalinen ja tällä perusteella eri koordinaattien välinen kovarianssikerroin on nolla.
Jos kovarianssimatriisin spektri on degeneroitunut, valitaan mielivaltainen ominaisvektorien ortonormaali kanta. Se on aina olemassa, ja kovarianssimatriisin ominaisarvot ovat aina todellisia ja ei-negatiivisia.
Pääkomponenttimenetelmän matemaattinen sisältö on kovarianssimatriisin spektrihajotelma , eli dataavaruuden esittäminen keskenään ortogonaalisten ominaisaliavaruuksien summana ja itse matriisi näiden aliavaruuksien ortogonaalisten projektioiden lineaarisena yhdistelmänä kertoimilla. . Jos on matriisi, joka koostuu keskitetyn datan rivivektoreista (dimensio ), niin kovarianssimatriisin spektrihajoamisen ongelma muuttuu datamatriisin singulaariarvon hajoamisen ongelmaksi .
Lukua kutsutaan matriisin yksikköarvoksi, jos ja vain, jos on olemassa oikea ja vasen yksikkövektorit : sellaiset -ulotteinen rivivektori ja -ulotteinen sarakevektori (molemmat yksikköpituisia), joissa kaksi yhtälöä pätee:
Antaa olla datamatriisin sijoitus . Datamatriisin singulaariarvohajotelma on sen esitys muodossa
jossa on yksittäinen arvo, on vastaava oikea yksikön sarakevektori ja on vastaava vasen yksikön rivivektori ( ). Oikeanpuoleiset singulaarisarakevektorit, jotka ovat mukana tässä hajotuksessa, ovat empiirisen kovarianssimatriisin pääkomponenttivektorit ja ominaisvektorit , jotka vastaavat positiivisia ominaisarvoja .
Vaikka muodollisesti datamatriisin singulaariarvon hajottelun ja kovarianssimatriisin spektrihajottamisen ongelmat ovat samat, algoritmit singulaariarvon laskemiseksi suoraan, ilman kovarianssimatriisin ja sen spektrin laskemista, ovat tehokkaampia ja vakaampia [3] .
Yksittäisen arvon teorian loi James Joseph Sylvester vuonna 1889 , ja se esitetään kaikissa yksityiskohtaisissa matriisiteorian käsikirjoissa [4] .
Päämenettely on löytää mielivaltaisen matriisin paras approksimaatio matriisilla, jonka muoto on (jossa on -ulotteinen vektori ja on -ulotteinen vektori) pienimmän neliösumman menetelmällä:
Ratkaisu tähän ongelmaan saadaan peräkkäisillä iteraatioilla käyttämällä eksplisiittisiä kaavoja. Kiinteälle vektorille arvot , jotka antavat muodon minimin, määritetään yksiselitteisesti ja eksplisiittisesti yhtälöistä :
Vastaavasti kiinteälle vektorille määritetään seuraavat arvot :
Alkuperäisenä approksimaationa vektorille otamme yksikköpituisen satunnaisvektorin, laskemme vektorin , laskemme sitten tämän vektorin vektorin jne. Jokainen askel pienentää arvoa . Pysäytyskriteerinä käytetään minimoidun funktion arvon suhteellisen pienenemisen pienuutta iteraatiovaihetta kohden ( ) tai itse arvon pienuutta .
Seurauksena on, että matriisille paras approksimaatio saadaan muotoisella matriisilla ( tässä yläindeksi tarkoittaa approksimaatiolukua). Lisäksi saatu matriisi vähennetään matriisista ja saadulle poikkeamamatriisille etsitään jälleen paras samantyyppinen approksimaatio ja niin edelleen, kunnes esimerkiksi normista tulee riittävän pieni. Tuloksena saimme iteratiivisen proseduurin matriisin hajottamiseksi 1. sijan matriisien summana, eli . Oletetaan ja normalisoidaan vektorit : Tuloksena saadaan singulaaristen lukujen ja singulaarivektoreiden (oikea - ja vasen - ) approksimaatio.
Tämän algoritmin etuja ovat sen poikkeuksellinen yksinkertaisuus ja kyky siirtää se lähes ilman muutoksia aukkoineen [5] , sekä painotettu data.
Perusalgoritmiin on erilaisia tarkkuutta ja vakautta parantavia muunnelmia. Esimerkiksi eri pääkomponenttien vektorien tulee olla "rakenteen mukaan" ortogonaalisia, mutta suurella iteraatiomäärällä (suuri ulottuvuus, monta komponenttia) pieniä poikkeamia ortogonaalisuudesta kerääntyy ja erityinen korjaus voi olla tarpeen jokainen askel varmistaa sen ortogonaalisuuden aiemmin löydettyihin pääkomponentteihin nähden.
Neliösymmetrisille positiivis-definite matriiseille kuvattu algoritmi muuttuu suoraksi iteraatiomenetelmäksi ominaisvektorien löytämiseksi (katso artikkeli Ominaisvektorit, arvot ja avaruudet ).
Usein tietovektorilla on suorakaiteen muotoisen taulukon (esimerkiksi litteän kuvan) tai jopa moniulotteisen taulukon lisärakenne - eli tensori : , . Tässä tapauksessa on myös tehokasta käyttää singulaariarvojakelua. Määritelmä, peruskaavat ja algoritmit siirretään käytännössä ilman muutoksia: datamatriisin sijaan meillä on -indeksiarvo , jossa ensimmäinen indeksi on datapisteen (tensori) numero.
Päätoimenpide on löytää tensorin paras approksimaatio muodon tensorilla (missä on -dimensiovektori ( on datapisteiden lukumäärä), on mittavektori osoitteessa ) pienimmän neliösumman menetelmällä:
Ratkaisu tähän ongelmaan saadaan peräkkäisillä iteraatioilla käyttämällä eksplisiittisiä kaavoja. Jos kaikki tekijävektorit annetaan yhtä lukuun ottamatta , tämä jäljellä oleva yksi määräytyy eksplisiittisesti riittävistä minimiehdoista.
Yksikköpituiset satunnaisvektorit otetaan vektorien ( ) alkuproksimaatioiksi, lasketaan vektori , sitten tälle vektorille ja näille vektoreille lasketaan vektori ja niin edelleen (kierrä indeksit läpi). Jokainen askel pienentää arvoa . Algoritmi selkeästi konvergoi. Pysäytyskriteerinä käytetään minimoitavan funktion arvon suhteellisen pienenemisen pienuutta sykliä kohden tai itse arvon pienuutta . Seuraavaksi saatu approksimaatio vähennetään tensorista ja haetaan jälleen parasta samantyyppistä approksimaatiota jäännökselle ja niin edelleen, kunnes esimerkiksi seuraavan jäännöksen normista tulee riittävän pieni.
Tätä monikomponenttista singulaariarvojakelua (pääkomponenttien tensorimenetelmä) käytetään menestyksekkäästi kuvien, videosignaalien ja laajemmin minkä tahansa datan, jolla on taulukko- tai tensorirakenne, käsittelyssä.
Tietojen muunnosmatriisi pääkomponenteille koostuu pääkomponenttivektoreista, jotka on järjestetty ominaisarvojen laskevaan järjestykseen:
( tarkoittaa siirtämistä osaksi kansallista lainsäädäntöä),ja
Eli matriisi on ortogonaalinen .
Suurin osa datan vaihtelusta keskittyy ensimmäisiin koordinaatteihin, mikä mahdollistaa siirtymisen alempaan ulottuvuuteen.
Olkoon tietojen keskitetty, . Kun datavektorit korvataan niiden projektiolla ensimmäisille pääkomponenteille, otetaan käyttöön virheen keskimääräinen neliö yhtä datavektoria kohti:
missä ovat empiirisen kovarianssimatriisin ominaisarvot , järjestettynä laskevaan järjestykseen, ottaen huomioon monikertaisuus.
Tätä määrää kutsutaan jäännösvarianssiksi . Arvo
kutsutaan selitetyksi varianssiksi . Niiden summa on yhtä suuri kuin otosvarianssi. Vastaava neliöity suhteellinen virhe on jäännösvarianssin suhde otosvarianssiin (eli selittämättömän varianssin osuus ):
Suhteellinen virhe arvioi pääkomponenttimenetelmän soveltuvuuden ensimmäisiin komponentteihin projektiolla .
Huomautus : useimmissa laskentaalgoritmeissa ominaisarvot vastaavien ominaisvektorien kanssa - pääkomponentit lasketaan järjestyksessä "suuresta pienimpään". Laskemiseen riittää, että lasketaan ensimmäiset ominaisarvot ja empiirisen kovarianssimatriisin jälki (lävistäjäelementtien summa eli varianssit akseleita pitkin). Sitten
Tavoitelähestymistapa pääkomponenttien lukumäärän estimoimiseksi vaaditulla selitetyn varianssin osuudella on muodollisesti aina sovellettavissa, mutta implisiittisesti se olettaa, että "signaaliin" ja "kohinaan" ei tehdä eroa ja mikä tahansa ennalta määrätty tarkkuus on järkevä. Siksi toinen heuristinen menetelmä on usein tuottavampi , joka perustuu hypoteesiin "signaalin" (suhteellisen pieni ulottuvuus, suhteellisen suuri amplitudi) ja "kohina" (suuri ulottuvuus, suhteellisen pieni amplitudi) olemassaolosta. Tästä näkökulmasta pääkomponenttimenetelmä toimii kuin suodatin: signaali sisältyy pääosin ensimmäisten pääkomponenttien projektioon, ja muissa komponenteissa kohinan osuus on paljon suurempi.
Kysymys: kuinka arvioida tarvittavien pääkomponenttien lukumäärä, jos signaali-kohinasuhdetta ei tiedetä etukäteen?
Yksinkertaisin ja vanhin menetelmä pääkomponenttien valintaan on Kaiserin sääntö : merkittäviä ovat ne pääkomponentit, joille
eli se ylittää keskiarvon (datavektorin koordinaattien keskimääräisen näytevarianssin). Kaiserin sääntö toimii hyvin yksinkertaisissa tapauksissa, joissa on useita pääkomponentteja , joissa on , jotka ovat paljon suurempia kuin keskiarvo, ja loput ominaisarvot ovat sitä pienempiä. Monimutkaisemmissa tapauksissa se voi antaa liian monta merkittävää pääkomponenttia. Jos tiedot normalisoidaan yksikkönäytteen varianssiksi akseleita pitkin, niin Kaiserin sääntö saa erityisen yksinkertaisen muodon: vain ne pääkomponentit ovat merkittäviä, joille
Yksi suosituimmista heuristisista lähestymistavoista tarvittavien pääkomponenttien määrän arvioimiseksi on Broken stick -malli [ 6 ] . Yksikkösummaksi ( , ) normalisoitua ominaisarvojen joukkoa verrataan yksikköpituisen kepin fragmenttien pituuksien jakautumiseen, joka on katkennut satunnaisesti valitusta pisteestä (katkopisteet valitaan itsenäisesti ja jakautuvat tasaisesti kepin pituus). Olkoon ( ) saatujen kepin kappaleiden pituudet, numeroituina pituuden alenevassa järjestyksessä: . Matemaattisen odotuksen löytäminen ei ole vaikeaa :
Rikkoutuneen kepin säännön mukaan omavektori (laskevassa ominaisarvojärjestyksessä ) tallennetaan pääkomponenttien luetteloon, jos
Kuvassa esimerkki 5-ulotteisesta tapauksesta on annettu:
=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.Esimerkiksi valittu
=0,5; =0,3; =0,1; =0,06; =0,04.Rikkoutuneen kepin säännön mukaan tässä esimerkissä tulee jättää 2 pääkomponenttia:
Käyttäjien mukaan rikkinäisellä kepillä on taipumus aliarvioida merkittävien pääkomponenttien määrää.
Sekä Kaiserin sääntö että rikotun kepin sääntö ovat melko herkkiä merkityksettömien ominaisuuksien esiintymiselle. Tämä on helppo osoittaa tuplaamalla attribuutit. Mirkes ym . [7] ehdottivat yksinkertaista testiä dimensioestimaatin stabiiliudelle: jos yksinkertaisesti kopioit attribuutteja tietokannassa, dimensioestimaatin ei pitäisi kasvaa. Kaiserin sääntö tai rikkoutuneen kepin sääntö eivät läpäise tätä testiä, koska komponentin "häntä", jolla on pienet ominaisarvot, siirtää estimaattia ja lisää mittasuhteita. Tätä puutetta ei ole ehtoluvun arviossa. [7] [8] Korrelaatiomatriisin ehtoluku on sen suurimman ominaisarvon suhde minimiin : . Suuri arvo tarkoittaa huonosti ehdollista ja monikollineaarista . Jäljellä olevien komponenttien määrän määrittämiseksi valitaan tietty arvo multikollineaarisuuden kynnykselle ja komponentit, joille . Näin ollen muissa komponenteissa ei ole multikollineaarisuutta. Datan ulottuvuus arvioidaan kovarianssimatriisin ominaisarvojen lukumääränä, joka ylittää kiinteän murto-osan ( ) suurimmasta ominaisarvostaan. Kynnyksen valinta määräytyy ongelman erityispiirteiden mukaan. Lukuisat numeeriset kokeet osoittavat, että valinta vaihtelee alhaisesta "kohtalaiseen" monikollineaarisuuteen säilytetyissä komponenteissa ja on hyväksyttävä moniin tietojenkäsittelyongelmiin. [7] [9]
Ensimmäisiin pääkomponentteihin projisoinnin jälkeen on kätevää normalisoida yksikkö(näyte)varianssi akseleita pitkin. Dispersio pitkin pääkomponenttia on yhtä suuri kuin ), joten normalisointia varten on tarpeen jakaa vastaava koordinaatti arvolla . Tämä muunnos ei ole ortogonaalinen eikä säilytä pistetuloa. Normalisoinnin jälkeen dataprojektion kovarianssimatriisista tulee yksikkö, mihin tahansa kahteen ortogonaaliseen suuntaan projektioista tulee itsenäisiä suureita ja mistä tahansa ortonormaalista kannasta tulee pääkomponenttien perusta (muista, että koordinaattikohtainen normalisointi muuttaa vektorien ortogonaalisuussuhdetta). Alkutietoavaruuden kartoitus ensimmäisiin pääkomponentteihin yhdessä normalisoinnin kanssa annetaan matriisin avulla
.Juuri tätä muutosta kutsutaan useimmiten Karhunen-Loeve-muunnokseksi. Tässä on sarakevektorit, ja yläindeksi tarkoittaa transponointia.
Varoitus : älä sekoita pääkomponenttien muuntamisen jälkeen suoritettua normalisointia tietojen esikäsittelyn aikana tapahtuvaan normalisointiin ja "ulottumattomuuteen" , joka suoritettiin ennen pääkomponenttien laskemista. Esinormalisointia tarvitaan järkevään metriikkaan, jossa lasketaan tietojen paras approksimaatio tai haetaan suurimman hajonnan suuntia (joka on ekvivalentti). Jos data on esimerkiksi kolmiulotteisia "metrien, litran ja kilogramman" vektoreita, standardieuklidisen etäisyyden avulla 1 metrin ero ensimmäisessä koordinaatissa antaa saman vaikutuksen kuin 1 litran ero toisessa. tai 1 kg kolmannessa . Yleensä yksikköjärjestelmät, joissa alkuperäinen data esitetään, eivät heijasta tarkasti käsityksiämme akseleiden luonnollisista asteikoista, ja suoritetaan " ei- dimensioiminen ": jokainen koordinaatti jaetaan tiettyyn mittakaavaan, jonka data määrittää, niiden käsittelyn tarkoitukset sekä tietojen mittaus- ja keräämisprosessit.
Tällaiseen normalisointiin on kolme merkittävästi erilaista standardilähestymistapaa: yksikkövarianssiin akseleita pitkin (asteikot akseleilla ovat yhtä suuret kuin keskihajonnat - tämän muunnoksen jälkeen kovarianssimatriisi osuu yhteen korrelaatiokertoimien matriisin kanssa ), yhtä suureen mittaustarkkuuteen . (akselin asteikko on verrannollinen tietyn arvon mittaustarkkuuteen) ja yhtäläisillä vaatimuksilla tehtävässä (akselin mittakaava määräytyy tietyn arvon ennusteen vaaditun tarkkuuden tai sen sallitun vääristymän - tason mukaan suvaitsevaisuudesta). Esikäsittelyn valintaan vaikuttavat ongelman mielekäs ilmaisu sekä tiedonkeruun ehdot (esimerkiksi jos tiedonkeruu on pohjimmiltaan epätäydellinen ja tiedot silti vastaanotetaan, ei ole järkevää valita tiukasti normalisointia yksikkövarianssilla, vaikka tämä vastaisikin ongelman tarkoitusta, koska tämä tarkoittaa kaikkien tietojen uudelleennormaalimista uuden osan vastaanottamisen jälkeen; on järkevämpää valita jokin asteikko, joka arvioi karkeasti keskihajonnan, eikä sitä sitten muuteta) .
Esinormalisointi yksikkövarianssiin akseleita pitkin tuhoutuu koordinaattijärjestelmän pyörityksellä, jos akselit eivät ole pääkomponentteja, eikä tietojen esikäsittelyn aikana suoritettava normalisointi korvaa normalisointia pääkomponenteiksi pelkistyksen jälkeen.
Jos annamme kullekin datavektorille yksikkömassan, niin empiirinen kovarianssimatriisi osuu yhteen tämän pistemassajärjestelmän inertiatensorin kanssa (jaettuna kokonaismassalla ), ja pääkomponenttien ongelma osuu yhteen ongelman tuomisen kanssa. inertiatensori pääakseleille. Lisävapautta massaarvojen valinnassa voidaan käyttää ottamaan huomioon tietopisteiden tärkeys tai niiden arvojen luotettavuus (tärkeille tiedoille tai luotettavammista lähteistä saatavalle tiedolle osoitetaan suurempia massoja). Jos datavektorille annetaan massa , niin empiirisen kovarianssimatriisin sijaan saamme
Kaikki muut pääkomponentteihin pelkistävät toiminnot suoritetaan samalla tavalla kuin menetelmän pääversiossa: etsitään ortonormaali ominaiskanta , ominaisarvot järjestetään laskevassa järjestyksessä, dataapproksimaation painotettu keskivirhe Ensimmäiset komponentit estimoidaan (ominaisarvojen summalla ), suoritetaan normalisointi ja niin edelleen.
Yleisempi painotustapa on maksimoida projektioiden välisten pareittain olevien etäisyyksien [10] painotettu summa . Jokaiselle kahdelle datapisteelle syötetään paino ; ja . Empiirisen kovarianssimatriisin sijasta käytämme
Sille , symmetrinen matriisi on positiivinen, koska neliömuoto on positiivinen:
Seuraavaksi etsitään ortonormaali ominaiskanta , järjestellään se ominaisarvojen laskevaan järjestykseen, arvioidaan ensimmäisten komponenttien dataapproksimaation painotettu keskivirhe jne. - täsmälleen samalla tavalla kuin pääalgoritmissa.
Tätä menetelmää käytetään luokkien läsnä ollessa: eri luokille paino valitaan suuremmiksi kuin saman luokan pisteille. Tämän seurauksena painotettujen pääkomponenttien projektiossa eri luokat "siirretään erilleen" suuremmalla etäisyydellä.
Toinen sovellus on vähentää suurten poikkeamien, ns. poikkeamien (en.:outlier) vaikutusta, jotka voivat vääristää kuvaa neliöetäisyyden keskiarvon käytön vuoksi: jos valitset , suurten poikkeamien vaikutus on vähennetty. Siten kuvattu pääkomponenttimenetelmän muunnos on vankempi kuin klassinen.
Tilastoissa pääkomponenttien menetelmää käytettäessä käytetään useita erikoistermejä.
Pääkomponenttimenetelmää sovelletaan aina. Yleinen väite, että se pätee vain normaalisti jakautuneisiin tietoihin (tai jakaumiin, jotka ovat lähellä normaalia), on virheellinen: Pearsonin alkuperäisessä muotoilussa ongelmana on rajallisen datajoukon approksimointi , eikä niiden tilastollisesta muodostumisesta ole edes hypoteesia. jakelusta puhumattakaan.
Menetelmä ei kuitenkaan aina vähennä mittasuhteita tehokkaasti tietyissä tarkkuusrajoituksissa . Suorat viivat ja tasot eivät aina anna hyvää likiarvoa. Data voi esimerkiksi seurata jotakin käyrää hyvällä tarkkuudella, ja tätä käyrää voi olla vaikea paikantaa tietoavaruudessa. Tässä tapauksessa pääkomponenttimenetelmä hyväksyttävän tarkkuuden saavuttamiseksi vaatii useita komponentteja (yhden sijasta) tai se ei vähennä mitoitusta ollenkaan hyväksyttävällä tarkkuudella. Tällaisten pääkomponenttien "käyrien" kanssa työskentelyä varten keksittiin pääjakoputkien menetelmä [12] ja erilaisia versioita pääkomponenttien epälineaarisesta menetelmästä [13] [14] . Lisää ongelmia voi tuottaa monimutkaisia topologiatietoja. Niiden lähentämiseen on myös keksitty erilaisia menetelmiä, kuten itseorganisoituvia Kohosen karttoja , hermokaasua [15] tai topologisia kielioppeja [11] . Jos data on tilastollisesti tuotettu jakaumalla, joka poikkeaa hyvin normaalista, niin jakauman approksimointia varten on hyödyllistä siirtyä pääkomponenteista itsenäisiin komponentteihin [16] , jotka eivät ole enää ortogonaalisia alkuperäisessä pistetulossa. Lopuksi isotrooppiselle jakaumalle (jopa normaalille) saadaan sironneen ellipsoidin sijasta pallo, jonka mittaa on mahdotonta pienentää approksimaatiomenetelmillä.
Datan visualisointi on kokeellisen tiedon tai teoreettisen tutkimuksen tulosten esittely visuaalisessa muodossa.
Ensimmäinen vaihtoehto tietojoukon visualisoinnissa on ortogonaalinen projektio kahden ensimmäisen pääkomponentin (tai kolmen ensimmäisen pääkomponentin 3D-avaruuden) tasoon. Projektitaso on olennaisesti tasainen kaksiulotteinen "ruutu", joka on sijoitettu siten, että saadaan "kuva" tiedosta vähiten vääristymällä. Tällainen projektio on optimaalinen (kaikkien ortogonaalisten projektioiden joukossa eri kaksiulotteisilla näytöillä) kolmessa suhteessa:
Datan visualisointi on yksi yleisimmin käytetyistä pääkomponenttianalyysin ja sen epälineaaristen yleistysten sovelluksista [2] .
Pikselien spatiaalisen redundanssin vähentämiseksi kuvia ja videoita koodattaessa käytetään pikselilohkojen lineaarista muuntamista. Saatujen kertoimien myöhempi kvantisointi ja häviötön koodaus mahdollistavat merkittävien pakkauskertoimien saamisen. PCA-muunnoksen käyttö lineaarimuunnoksena on optimaalinen joillekin tietotyypeille vastaanotetun datan koon suhteen samalla vääristymällä [17] . Tällä hetkellä tätä menetelmää ei käytetä aktiivisesti lähinnä suuren laskennallisen monimutkaisuuden vuoksi. Myös tietojen pakkaus voidaan saavuttaa hylkäämällä viimeiset muunnoskertoimet.
Menetelmän [18] pääolemus on, että kun poistat kohinaa pikselilohkosta, esitä tämän lohkon lähialue pisteiden joukkona moniulotteisessa avaruudessa, käytä siihen PCA:ta ja jätä vain muunnoksen ensimmäiset komponentit. . Oletetaan, että ensimmäiset komponentit sisältävät tärkeimmän hyödyllisen tiedon, kun taas muut komponentit sisältävät tarpeetonta kohinaa. Käyttäen käänteistä muunnosa pääkomponenttien kannan pienentämisen jälkeen saadaan kuva ilman kohinaa.
Pääideana on esittää jokaista videokehystä useilla arvoilla PCA:lla, jota käytetään myöhemmin tietokannan rakentamisessa ja siihen liittyvissä kyselyissä. Tällainen merkittävä tietojen väheneminen mahdollistaa huomattavasti työskentelyn nopeuden lisäämisen ja vastustuksen useille videon vääristymille.
Pääkomponenttianalyysiä käytetään intensiivisesti bioinformatiikassa kuvausulottuvuuden pienentämiseen, merkityksellisen tiedon poimimiseen, datan visualisoimiseen jne. Yksi yleisimmistä käyttötapauksista on vastaavuusanalyysi [19] [20] [21] . Kuvissa (kuvat A, B) geneettinen teksti [22] esitetään pistejoukona 64-ulotteisessa triplettitaajuuksien avaruudessa. Jokainen piste vastaa DNA - fragmenttia 300 nukleotidin pituisessa liukuvassa ikkunassa (DNA-kävely). Tämä fragmentti jaetaan ei-päällekkäisiksi tripleteiksi ensimmäisestä paikasta alkaen. Näiden kolmosten suhteelliset taajuudet fragmentissa muodostavat 64-ulotteisen vektorin. Kuvassa Projisointi Streptomyces coelicolor -bakteerin genomin kahteen ensimmäiseen pääkomponenttiin esitetään. Kuvassa B näyttää projektion ensimmäisille 3 pääkomponentille. Punaisen ja ruskean sävyt korostavat koodaavien sekvenssien fragmentteja eteenpäin DNA-juosteessa ja vihreät korostavat koodaavien sekvenssien fragmentteja käänteisessä DNA-juosteessa. Koodaamattomaan osaan kuuluvat fragmentit on merkitty mustalla. Tunnetuimpien bakteerigenomien pääkomponenttianalyysi on esitetty erikoistuneella verkkosivustolla [23] .
Pääkomponenttimenetelmä on yksi kemometrian päämenetelmistä . Mahdollistaa alkutietojen X matriisin jakamisen kahteen osaan: "merkittävä" ja "kohina".
Psykodiagnostiikka on yksi pääkomponenttien menetelmän kehittyneimmistä sovellusalueista [24] . Käyttöstrategia perustuu hypoteesiin kokeellisen tiedon olevan itsestään informatiivista, mikä tarkoittaa, että diagnostinen malli voidaan luoda approksimoimalla objektijoukon geometrista rakennetta alkuominaisuuksien avaruudessa. Hyvä lineaarinen diagnostiikkamalli voidaan rakentaa, kun merkittävä osa alkuperäisistä ominaisuuksista on sisäisesti johdonmukainen. Jos tämä sisäinen johdonmukaisuus heijastaa haluttua psykologista rakennetta , niin lineaarisen diagnostisen mallin parametrit (ominaisuuspainot) annetaan pääkomponenttien menetelmällä.
Pääkomponenttianalyysi on yksi ekonometriikan keskeisistä työkaluista , sillä sitä käytetään tietojen visualisointiin, mallien ytimekkyyden varmistamiseen, laskennan ja tulkinnan yksinkertaistamiseen sekä tallennettujen tietojen pakkaamiseen. Menetelmä tarjoaa maksimaalisen informaatiosisällön ja lähdetietojen geometrisen rakenteen minimaalisen vääristymän.
Sosiologiassa menetelmä on välttämätön kahden ensimmäisen päätehtävän ratkaisemiseksi [ 25] :
Valtiotieteessä pääkomponenttimenetelmä oli Political Atlas of Modernity -projektin [26] päätyökalu 192 maailman maan luokituksen lineaariseen ja epälineaariseen analyysiin viiden erityisesti kehitetyn integraaliindeksin (elintaso, kansainvälinen vaikutus, uhat, valtiollisuus ja demokratia). Tämän analyysin tulosten kartoittamista varten on kehitetty erityinen paikkatietojärjestelmä , joka yhdistää maantieteellisen tilan ominaisuusavaruuteen. Myös poliittisia kartastodatakarttoja on luotu käyttämällä taustana 2D-pääjoukkoja 5D-maatilassa. Datakartan ja maantieteellisen kartan ero on siinä, että maantieteellisellä kartalla lähellä on kohteita, joilla on samanlaiset maantieteelliset koordinaatit, kun taas datakartalla on kohteita (maita), joilla on samankaltaisia ominaisuuksia (indeksejä).
Ulottuvuuden kirous vaikeuttaa monimutkaisten järjestelmien mallintamista. Mallin ulottuvuuden pienentäminen on välttämätön edellytys simulaation onnistumiselle. Tämän tavoitteen saavuttamiseksi on luotu laaja matemaattinen tekniikka. Näissä ongelmissa käytetään myös pääkomponenttianalyysiä (kutsutaan usein oikeaksi ortogonaaliksi hajotukseksi ( POD ) ). Esimerkiksi turbulenssin dynamiikkaa kuvattaessa dynaamiset muuttujat – nopeuskenttä – kuuluvat äärettömän ulottuvuuden avaruuteen (tai jos kenttä esitetään sen arvoilla riittävän hienossa ruudukossa, äärellisulotteiseen avaruuteen korkea ulottuvuus). Voit ottaa suuren kokoelman hetkellisiä kenttäarvoja ja soveltaa pääkomponenttianalyysiä tähän moniulotteisten "tietovektoreiden" joukkoon. Näitä pääkomponentteja kutsutaan myös empiirisiksi ominaisvektoreiksi . Joissakin tapauksissa ( rakenteellinen turbulenssi ) menetelmä antaa vaikuttavan mittasuhteen pienenemisen [27] . Tämän dynaamisen mallin pelkistystekniikan muut sovellukset ovat äärimmäisen erilaisia kemiantekniikan teoreettisista perusteista oceanologiaan ja klimatologiaan .
Pääkomponenttien menetelmä sai sovelluksensa elintarvikkeiden ominaisuuksien aistinvaraisessa (aistinvaraisessa) arvioinnissa [28] . Pääkomponenttianalyysi (PCA) mahdollistaa elintarvikkeiden luokittelun tapauksissa, joissa niiden ominaisuuksien karakterisoimiseen käytetään samanaikaisesti suurta määrää kuvaajia, esimerkiksi arvioitaessa viinin, [29] marmeladin, [30] ekstrudoitujen elintarvikkeiden ominaisuuksia, [31] juusto, [32] ja muut.
Pääkomponenttimenetelmä on yleisin lähestymistapa dimensioiden vähentämiseen , mutta on olemassa muitakin menetelmiä, erityisesti itsenäisten komponenttien menetelmä , moniulotteinen skaalaus sekä lukuisia epälineaarisia yleistyksiä: pääkäyrien ja monistojen menetelmä, menetelmä elastisten karttojen , parhaan projektion etsintä ( eng. Projection Pursuit ), pullonkaulahermoverkkomenetelmät , itseorganisoituvat Kohosen kartat .
![]() | |
---|---|
Bibliografisissa luetteloissa |
|
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|