Pääkomponenttimenetelmä

Pääkomponenttianalyysi (PCA ) on yksi tärkeimmistä tavoista pienentää datan ulottuvuutta menettäen vähiten tietoa . Sen keksi Karl Pearson vuonna 1901 . Sitä käytetään monilla aloilla, mukaan lukien ekonometria , bioinformatiikka , kuvankäsittely , tietojen pakkaus , yhteiskuntatieteet .

Pääkomponenttien laskenta voidaan supistaa datamatriisin singulaariarvojaottelun laskemiseen tai alkuperäisen datan kovarianssimatriisin ominaisvektorien ja ominaisarvojen laskemiseen . Joskus pääkomponenttimenetelmää kutsutaan Karhunen - Loeve-muunnokseksi [1] tai Hotelling - muunnokseksi .

Virallinen ongelman selvitys

Pääkomponenttianalyysin ongelmalla on vähintään neljä perusversiota:

likimääräiset tiedot lineaarisilla jakoputkilla, joilla on pienempi ulottuvuus;
etsi ortogonaalisesta projektiosta pienemmän ulottuvuuden aliavaruuksia, joissa datan leviäminen (eli keskihajonnan keskiarvosta) on suurin;
etsi ortogonaalisesta projektiosta pienemmän ulottuvuuden aliavaruuksia, joissa pisteiden välinen keskiarvoetäisyys on suurin;
rakentaa tietylle moniulotteiselle satunnaismuuttujalle sellainen ortogonaalinen koordinaattimuunnos, jonka seurauksena yksittäisten koordinaattien väliset korrelaatiot katoavat.

Kolme ensimmäistä versiota toimivat rajallisilla tietojoukoilla. Ne ovat vastaavia eivätkä käytä hypoteesia tilastotietojen tuottamisesta. Neljäs versio toimii satunnaismuuttujilla . Äärilliset joukot esiintyvät tässä näytteinä tietystä jakaumasta ja kolmen ensimmäisen ongelman ratkaisu - Karhunen-Loeven lauseen mukaisen laajennuksen ( "todellinen Karhunen-Loeve-muunnos" ) approksimaationa. Tämä herättää ylimääräisen ja ei aivan triviaalin kysymyksen tämän likiarvon tarkkuudesta.

Tietojen likiarvo lineaarisilla jakoputkilla

Pääkomponenttianalyysi alkoi rajallisen pisteiden joukon parhaan approksimoinnin ongelmalla suorilla ja tasoilla ( Pearson , 1901). Kun annetaan äärellinen joukko vektoreita , jokaiselle kaikkien ulottuvuuksien lineaarisen moninkertaisuuden joukosta löydetään sellainen , että neliöityjen poikkeamien summa on minimaalinen: $x_1, x_2, \dots, x_m \in\mathbb{R}^n$ $k = 0,1, \pisteet, n-1$ $k$ $\mathbb{R}^n$ $L_k \subset \mathbb{R}^n$ $x_i$ $L_k$

\sum_{i=1}^m \operaattorin nimi{dist}^2(x_i, L_k) \to \min

missä on euklidinen etäisyys pisteestä lineaariseen monistoon. Mikä tahansa -ulotteinen lineaarinen monisto voidaan määritellä joukoksi lineaarisia yhdistelmiä , joissa parametrit kulkevat todellisen viivan yli ja ovat ortonormaali vektoreiden joukko $\operaattorinimi{dist}(x_i, L_k)$ $k$ $\mathbb{R}^n$ $L_k = \{ a_0 +\beta_1 a_1 + \dots + \beta_k a_k | \beta_i \in \mathbb{R} \}$ $\beta_i$ $\mathbb {R}$ $a_0 \in \mathbb{R}^n$ $\left\{a_1, \dots , a_k \right\} \subset \mathbb{R}^n$

\operaattorinimi{dist}^2(x_i, L_k) = \Vert x_i - a_0 - \sum_{j=1}^k a_j (a_j, x_i - a_0) \Vert ^2

missä on euklidinen normi, on euklidinen skalaaritulo tai koordinaattimuodossa: $\Vert \cdot \Vert$ $\left(a_j, x_i\right)$

\operaattorinnimi{dist}^2(x_i, L_k) = \sum_{l=1}^n \left(x_{il} - a_{0l}- \sum_{j=1}^k a_{jl } \sum_{q=1}^n a_{jq}(x_{iq} - a_{0q}) \right)^2

Approksimaatiotehtävän ratkaisu saadaan joukolla sisäkkäisiä lineaarisia monistoja , . Nämä lineaariset monisot määritellään ortonormaalilla vektoreiden joukolla (pääkomponenttivektorit) ja vektorilla . Vektoria etsitään ratkaisuna minimointiongelmaan : $k = 0,1, \pisteet , n-1$ $L_0 \subset L_1 \subset \dots L_{n-1}$ $L_{k}=\{a_{0}+\beta _{1}a_{1}+\ldots +\beta _{k}a_{k}|\beta _{i}\in \mathbb {R}\}$ $\left\{a_1,...,a_{n-1}\right\}$ $a_0$ $a_{0}$ $L_0$

a_0 = \underset{a_0\in\mathbb{R}^n}{\operaattorinnimi{argmin)) \left(\sum_{i=1}^m \operaattorinimi{dist}^2(x_i, L_0) \oikea)

tuo on

a_0 = \underset{a_0\in\mathbb{R}^n}{\operaattorinimi{argmin)) \left (\sum_{i=1}^m \Vert x_i - a_0\Vert ^2\right)

Tämä on näytekeskiarvo : . $a_0 = \frac{1}{m} \sum_{i=1}^m x_i = \overline{X}$

Fréchet havaitsi vuonna 1948 , että keskiarvon vaihtelumäärittely (pisteenä, joka minimoi datapisteiden neliöetäisyyksien summan) on erittäin kätevä tilastojen muodostamiseen mielivaltaisessa metriavaruudessa , ja rakensi klassisen tilaston yleistyksen yleisavaruuksille (yleistetty). pienimmän neliösumman ).

Pääkomponenttivektorit löytyvät ratkaisuksi samantyyppisiin optimointiongelmiin :

Tiedot keskitetään (vähentämällä keskiarvo): . Nyt ; $x_i := x_i - \overline{X}$ $\sum_{i=1}^m x_i =0$
Ensimmäinen pääkomponentti löytyy ratkaisuksi ongelmaan: $a_1 = \underset{\Vert a_1 \Vert =1}{\operaattorinimi{argmin)) \left( \sum_{i=1}^m \Vert x_i - a_1 (a_1,x_i)\Vert ^2\ oikein)$ . jos ratkaisu ei ole ainutlaatuinen, valitaan yksi niistä.
Projektio ensimmäiseen pääkomponenttiin vähennetään tiedoista: ${\näyttötyyli x_i := x_i - a_1 \left(a_1,x_i\right) }$ ;
Toinen pääkomponentti löytyy ratkaisuksi ongelmaan: $a_2 = \underset{\Vert a_2 \Vert =1}{\operaattorinimi{argmin)) \left( \sum_{i=1}^m \Vert x_i - a_2 (a_2,x_i)\Vert ^2\ oikea)$ . Jos ratkaisu ei ole ainutlaatuinen, valitaan yksi niistä.

Edelleen prosessi jatkuu, eli vaiheessa , vähennetään projektio -. pääkomponenttiin (tähän hetkeen mennessä projektiot edellisiin pääkomponentteihin on jo vähennetty): $2k-1$ $(k-1)$ ${\näyttötyyli (k-2)}$

x_i := x_i - a_{k-1} \left(a_{k-1},x_i\right)

;

ja vaiheessa -th pääkomponentti määritellään ratkaisuksi ongelmaan: $2k$ $k$

a_k = \underset{\Vert a_k \Vert =1}{\operaattorinimi{argmin)) \left( \sum_{i=1}^m \Vert x_i - a_k (a_k,x_i)\Vert ^2\ oikea)

(jos ratkaisu ei ole ainutlaatuinen, valitaan yksi niistä).

Jokaisessa valmisteluvaiheessa projektio edelliseen pääkomponenttiin vähennetään. Löydetyt vektorit ovat ortonormaalia yksinkertaisesti kuvatun optimointitehtävän ratkaisemisen seurauksena, mutta jotta laskentavirheet eivät loukkaisi pääkomponenttivektorien keskinäistä ortogonaalisuutta, ne voidaan sisällyttää optimointitehtävän ehtoihin. $(2k-1)$ ${\displaystyle \left\{a_1,...,a_{ n -1} \right\))$ $a_k \bot \{a_1,..., a_{k -1} \}$

Määritelmän epäyksikkyys, triviaalin mielivaltaisuuden lisäksi merkin valinnassa ( ja ratkaista sama ongelma), voi olla merkittävämpää ja johtua esimerkiksi datasymmetriaehdoista. Viimeinen pääkomponentti on yksikkövektori, joka on ortogonaalinen kaikkiin edellisiin nähden . $a_k$ $a_k$ $-a_k$ $a_n$ $a_k$

Etsi ortogonaalisia projektioita, joilla on suurin sironta

Olkoon meille annettu keskitetty joukko datavektoreita ( aritmeettinen keskiarvo on nolla). Tehtävänä on löytää sellainen ortogonaalinen muunnos uuteen koordinaattijärjestelmään , jolle seuraavat ehdot olisivat tosia: $x_i\in\mathbb{R}^n \; (i=1,...,m)$ $x_i$

Datan näytevarianssi ensimmäistä koordinaattia pitkin on maksimi (tätä koordinaattia kutsutaan ensimmäiseksi pääkomponentiksi );
Datan näytevarianssi toista koordinaattia pitkin on suurin ehdolla, että se on ortogonaalisuus ensimmäiseen koordinaattiin (toiseen pääkomponenttiin);
…
Datan näytedispersio pitkin -: nnen koordinaatin arvoja on suurin, jos se on ortogonaalisuus ensimmäisiin koordinaatteihin nähden; $k$ $k-1$
…

Datan näytevarianssi normalisoidun vektorin antamaa suuntaa pitkin on $a_k$

S^2_m \left[ (X, a_k) \right ] = \frac{1}{m} \sum\limits_{i=1}^m (a_k,x_i)^2 = \frac{1} {m} \sum\limits_{i=1}^m \left(\sum\limits_{j=1}^n x_{ij}a_{kj} \right)^2

(koska data on keskitetty, otosvarianssi tässä on sama kuin keskimääräinen neliöpoikkeama nollasta).

Parhaan approksimation ongelman ratkaisu antaa samat pääkomponentit kuin haettaessa ortogonaalisia projektioita, joilla on suurin sironta, hyvin yksinkertaisesta syystä: ensimmäinen termi ei riipu . $\left\{a_i\right\}$ $\Vert x_i - a_k (a_k,x_i)\Vert ^2 = \Vert x_i\Vert ^2 - (a_k,x_i)^2,$ $a_k$

Etsi ortogonaalisia projektioita, joilla on pisteiden välinen suurin rms-etäisyys

Toinen vastaava muotoilu seuraa ilmeisestä identiteetistä, joka pätee kaikille vektoreille : $m$ $x_i$

\frac{1}{m(m-1)}\sum_{i,j=1}^m (x_i-x_j)^2 =\frac{2m^2}{m(m-1)} \left[\frac{1}{m}\sum_{i=1}^m x_i^2 - \left(\frac{1}{m}\sum_{i}^m x_i \right)^2\oikea ].

Tämän identiteetin vasemmalla puolella on pisteiden välinen keskimääräinen neliöetäisyys ja oikealla hakasulkeissa otosvarianssi. Pääkomponenttimenetelmässä siis etsitään aliavaruuksia, joissa projektiossa on pisteiden keskiarvoetäisyys maksimissaan (tai mikä on sama, sen projisoinnin aiheuttama vääristymä on minimaalinen) [ 2] . Tällainen uudelleenmuotoilu mahdollistaa yleistysten rakentamisen eri parikohtaisten etäisyyksien (eikä vain pisteiden) painotuksella.

Korrelaatioiden peruuttaminen koordinaattien välillä

Etsi tietylle -ulotteiselle satunnaismuuttujalle sellainen ortonormaalikanta, , jossa eri koordinaattien välinen kovarianssikerroin on nolla. Tälle pohjalle muuttamisen jälkeen $n$ $X$ $\left\{a_1,...,a_n \right\}$

\operaattorinnimi{cov}(X_i,X_j)=0

varten .

{\näyttötyyli i \neq j }

Tässä on kovarianssikerroin, jossa on matemaattinen odotus . $\operaattorinnimi {cov} (X_{i},X_{j})=\operaattorinimi {E} [(X_{i}-\operaattorinimi {E} [X_{i}])(X_{j}- \operaattorinimi {E} [X_{j}])]$ $\operaattorinimi{E}$

Kovarianssimatriisin diagonalisointi

Kaikki pääkomponenttiongelmat johtavat kovarianssimatriisin tai näytteen kovarianssimatriisin diagonalisointiongelmaan. Tämä on empiirinen tai näytekovarianssimatriisi

C = [c_{ij}],\ c_{ij} = \frac{1}{m-1} \sum_{l=1}^m (x_{li}-\overline{X_{i} })(x_{lj}-\overline{X_{j}}).

Se on monimuuttujan satunnaismuuttujan kovarianssimatriisi $X$

\Sigma =[\sigma _{ij}],\ \sigma _{ij}=\operaattorinimi {cov} (X_{i},X_{j})=\operaattorinimi {E} [(X_{i) }-\operaattorinimi {E} [X_{i}])(X_{j}-\operaattorinimi {E} [X_{j}])].

Parhaan sopivan ja siroavimman ortogonaalisen projektio-ongelmien pääkomponenttivektorit ovat empiirisen kovarianssimatriisin ortonormaalit ominaisarvojen ominaisarvojen järjestykseen järjestetyt ominaisvektorit, jotka toimivat estimaateina kovarianssimatriisin ominaisvektoreille . Kovarianssimatriisin ominaisvektorien perusteella se on luonnostaan diagonaalinen ja tällä perusteella eri koordinaattien välinen kovarianssikerroin on nolla. $\left\{a_1,...,a_n \right\}$ $C$ $\lambda :\lambda _{1}\geq \lambda _{2}\geq \ldots \geq \lambda _{n}\geq 0.$ $\operaattorinnimi{cov}(X_i,X_j)$

Jos kovarianssimatriisin spektri on degeneroitunut, valitaan mielivaltainen ominaisvektorien ortonormaali kanta. Se on aina olemassa, ja kovarianssimatriisin ominaisarvot ovat aina todellisia ja ei-negatiivisia.

Datamatriisin singulaariarvohajotelma

Ajatus yksittäisarvojen hajottelusta

Pääkomponenttimenetelmän matemaattinen sisältö on kovarianssimatriisin spektrihajotelma , eli dataavaruuden esittäminen keskenään ortogonaalisten ominaisaliavaruuksien summana ja itse matriisi näiden aliavaruuksien ortogonaalisten projektioiden lineaarisena yhdistelmänä kertoimilla. . Jos on matriisi, joka koostuu keskitetyn datan rivivektoreista (dimensio ), niin kovarianssimatriisin spektrihajoamisen ongelma muuttuu datamatriisin singulaariarvon hajoamisen ongelmaksi . $C$ $C$ $C$ $\lambda_i$ $\operatorname{X}=\left\{x_1,..., x_m \right\}^T$ $n$ $C=\frac{1}{m-1}\operaattorinnimi{X}^T\operaattorinnimi{X}$ $C$ ${\näyttötyyli \operaattorin nimi{X}}$

Lukua kutsutaan matriisin yksikköarvoksi, jos ja vain, jos on olemassa oikea ja vasen yksikkövektorit : sellaiset -ulotteinen rivivektori ja -ulotteinen sarakevektori (molemmat yksikköpituisia), joissa kaksi yhtälöä pätee: $\sigma \geq 0$ ${\näyttötyyli \operaattorin nimi{X}}$ $m$ $b_{\sigma}$ $n$ $a_{\sigma}$

\operaattorinnimi{X} a_{\sigma} = \sigma b_{\sigma}^T ;\, \, b_{\sigma} \operaattorinnimi{X}= \sigma a_{\sigma}^T.

Antaa olla datamatriisin sijoitus . Datamatriisin singulaariarvohajotelma on sen esitys muodossa ${\displaystyle p= \operaattorinnimi{rang} \operaattorinnimi{X} \leq \min\{n,m\))$ ${\näyttötyyli \operaattorin nimi{X}}$

\operatorname{X}= \sum_{l=1}^p \sigma_l b_l^T a_l^T ;  \;\operaattorinnimi{X}^T= \sum_{l=1}^p \sigma_l a_l b_l \;  \left(x_{ij}=\sum_{l=1}^p \sigma_l b_{li}a_{lj}\right),

jossa on yksittäinen arvo, on vastaava oikea yksikön sarakevektori ja on vastaava vasen yksikön rivivektori ( ). Oikeanpuoleiset singulaarisarakevektorit, jotka ovat mukana tässä hajotuksessa, ovat empiirisen kovarianssimatriisin pääkomponenttivektorit ja ominaisvektorit , jotka vastaavat positiivisia ominaisarvoja . $\sigma_l > 0$ $a_{l}=(a_{{lj}}),\,j=1,...n$ $b_l=(b_{li}), \, i=1,... m$ $l=1,...p$ $a_l$ $C=\frac{1}{m-1}\operaattorinnimi{X} ^T \operaattorinnimi{X}$ $\lambda_l=\frac{1}{m-1}\sigma_l^2 > 0$

Vaikka muodollisesti datamatriisin singulaariarvon hajottelun ja kovarianssimatriisin spektrihajottamisen ongelmat ovat samat, algoritmit singulaariarvon laskemiseksi suoraan, ilman kovarianssimatriisin ja sen spektrin laskemista, ovat tehokkaampia ja vakaampia [3] .

Yksittäisen arvon teorian loi James Joseph Sylvester vuonna 1889 , ja se esitetään kaikissa yksityiskohtaisissa matriisiteorian käsikirjoissa [4] .

Yksinkertainen iteratiivinen singulaariarvon hajottelualgoritmi

Päämenettely on löytää mielivaltaisen matriisin paras approksimaatio matriisilla, jonka muoto on (jossa on -ulotteinen vektori ja on -ulotteinen vektori) pienimmän neliösumman menetelmällä: $m\ kertaa n$ $X=(x_{{ij}})$ $b \otimes a = (b_i a_j)$ $b$ $m$ $a$ $n$

F(b, a) = \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^n (x_{ij} - b_i a_j )^2 \to \ min

Ratkaisu tähän ongelmaan saadaan peräkkäisillä iteraatioilla käyttämällä eksplisiittisiä kaavoja. Kiinteälle vektorille arvot , jotka antavat muodon minimin, määritetään yksiselitteisesti ja eksplisiittisesti yhtälöistä : $a=(a_j)$ $b=(b_i)$ $F(b, a)$ $\partial F/ \partial b_i = 0$

\frac{\partial F}{\partial b_i} = - \sum_{j=1}^n (x_{ij} - b_i a_j )a_j = 0;  \;\;  b_i = \frac{\sum_{j=1}^n x_{ij} a_j}{\sum_{j=1}^n a_j^2 }\, .

Vastaavasti kiinteälle vektorille määritetään seuraavat arvot : ${\näyttötyyli b =(b_ i) }$ $a=(a_j)$

a_j = \frac{\sum_{i=1}^m b_i x_{ij} }{\sum_{i =1}^m b_i ^2 }\, .

Alkuperäisenä approksimaationa vektorille otamme yksikköpituisen satunnaisvektorin, laskemme vektorin , laskemme sitten tämän vektorin vektorin jne. Jokainen askel pienentää arvoa . Pysäytyskriteerinä käytetään minimoidun funktion arvon suhteellisen pienenemisen pienuutta iteraatiovaihetta kohden ( ) tai itse arvon pienuutta . $a$ $b$ $b$ $a$ $F(b, a)$ $F(b, a)$ $\Delta F / F$ $F$

Seurauksena on, että matriisille paras approksimaatio saadaan muotoisella matriisilla ( tässä yläindeksi tarkoittaa approksimaatiolukua). Lisäksi saatu matriisi vähennetään matriisista ja saadulle poikkeamamatriisille etsitään jälleen paras samantyyppinen approksimaatio ja niin edelleen, kunnes esimerkiksi normista tulee riittävän pieni. Tuloksena saimme iteratiivisen proseduurin matriisin hajottamiseksi 1. sijan matriisien summana, eli . Oletetaan ja normalisoidaan vektorit : Tuloksena saadaan singulaaristen lukujen ja singulaarivektoreiden (oikea - ja vasen - ) approksimaatio. $X=(x_{{ij}})$ $P_1$ $b^1 \otimes a^1 = (b_i^1 a_j^1)$ $X$ $P_1$ $X_1=X-P_1$ $P_2$ $X_{k}$ $X$ $X=P_{1}+P_{2}+\ldots +P_{q}\;(P_{l}=b^{l}\otimes a^{l})$ $\sigma_l = \|a^l\| \|b^l\|$ $a^l \, , \, b^l$ $a^l:= a^l/ \| a^l\|; \, \, b^l:= b^l/ \| b^l\|.$ $\sigma_l$ $a^l$ $b^l$

Tämän algoritmin etuja ovat sen poikkeuksellinen yksinkertaisuus ja kyky siirtää se lähes ilman muutoksia aukkoineen [5] , sekä painotettu data.

Perusalgoritmiin on erilaisia tarkkuutta ja vakautta parantavia muunnelmia. Esimerkiksi eri pääkomponenttien vektorien tulee olla "rakenteen mukaan" ortogonaalisia, mutta suurella iteraatiomäärällä (suuri ulottuvuus, monta komponenttia) pieniä poikkeamia ortogonaalisuudesta kerääntyy ja erityinen korjaus voi olla tarpeen jokainen askel varmistaa sen ortogonaalisuuden aiemmin löydettyihin pääkomponentteihin nähden. $a^l$ $l$ $a^l$

Neliösymmetrisille positiivis-definite matriiseille kuvattu algoritmi muuttuu suoraksi iteraatiomenetelmäksi ominaisvektorien löytämiseksi (katso artikkeli Ominaisvektorit, arvot ja avaruudet ).

Tensorien singulaariarvohajotus ja tensorin pääkomponenttimenetelmä

Usein tietovektorilla on suorakaiteen muotoisen taulukon (esimerkiksi litteän kuvan) tai jopa moniulotteisen taulukon lisärakenne - eli tensori : , . Tässä tapauksessa on myös tehokasta käyttää singulaariarvojakelua. Määritelmä, peruskaavat ja algoritmit siirretään käytännössä ilman muutoksia: datamatriisin sijaan meillä on -indeksiarvo , jossa ensimmäinen indeksi on datapisteen (tensori) numero. $x_{i_{1}i_{2}...i_{q))$ $1 \leq i_{j} \leq n_j$ $q+1$ $\operatorname{X}=(x_{i_{0}i_{1}i_{2}...i_{q)))$ $i_{0}$

Päätoimenpide on löytää tensorin paras approksimaatio muodon tensorilla (missä on -dimensiovektori ( on datapisteiden lukumäärä), on mittavektori osoitteessa ) pienimmän neliösumman menetelmällä: $x_{i_{0}i_{1}i_{2}...i_{q))$ $a^0_{i_{0}} a^1_{i_{1}}a^2_{i_{2}}...a^q_{i_{q}}$ $a^0=(a^0_{i_{0)))$ $m$ $m$ $a^l=(a^l_{i_{l)))$ $n_l$ $l>0$

F= \frac{1}{2}\sum_{i_{0}=1}^m \sum_{i_{1}=1}^{n_1}...\sum_{i_{q}= 1}^{n_q} (x_{i_{0}i_{1}...i_{q}} - a^0_{i_{0}} a^1_{i_{1}}...a^q_ {i_{q}})^2 \to \min

Ratkaisu tähän ongelmaan saadaan peräkkäisillä iteraatioilla käyttämällä eksplisiittisiä kaavoja. Jos kaikki tekijävektorit annetaan yhtä lukuun ottamatta , tämä jäljellä oleva yksi määräytyy eksplisiittisesti riittävistä minimiehdoista. $a^k_{i_{k}}$

a^k_{i_{k}}= \frac{\sum_{i_{0}=1}^m \sum_{i_{1}=1}^{n_1}...\sum_{i_{ k-1}=1}^{n_{k-1}}\sum_{i_{k+1}=1}^{n_{k+1}}...\sum_{i_{q}=1} ^{n_{q}} x_{i_{0}i_{1}...i_{k-1}i_{k}i_{k+1}...i_{q}} a^0_{i_{ 0}} a^{k-1}_{i_{k-1}}a^{k+1}_{i_{k+1}}...a^q_{i_{q}}}{\ prod_{j\neq k} \|a^j\|^2 }\, .

Yksikköpituiset satunnaisvektorit otetaan vektorien ( ) alkuproksimaatioiksi, lasketaan vektori , sitten tälle vektorille ja näille vektoreille lasketaan vektori ja niin edelleen (kierrä indeksit läpi). Jokainen askel pienentää arvoa . Algoritmi selkeästi konvergoi. Pysäytyskriteerinä käytetään minimoitavan funktion arvon suhteellisen pienenemisen pienuutta sykliä kohden tai itse arvon pienuutta . Seuraavaksi saatu approksimaatio vähennetään tensorista ja haetaan jälleen parasta samantyyppistä approksimaatiota jäännökselle ja niin edelleen, kunnes esimerkiksi seuraavan jäännöksen normista tulee riittävän pieni. $a^l=(a^l_{i_{l)))$ $l>0$ $a^0$ $a^0$ $a^2 , a^3, ...$ $a^1$ $F(b, a)$ $F$ $F$ ${\näyttötyyli \operaattorin nimi {X}}$ $a^0_{i_{0}} a^1_{i_{1}}a^2_{i_{2}}...a^q_{i_{q}}$

Tätä monikomponenttista singulaariarvojakelua (pääkomponenttien tensorimenetelmä) käytetään menestyksekkäästi kuvien, videosignaalien ja laajemmin minkä tahansa datan, jolla on taulukko- tai tensorirakenne, käsittelyssä.

Muunnosmatriisi pääkomponenteiksi

Tietojen muunnosmatriisi pääkomponenteille koostuu pääkomponenttivektoreista, jotka on järjestetty ominaisarvojen laskevaan järjestykseen: $A$

A=\left \{a_1,...,a_n \right \}^T

( tarkoittaa siirtämistä osaksi kansallista lainsäädäntöä),

{\näyttötyyli {\,}^T}

A^T=1.

Eli matriisi on ortogonaalinen . $A$

Suurin osa datan vaihtelusta keskittyy ensimmäisiin koordinaatteihin, mikä mahdollistaa siirtymisen alempaan ulottuvuuteen.

Jäännösvarianssi

Olkoon tietojen keskitetty, . Kun datavektorit korvataan niiden projektiolla ensimmäisille pääkomponenteille, otetaan käyttöön virheen keskimääräinen neliö yhtä datavektoria kohti: $\overline{X}=0$ $x_i$ $k$ $x_i \mapsto \sum_{j=1}^k a_j (a_j, x_i)$

\frac{1}{m} \sum_{i=1}^m \left\Vert x_i - \sum_{j=1}^k a_j (a_j, x_i) \right \Vert ^2=\sum_ {l=k+1}^n \lambda_l,

missä ovat empiirisen kovarianssimatriisin ominaisarvot , järjestettynä laskevaan järjestykseen, ottaen huomioon monikertaisuus. $\lambda _{1}\geq \lambda _{2}\geq \ldots \geq \lambda _{n}\geq 0$ $C$

Tätä määrää kutsutaan jäännösvarianssiksi . Arvo

\frac{1}{m} \sum_{i=1}^m \left\Vert \sum_{j=1}^k a_j (a_j, x_i) \right \Vert ^2= \frac{1 }{m} \sum_{i=1}^m \sum_{j=1}^k (a_j, x_i)^2=\sum_{l=1}^k \lambda_l

kutsutaan selitetyksi varianssiksi . Niiden summa on yhtä suuri kuin otosvarianssi. Vastaava neliöity suhteellinen virhe on jäännösvarianssin suhde otosvarianssiin (eli selittämättömän varianssin osuus ):

\delta _{k}^{2}={\frac {\lambda _{k+1}+\lambda _{k+2}+\ldots +\lambda _{n)){\lambda _ {1}+\lambda _{2}+\ldots +\lambda _{n}}}.

Suhteellinen virhe arvioi pääkomponenttimenetelmän soveltuvuuden ensimmäisiin komponentteihin projektiolla . $\delta_k$ $k$

Huomautus : useimmissa laskentaalgoritmeissa ominaisarvot vastaavien ominaisvektorien kanssa - pääkomponentit lasketaan järjestyksessä "suuresta pienimpään". Laskemiseen riittää, että lasketaan ensimmäiset ominaisarvot ja empiirisen kovarianssimatriisin jälki (lävistäjäelementtien summa eli varianssit akseleita pitkin). Sitten $\lambda _{i}$ $a_i$ $\lambda _{i}$ $\delta_k$ $k$ $C$ $\operaattorinnimi{tr} C$ $C$

\delta^2_k=\frac{1}{\operaattorinnimi{tr} C}\left(\operaattorinnimi{tr} C -\sum_{i=1}^k \lambda_{i}\right).

Pääkomponentin valinta Kaiserin säännöllä

Tavoitelähestymistapa pääkomponenttien lukumäärän estimoimiseksi vaaditulla selitetyn varianssin osuudella on muodollisesti aina sovellettavissa, mutta implisiittisesti se olettaa, että "signaaliin" ja "kohinaan" ei tehdä eroa ja mikä tahansa ennalta määrätty tarkkuus on järkevä. Siksi toinen heuristinen menetelmä on usein tuottavampi , joka perustuu hypoteesiin "signaalin" (suhteellisen pieni ulottuvuus, suhteellisen suuri amplitudi) ja "kohina" (suuri ulottuvuus, suhteellisen pieni amplitudi) olemassaolosta. Tästä näkökulmasta pääkomponenttimenetelmä toimii kuin suodatin: signaali sisältyy pääosin ensimmäisten pääkomponenttien projektioon, ja muissa komponenteissa kohinan osuus on paljon suurempi.

Kysymys: kuinka arvioida tarvittavien pääkomponenttien lukumäärä, jos signaali-kohinasuhdetta ei tiedetä etukäteen?

Yksinkertaisin ja vanhin menetelmä pääkomponenttien valintaan on Kaiserin sääntö : merkittäviä ovat ne pääkomponentit, joille

\lambda_i > \frac{1}{n} \operaattorinimi{tr} C ,

eli se ylittää keskiarvon (datavektorin koordinaattien keskimääräisen näytevarianssin). Kaiserin sääntö toimii hyvin yksinkertaisissa tapauksissa, joissa on useita pääkomponentteja , joissa on , jotka ovat paljon suurempia kuin keskiarvo, ja loput ominaisarvot ovat sitä pienempiä. Monimutkaisemmissa tapauksissa se voi antaa liian monta merkittävää pääkomponenttia. Jos tiedot normalisoidaan yksikkönäytteen varianssiksi akseleita pitkin, niin Kaiserin sääntö saa erityisen yksinkertaisen muodon: vain ne pääkomponentit ovat merkittäviä, joille $\lambda _{i}$ $\lambda$ $\lambda _{i}$ $\lambda_i > 1 .$

Pääkomponenttien määrän arvioiminen rikkinäisen kepin säännön avulla

Yksi suosituimmista heuristisista lähestymistavoista tarvittavien pääkomponenttien määrän arvioimiseksi on Broken stick -malli [ 6 ] . Yksikkösummaksi ( , ) normalisoitua ominaisarvojen joukkoa verrataan yksikköpituisen kepin fragmenttien pituuksien jakautumiseen, joka on katkennut satunnaisesti valitusta pisteestä (katkopisteet valitaan itsenäisesti ja jakautuvat tasaisesti kepin pituus). Olkoon ( ) saatujen kepin kappaleiden pituudet, numeroituina pituuden alenevassa järjestyksessä: . Matemaattisen odotuksen löytäminen ei ole vaikeaa : $\lambda_i / \operaattorinnimi{tr} C$ $i=1,...n$ $n-1$ $L_i$ $i=1,...n$ $L_1 \geq L_2 \geq... L_n$ $L_i$

l_i=\operaattorinimi{E}(L_i)=\frac{1}{n}\sum_{j=i}^{n} \frac{1}{j}.

Rikkoutuneen kepin säännön mukaan omavektori (laskevassa ominaisarvojärjestyksessä ) tallennetaan pääkomponenttien luetteloon, jos $k$ $\lambda _{i}$

\frac{\lambda_1}{\operaattorinimi{tr} C}>l_1 \;  ja \;  \frac{\lambda_2}{\operaattorinimi{tr} C}>l_2 \;  ja \;  ... \frac{\lambda_k}{\operaattorinnimi{tr} C}>l_k .

Kuvassa esimerkki 5-ulotteisesta tapauksesta on annettu:

l_{1}

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

l_{2}

l_3

l_4

l_5

Esimerkiksi valittu

{\displaystyle \frac{\lambda_1}{\operaattorinimi{tr} C))

=0,5; =0,3; =0,1; =0,06; =0,04.

{\displaystyle \frac{\lambda_2}{\operaattorinimi{tr} C))

{\displaystyle \frac{\lambda_3}{\operaattorinimi{tr} C))

{\displaystyle \frac{\lambda_4}{\operaattorinimi{tr} C))

{\displaystyle \frac{\lambda_5}{\operaattorinimi{tr} C))

Rikkoutuneen kepin säännön mukaan tässä esimerkissä tulee jättää 2 pääkomponenttia:

\frac{\lambda_1}{\operaattorinimi{tr} C}>l_1 \;;;  \;  \frac{\lambda_2}{\operaattorinimi{tr} C}>l_2 \;;;  \;\frac{\lambda_3}{\operaattorinnimi{tr} C}<l_3\;.

Käyttäjien mukaan rikkinäisellä kepillä on taipumus aliarvioida merkittävien pääkomponenttien määrää.

Pääkomponenttien määrän arvioiminen ehdon numerosta

Sekä Kaiserin sääntö että rikotun kepin sääntö ovat melko herkkiä merkityksettömien ominaisuuksien esiintymiselle. Tämä on helppo osoittaa tuplaamalla attribuutit. Mirkes ym . [7] ehdottivat yksinkertaista testiä dimensioestimaatin stabiiliudelle: jos yksinkertaisesti kopioit attribuutteja tietokannassa, dimensioestimaatin ei pitäisi kasvaa. Kaiserin sääntö tai rikkoutuneen kepin sääntö eivät läpäise tätä testiä, koska komponentin "häntä", jolla on pienet ominaisarvot, siirtää estimaattia ja lisää mittasuhteita. Tätä puutetta ei ole ehtoluvun arviossa. [7] [8] Korrelaatiomatriisin ehtoluku on sen suurimman ominaisarvon suhde minimiin : . Suuri arvo tarkoittaa huonosti ehdollista ja monikollineaarista . Jäljellä olevien komponenttien määrän määrittämiseksi valitaan tietty arvo multikollineaarisuuden kynnykselle ja komponentit, joille . Näin ollen muissa komponenteissa ei ole multikollineaarisuutta. Datan ulottuvuus arvioidaan kovarianssimatriisin ominaisarvojen lukumääränä, joka ylittää kiinteän murto-osan ( ) suurimmasta ominaisarvostaan. Kynnyksen valinta määräytyy ongelman erityispiirteiden mukaan. Lukuisat numeeriset kokeet osoittavat, että valinta vaihtelee alhaisesta "kohtalaiseen" monikollineaarisuuteen säilytetyissä komponenteissa ja on hyväksyttävä moniin tietojenkäsittelyongelmiin. [7] [9] $\lambda _{1}$ $\lambda_n$ $\kappa =\lambda _{1}/\lambda _{n}$ $\kappa$ $\kappa _{0}>1$ ${\displaystyle \lambda _{i}>{\frac {\lambda _{n)){\kappa _{0))))$ $1/{\kappa _{0))$ ${\displaystyle \kappa _{0))$ $\kappa _{0}=10$

Normalisointi

Normalisointi pääkomponenttien vähentämisen jälkeen

Ensimmäisiin pääkomponentteihin projisoinnin jälkeen on kätevää normalisoida yksikkö(näyte)varianssi akseleita pitkin. Dispersio pitkin pääkomponenttia on yhtä suuri kuin ), joten normalisointia varten on tarpeen jakaa vastaava koordinaatti arvolla . Tämä muunnos ei ole ortogonaalinen eikä säilytä pistetuloa. Normalisoinnin jälkeen dataprojektion kovarianssimatriisista tulee yksikkö, mihin tahansa kahteen ortogonaaliseen suuntaan projektioista tulee itsenäisiä suureita ja mistä tahansa ortonormaalista kannasta tulee pääkomponenttien perusta (muista, että koordinaattikohtainen normalisointi muuttaa vektorien ortogonaalisuussuhdetta). Alkutietoavaruuden kartoitus ensimmäisiin pääkomponentteihin yhdessä normalisoinnin kanssa annetaan matriisin avulla $k$ $\lambda _{1}\geq \lambda _{2}\geq \ldots \geq \lambda _{k}>0$ $i$ $\lambda_i > 0 \; (1 \le i \le k$ $\sqrt{ \lambda_i}$ $k$

K=\left \{\frac{a_1}{\sqrt{ \lambda_1)),\frac{a_2}{\sqrt{ \lambda_2)),...,\frac{a_k}{\sqrt{ \lambda_k}} \oikea \}^T

Juuri tätä muutosta kutsutaan useimmiten Karhunen-Loeve-muunnokseksi. Tässä on sarakevektorit, ja yläindeksi tarkoittaa transponointia. $a_i$ $T$

Normalisointi pääkomponenttien laskemiseen

Varoitus : älä sekoita pääkomponenttien muuntamisen jälkeen suoritettua normalisointia tietojen esikäsittelyn aikana tapahtuvaan normalisointiin ja "ulottumattomuuteen" , joka suoritettiin ennen pääkomponenttien laskemista. Esinormalisointia tarvitaan järkevään metriikkaan, jossa lasketaan tietojen paras approksimaatio tai haetaan suurimman hajonnan suuntia (joka on ekvivalentti). Jos data on esimerkiksi kolmiulotteisia "metrien, litran ja kilogramman" vektoreita, standardieuklidisen etäisyyden avulla 1 metrin ero ensimmäisessä koordinaatissa antaa saman vaikutuksen kuin 1 litran ero toisessa. tai 1 kg kolmannessa . Yleensä yksikköjärjestelmät, joissa alkuperäinen data esitetään, eivät heijasta tarkasti käsityksiämme akseleiden luonnollisista asteikoista, ja suoritetaan " ei- dimensioiminen ": jokainen koordinaatti jaetaan tiettyyn mittakaavaan, jonka data määrittää, niiden käsittelyn tarkoitukset sekä tietojen mittaus- ja keräämisprosessit.

Tällaiseen normalisointiin on kolme merkittävästi erilaista standardilähestymistapaa: yksikkövarianssiin akseleita pitkin (asteikot akseleilla ovat yhtä suuret kuin keskihajonnat - tämän muunnoksen jälkeen kovarianssimatriisi osuu yhteen korrelaatiokertoimien matriisin kanssa ), yhtä suureen mittaustarkkuuteen . (akselin asteikko on verrannollinen tietyn arvon mittaustarkkuuteen) ja yhtäläisillä vaatimuksilla tehtävässä (akselin mittakaava määräytyy tietyn arvon ennusteen vaaditun tarkkuuden tai sen sallitun vääristymän - tason mukaan suvaitsevaisuudesta). Esikäsittelyn valintaan vaikuttavat ongelman mielekäs ilmaisu sekä tiedonkeruun ehdot (esimerkiksi jos tiedonkeruu on pohjimmiltaan epätäydellinen ja tiedot silti vastaanotetaan, ei ole järkevää valita tiukasti normalisointia yksikkövarianssilla, vaikka tämä vastaisikin ongelman tarkoitusta, koska tämä tarkoittaa kaikkien tietojen uudelleennormaalimista uuden osan vastaanottamisen jälkeen; on järkevämpää valita jokin asteikko, joka arvioi karkeasti keskihajonnan, eikä sitä sitten muuteta) .

Esinormalisointi yksikkövarianssiin akseleita pitkin tuhoutuu koordinaattijärjestelmän pyörityksellä, jos akselit eivät ole pääkomponentteja, eikä tietojen esikäsittelyn aikana suoritettava normalisointi korvaa normalisointia pääkomponenteiksi pelkistyksen jälkeen.

Mekaaninen analogia ja pääkomponenttianalyysi painotetuille tiedoille

Jos annamme kullekin datavektorille yksikkömassan, niin empiirinen kovarianssimatriisi osuu yhteen tämän pistemassajärjestelmän inertiatensorin kanssa (jaettuna kokonaismassalla ), ja pääkomponenttien ongelma osuu yhteen ongelman tuomisen kanssa. inertiatensori pääakseleille. Lisävapautta massaarvojen valinnassa voidaan käyttää ottamaan huomioon tietopisteiden tärkeys tai niiden arvojen luotettavuus (tärkeille tiedoille tai luotettavammista lähteistä saatavalle tiedolle osoitetaan suurempia massoja). Jos datavektorille annetaan massa , niin empiirisen kovarianssimatriisin sijaan saamme $C$ $m$ $x_l$ $w_l$ $C$

C^w = [c^w_{ij}],\ c^w_{ij} = \frac{1}{\sum_{l} w_l} \sum_{l=1}^m w_l(x_{ li}-\overline{X_{i}})(x_{lj}-\overline{X_{j}}).

Kaikki muut pääkomponentteihin pelkistävät toiminnot suoritetaan samalla tavalla kuin menetelmän pääversiossa: etsitään ortonormaali ominaiskanta , ominaisarvot järjestetään laskevassa järjestyksessä, dataapproksimaation painotettu keskivirhe Ensimmäiset komponentit estimoidaan (ominaisarvojen summalla ), suoritetaan normalisointi ja niin edelleen. $C^w$ $k$ $C^w$

Yleisempi painotustapa on maksimoida projektioiden välisten pareittain olevien etäisyyksien [10] painotettu summa . Jokaiselle kahdelle datapisteelle syötetään paino ; ja . Empiirisen kovarianssimatriisin sijasta käytämme $x_l , \ x_q$ ${\displaystyle d_{lq))$ ${\displaystyle d_{lq}=d_{ql))$ ${\displaystyle d_{l}=\sum_{q=1}^m d_{lq))$ $C$

C^d = [c^d_{ij}],\ c^d_{ij} =\sum_{l=1}^m d_l (x_{li}-\overline{X_{i)))( x_{lj}-\overline{X_{j}}) -\sum_{l \neq q, \ l,q=1}^m d_{lq}(x_{li} - \overline{X_{i}} )(x_{qj}- \overline{X_{j}}).

Sille , symmetrinen matriisi on positiivinen, koska neliömuoto on positiivinen: $d_{lq}>0$ $C^d$

\sum_{ij} c^d_{ij}a_i a_j = \frac{1}{2}\sum_{lq}d_{lq}\left(\sum_ia_i(x_{li}-x_{qi}) \oikea)^2.

Seuraavaksi etsitään ortonormaali ominaiskanta , järjestellään se ominaisarvojen laskevaan järjestykseen, arvioidaan ensimmäisten komponenttien dataapproksimaation painotettu keskivirhe jne. - täsmälleen samalla tavalla kuin pääalgoritmissa. $C^d$ $k$

Tätä menetelmää käytetään luokkien läsnä ollessa: eri luokille paino valitaan suuremmiksi kuin saman luokan pisteille. Tämän seurauksena painotettujen pääkomponenttien projektiossa eri luokat "siirretään erilleen" suuremmalla etäisyydellä. $x_l , \ x_q$ ${\displaystyle d_{lq))$

Toinen sovellus on vähentää suurten poikkeamien, ns. poikkeamien (en.:outlier) vaikutusta, jotka voivat vääristää kuvaa neliöetäisyyden keskiarvon käytön vuoksi: jos valitset , suurten poikkeamien vaikutus on vähennetty. Siten kuvattu pääkomponenttimenetelmän muunnos on vankempi kuin klassinen. $d_{lq}=1/ \| x_l -x_q \|$

Erikoisterminologia

Tilastoissa pääkomponenttien menetelmää käytettäessä käytetään useita erikoistermejä.

Datamatriisi - ; jokainen rivi on esikäsitellyn tiedon vektori ( keskitetty ja oikein normalisoitu ), rivien määrä on (tietovektoreiden määrä), sarakkeiden määrä on (tietoavaruuden ulottuvuus); $\mathbf{X}=\{x_1,... x_m\}^T$ $m$ $n$
Kuormien matriisi ( englanniksi loadings ) - ; jokainen sarake on pääkomponenttivektori, rivien lukumäärä on (tietoavaruuden ulottuvuus), sarakkeiden määrä on (projektioon valittujen pääkomponenttivektorien lukumäärä); $\mathbf{P}=\{a_1,... a_k\}$ $n$ $k$
Pisteet matriisi ( englanninkieliset tulokset ) - ; jokainen rivi on datavektorin projektio pääkomponenteille; rivien määrä - (tietovektorien lukumäärä), sarakkeiden lukumäärä - (projektioon valittujen pääkomponenttivektorien lukumäärä); $\mathbf{T}=[t_{ij}]; \; t_{ij}=(x_i,a_j)$ $k$ $m$ $k$
Pisteiden matriisi $Z$ ( englanti -scores ) - ; jokainen rivi on datavektorin projektio pääkomponenteille normalisoituna yksikkönäytevarianssiin; rivien määrä - (tietovektorien lukumäärä), sarakkeiden lukumäärä - (projektioon valittujen pääkomponenttivektorien lukumäärä); $Z$ $\mathbf{Z}=[z_{ij}]; \; z_{ij}=\frac{(x_i,a_j)}{\sqrt{ \lambda_j))$ $k$ $m$ $k$
Virheiden (tai jäännösten ) matriisi ( englanninkieliset errors or residuals ) - . $\mathbf{E}=\mathbf{X}-\mathbf{T}\mathbf{P}^T$
Peruskaava: . ${\displaystyle \mathbf{X}=\mathbf{T}\mathbf{P}^T+\mathbf{E))$

Menetelmän sovellettavuuden ja tehokkuuden rajoitukset

Pääkomponenttimenetelmää sovelletaan aina. Yleinen väite, että se pätee vain normaalisti jakautuneisiin tietoihin (tai jakaumiin, jotka ovat lähellä normaalia), on virheellinen: Pearsonin alkuperäisessä muotoilussa ongelmana on rajallisen datajoukon approksimointi , eikä niiden tilastollisesta muodostumisesta ole edes hypoteesia. jakelusta puhumattakaan.

Menetelmä ei kuitenkaan aina vähennä mittasuhteita tehokkaasti tietyissä tarkkuusrajoituksissa . Suorat viivat ja tasot eivät aina anna hyvää likiarvoa. Data voi esimerkiksi seurata jotakin käyrää hyvällä tarkkuudella, ja tätä käyrää voi olla vaikea paikantaa tietoavaruudessa. Tässä tapauksessa pääkomponenttimenetelmä hyväksyttävän tarkkuuden saavuttamiseksi vaatii useita komponentteja (yhden sijasta) tai se ei vähennä mitoitusta ollenkaan hyväksyttävällä tarkkuudella. Tällaisten pääkomponenttien "käyrien" kanssa työskentelyä varten keksittiin pääjakoputkien menetelmä [12] ja erilaisia versioita pääkomponenttien epälineaarisesta menetelmästä [13] [14] . Lisää ongelmia voi tuottaa monimutkaisia topologiatietoja. Niiden lähentämiseen on myös keksitty erilaisia menetelmiä, kuten itseorganisoituvia Kohosen karttoja , hermokaasua [15] tai topologisia kielioppeja [11] . Jos data on tilastollisesti tuotettu jakaumalla, joka poikkeaa hyvin normaalista, niin jakauman approksimointia varten on hyödyllistä siirtyä pääkomponenteista itsenäisiin komponentteihin [16] , jotka eivät ole enää ortogonaalisia alkuperäisessä pistetulossa. Lopuksi isotrooppiselle jakaumalle (jopa normaalille) saadaan sironneen ellipsoidin sijasta pallo, jonka mittaa on mahdotonta pienentää approksimaatiomenetelmillä. $\delta_k$

Käyttöesimerkkejä

Tietojen visualisointi

Datan visualisointi on kokeellisen tiedon tai teoreettisen tutkimuksen tulosten esittely visuaalisessa muodossa.

Ensimmäinen vaihtoehto tietojoukon visualisoinnissa on ortogonaalinen projektio kahden ensimmäisen pääkomponentin (tai kolmen ensimmäisen pääkomponentin 3D-avaruuden) tasoon. Projektitaso on olennaisesti tasainen kaksiulotteinen "ruutu", joka on sijoitettu siten, että saadaan "kuva" tiedosta vähiten vääristymällä. Tällainen projektio on optimaalinen (kaikkien ortogonaalisten projektioiden joukossa eri kaksiulotteisilla näytöillä) kolmessa suhteessa:

Vähimmäissumma neliöetäisyyksien datapisteistä ensimmäisten pääkomponenttien tason projektioihin, eli näyttö sijaitsee mahdollisimman lähellä pistepilveä.
Kaikkien pisteparien välisten neliöityjen etäisyyksien pienin vääristymien summa datapilvestä pisteiden projisoinnin jälkeen tasolle.
Kaikkien datapisteiden ja niiden "painopisteen" välisten neliöityjen etäisyysvääristymien vähimmäissumma.

Datan visualisointi on yksi yleisimmin käytetyistä pääkomponenttianalyysin ja sen epälineaaristen yleistysten sovelluksista [2] .

Kuvan ja videon pakkaus

Pikselien spatiaalisen redundanssin vähentämiseksi kuvia ja videoita koodattaessa käytetään pikselilohkojen lineaarista muuntamista. Saatujen kertoimien myöhempi kvantisointi ja häviötön koodaus mahdollistavat merkittävien pakkauskertoimien saamisen. PCA-muunnoksen käyttö lineaarimuunnoksena on optimaalinen joillekin tietotyypeille vastaanotetun datan koon suhteen samalla vääristymällä [17] . Tällä hetkellä tätä menetelmää ei käytetä aktiivisesti lähinnä suuren laskennallisen monimutkaisuuden vuoksi. Myös tietojen pakkaus voidaan saavuttaa hylkäämällä viimeiset muunnoskertoimet.

Kohinanvaimennus kuvissa

Menetelmän [18] pääolemus on, että kun poistat kohinaa pikselilohkosta, esitä tämän lohkon lähialue pisteiden joukkona moniulotteisessa avaruudessa, käytä siihen PCA:ta ja jätä vain muunnoksen ensimmäiset komponentit. . Oletetaan, että ensimmäiset komponentit sisältävät tärkeimmän hyödyllisen tiedon, kun taas muut komponentit sisältävät tarpeetonta kohinaa. Käyttäen käänteistä muunnosa pääkomponenttien kannan pienentämisen jälkeen saadaan kuva ilman kohinaa.

Videon indeksointi

Pääideana on esittää jokaista videokehystä useilla arvoilla PCA:lla, jota käytetään myöhemmin tietokannan rakentamisessa ja siihen liittyvissä kyselyissä. Tällainen merkittävä tietojen väheneminen mahdollistaa huomattavasti työskentelyn nopeuden lisäämisen ja vastustuksen useille videon vääristymille.

Bioinformatiikka

Pääkomponenttianalyysiä käytetään intensiivisesti bioinformatiikassa kuvausulottuvuuden pienentämiseen, merkityksellisen tiedon poimimiseen, datan visualisoimiseen jne. Yksi yleisimmistä käyttötapauksista on vastaavuusanalyysi [19] [20] [21] . Kuvissa (kuvat A, B) geneettinen teksti [22] esitetään pistejoukona 64-ulotteisessa triplettitaajuuksien avaruudessa. Jokainen piste vastaa DNA - fragmenttia 300 nukleotidin pituisessa liukuvassa ikkunassa (DNA-kävely). Tämä fragmentti jaetaan ei-päällekkäisiksi tripleteiksi ensimmäisestä paikasta alkaen. Näiden kolmosten suhteelliset taajuudet fragmentissa muodostavat 64-ulotteisen vektorin. Kuvassa Projisointi Streptomyces coelicolor -bakteerin genomin kahteen ensimmäiseen pääkomponenttiin esitetään. Kuvassa B näyttää projektion ensimmäisille 3 pääkomponentille. Punaisen ja ruskean sävyt korostavat koodaavien sekvenssien fragmentteja eteenpäin DNA-juosteessa ja vihreät korostavat koodaavien sekvenssien fragmentteja käänteisessä DNA-juosteessa. Koodaamattomaan osaan kuuluvat fragmentit on merkitty mustalla. Tunnetuimpien bakteerigenomien pääkomponenttianalyysi on esitetty erikoistuneella verkkosivustolla [23] .

Chemometrics

Pääkomponenttimenetelmä on yksi kemometrian päämenetelmistä . Mahdollistaa alkutietojen X matriisin jakamisen kahteen osaan: "merkittävä" ja "kohina".

Psykodiagnostiikka

Psykodiagnostiikka on yksi pääkomponenttien menetelmän kehittyneimmistä sovellusalueista [24] . Käyttöstrategia perustuu hypoteesiin kokeellisen tiedon olevan itsestään informatiivista, mikä tarkoittaa, että diagnostinen malli voidaan luoda approksimoimalla objektijoukon geometrista rakennetta alkuominaisuuksien avaruudessa. Hyvä lineaarinen diagnostiikkamalli voidaan rakentaa, kun merkittävä osa alkuperäisistä ominaisuuksista on sisäisesti johdonmukainen. Jos tämä sisäinen johdonmukaisuus heijastaa haluttua psykologista rakennetta , niin lineaarisen diagnostisen mallin parametrit (ominaisuuspainot) annetaan pääkomponenttien menetelmällä.

Ekonometria

Pääkomponenttianalyysi on yksi ekonometriikan keskeisistä työkaluista , sillä sitä käytetään tietojen visualisointiin, mallien ytimekkyyden varmistamiseen, laskennan ja tulkinnan yksinkertaistamiseen sekä tallennettujen tietojen pakkaamiseen. Menetelmä tarjoaa maksimaalisen informaatiosisällön ja lähdetietojen geometrisen rakenteen minimaalisen vääristymän.

Sosiologia

Sosiologiassa menetelmä on välttämätön kahden ensimmäisen päätehtävän ratkaisemiseksi [ 25] :

tietojen analysointi (selvitysten tai muiden tutkimusten tulosten kuvaus, joka esitetään numeeristen tietojen taulukoiden muodossa);
yhteiskunnallisten ilmiöiden kuvaus (ilmiömallien rakentaminen, mukaan lukien matemaattiset mallit).

Valtio-oppi

Valtiotieteessä pääkomponenttimenetelmä oli Political Atlas of Modernity -projektin [26] päätyökalu 192 maailman maan luokituksen lineaariseen ja epälineaariseen analyysiin viiden erityisesti kehitetyn integraaliindeksin (elintaso, kansainvälinen vaikutus, uhat, valtiollisuus ja demokratia). Tämän analyysin tulosten kartoittamista varten on kehitetty erityinen paikkatietojärjestelmä , joka yhdistää maantieteellisen tilan ominaisuusavaruuteen. Myös poliittisia kartastodatakarttoja on luotu käyttämällä taustana 2D-pääjoukkoja 5D-maatilassa. Datakartan ja maantieteellisen kartan ero on siinä, että maantieteellisellä kartalla lähellä on kohteita, joilla on samanlaiset maantieteelliset koordinaatit, kun taas datakartalla on kohteita (maita), joilla on samankaltaisia ominaisuuksia (indeksejä).

Dynaamisten mallien ulottuvuuden pienentäminen

Ulottuvuuden kirous vaikeuttaa monimutkaisten järjestelmien mallintamista. Mallin ulottuvuuden pienentäminen on välttämätön edellytys simulaation onnistumiselle. Tämän tavoitteen saavuttamiseksi on luotu laaja matemaattinen tekniikka. Näissä ongelmissa käytetään myös pääkomponenttianalyysiä (kutsutaan usein oikeaksi ortogonaaliksi hajotukseksi ( POD ) ). Esimerkiksi turbulenssin dynamiikkaa kuvattaessa dynaamiset muuttujat – nopeuskenttä – kuuluvat äärettömän ulottuvuuden avaruuteen (tai jos kenttä esitetään sen arvoilla riittävän hienossa ruudukossa, äärellisulotteiseen avaruuteen korkea ulottuvuus). Voit ottaa suuren kokoelman hetkellisiä kenttäarvoja ja soveltaa pääkomponenttianalyysiä tähän moniulotteisten "tietovektoreiden" joukkoon. Näitä pääkomponentteja kutsutaan myös empiirisiksi ominaisvektoreiksi . Joissakin tapauksissa ( rakenteellinen turbulenssi ) menetelmä antaa vaikuttavan mittasuhteen pienenemisen [27] . Tämän dynaamisen mallin pelkistystekniikan muut sovellukset ovat äärimmäisen erilaisia kemiantekniikan teoreettisista perusteista oceanologiaan ja klimatologiaan .

Ruoan aistinvarainen arviointi

Pääkomponenttien menetelmä sai sovelluksensa elintarvikkeiden ominaisuuksien aistinvaraisessa (aistinvaraisessa) arvioinnissa [28] . Pääkomponenttianalyysi (PCA) mahdollistaa elintarvikkeiden luokittelun tapauksissa, joissa niiden ominaisuuksien karakterisoimiseen käytetään samanaikaisesti suurta määrää kuvaajia, esimerkiksi arvioitaessa viinin, [29] marmeladin, [30] ekstrudoitujen elintarvikkeiden ominaisuuksia, [31] juusto, [32] ja muut.

Vaihtoehtoja ja yleistyksiä

Pääkomponenttimenetelmä on yleisin lähestymistapa dimensioiden vähentämiseen , mutta on olemassa muitakin menetelmiä, erityisesti itsenäisten komponenttien menetelmä , moniulotteinen skaalaus sekä lukuisia epälineaarisia yleistyksiä: pääkäyrien ja monistojen menetelmä, menetelmä elastisten karttojen , parhaan projektion etsintä ( eng. Projection Pursuit ), pullonkaulahermoverkkomenetelmät , itseorganisoituvat Kohosen kartat .

Katso myös

SSA (menetelmä)

Muistiinpanot

↑ Itse asiassa menetelmä on empiirinen toteutus Karhunen-Loeven lauseesta , jonka mukaan mikä tahansa satunnainen prosessi voidaan esittää äärettömänä sarjana ortogonaalisia funktioita . Myös venäjänkielisessä tieteellisessä kirjallisuudessa kirjoitustapa " Karunen-Loev-muunnos " on yleinen , mikä vastaa suomenkielisen sukunimen englanninkielistä tulkintaa.
↑ 1 2 Zinoviev A. Yu. , Moniulotteisen datan visualisointi Arkistokopio 6. maaliskuuta 2019 Wayback Machinessa , Krasnojarsk, toim. KSTU, 2000.
↑ Bau III, D., Trefethen, LN , Numeerinen lineaarinen algebra Arkistoitu 7. huhtikuuta 2022, Wayback Machine , Philadelphia: Society for Industrial and Applied Mathematics, 1997. (Luento 31) ISBN 978-0-891871-3
↑ F. R. Gantmakher , Matrix Theory. - M .: Nauka, 1966. - 576 sivua.
↑ Rossiev A. A. ,: Epätäydellisten tietojen iteratiivinen mallintaminen pieniulotteisia jakoputkia käyttäen Arkistoitu 6. maaliskuuta 2019 Wayback Machinessa , Venäjän tiedeakatemian Siperian sivuliikkeen kustantaja, 2005.
↑ Cangelosi R. , Goriely A. , Komponenttien säilyminen pääkomponenttianalyysissä cDNA-mikrosirutietoihin sovellettaessa Arkistoitu 9. maaliskuuta 2008, Wayback Machine , Biology Direct 2007, 2:2. Myös PCA:n verkkosivuilla Arkistoitu 16. maaliskuuta 2019 Wayback Machinessa .
↑ 1 2 3 Mirkes, Evgeny M.; Allohibi, Jeza; Gorban, Aleksanteri. "Fraktionormit ja kvasinormit eivät auta voittamaan ulottuvuuden kirousta" Entropia 22, 2020 nro. 10:1105. https://doi.org/10.3390/e22101105
↑ Fukunaga, K.; Olsen, D. R. Algoritmi tiedon sisäisen ulottuvuuden löytämiseksi. IEEE Trans. Comput. 1971, C-20, 176-183 https://doi.org/10.1109/TC.1971.223208
↑ Dormann CF, Elith J., Bacher S., Buchmann C., Carl G., Carré G., Marquéz JR, Gruber B., Lafourcade B., Leitão PJ, Münkemüller T. Kollineaarisuus: katsaus menetelmiin käsitellä se ja simulaatiotutkimus, jossa arvioidaan niiden suorituskykyä. Ecography 36(1), 27-46 (2013). https://doi.org/10.1111/j.1600-0587.2012.07348.x
↑ Koren Y., Carmel L., Robust linear dimensionality vähentäminen, IEEE Transactions on Visualization and Computer Graphics, 10 (4) (2004), 459-470. Myös PCA:n verkkosivuilla Arkistoitu 16. maaliskuuta 2019 Wayback Machinessa
↑ 1 2 Menetelmän kuvaus löytyy artikkelista: Gorban AN , Sumner NR ja Zinovyev AY , Topologiset kieliopit tietojen approksimaatioon, Applied Mathematics Letters, Volume 20, Issue 4 (2007), 382-386; tai Gorban AN , Sumner NR ja Zinovyev AY , Beyond The Concept of Manifolds: Principal Trees, Metro Maps and Elastic Cubic Complexes Arkistoitu 6. maaliskuuta 2019 Wayback Machinessa julkaisussa: Gorban AN et al (Toim.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0 ; ja myös arXiv
↑ Pääjakoputkien tutkimus alkoi tällä työllä. T. Hastien väitöskirja : Hastie T. , Pääkäyrät ja pinnat käsitelty 10/03/2022 Arkistoitu 10. maaliskuuta 2022 Wayback Machinessa , Ph.D Dissertation, Stanford Linear Accelerator Center, Stanford University, Stanford, Kalifornia, Yhdysvallat, marraskuu 1984 Arkistoitu Myös PCA:n verkkosivuilla 6. maaliskuuta 2019 Wayback Machinessa
↑ Scholz M., Fraunholz M., Selbig J. , Nonlinear Principal Component Analysis: Neural Network Models and Applications Arkistoitu 6. maaliskuuta 2019 Wayback Machinessa , julkaisussa: Gorban AN et al (Toim.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
↑ Yin H. Learning Nonlinear Principal Manifolds by Self-Organising Maps Arkistoitu 6. maaliskuuta 2019 at the Wayback Machine
↑ Martinetz, TM, Berkovich, SG ja Schulten KJ , Neural-gas verkko vektorikvantisointiin ja sen soveltamiseen aikasarjan ennustamiseen. Arkistoitu 16. heinäkuuta 2019 osoitteessa Wayback Machine IEEE Transactions on Neural Networks, 4 (1993) #4, 558-569 . PCA - verkkosivustolta Arkistoitu 16. maaliskuuta 2019 Wayback Machinessa
↑ Hyvdrinen A, Karhunen J. ja Oja E. , Independent Component Analysis, osa Wiley-sarjassa adaptiivisista ja oppimisjärjestelmistä signaalinkäsittelyyn, tietoliikenteeseen ja ohjaukseen. — John Wiley & Sons, Inc., 2001. — XVI+481 s. ISBN 0-471-40540-X
↑ Rao, K., Yip P. (toim.), The Transform and Data Compression Handbook, CRC Press, Baton Rouge, 2001.
↑ Muresan DD, Parks TW , Adaptive Principal Components and Image Denoising Arkistoitu 16. heinäkuuta 2019 Wayback Machinessa , julkaisussa: Image Processing, 2003, Proceedings 2003 IEEE International Conference on Image Processing (ICIP), 14.-17.9. 2003, v. 1, s. I-101-104. PCA - verkkosivustolta Arkistoitu 16. maaliskuuta 2019 Wayback Machinessa
↑ Englanti. Kirjeenvaihto-analyysi
↑ Benzécri, J.-P. , L'Analysis des Donnees. Osa II. L'Analyse des Correspondences, Dunod, Paris, Ranska, 1973.
↑ Tekaia F. , Correspondence Analysis in Genome Exploration Arkistoitu 12. elokuuta 2007 Wayback Machinessa .
↑ Katso artikkeli Käännös (biologia)
↑ Zinovjev A. , Сlusterirakenteet genomisten sanan frekvenssijakaumissa Arkistoitu 10. maaliskuuta 2019 Wayback Machinessa ; ja myös arXiv:ssa: PCA ja K-Means purkavat genomin Arkistoitu 24. heinäkuuta 2019 Wayback Machinessa .
↑ Duke V. A., Computer psychodiagnostics, Pietari, 1994; katso yksittäiset osiot Psi Factor -verkkosivustolla Arkistoitu 28. huhtikuuta 2019 Wayback Machinessa
↑ Guts A. K., Frolova Yu. V. , Matemaattiset menetelmät sosiologiassa Arkistokopio päivätty 21. tammikuuta 2022 Wayback Machinessa , Sarja: Synergetics: menneisyydestä tulevaisuuteen. - Kustantaja "URSS", 2007. - 216 s.
↑ Modernin poliittinen atlas: kokemus nykyaikaisten valtioiden poliittisten järjestelmien moniulotteisesta tilastollisesta analyysistä. Arkistokopio päivätty 21. tammikuuta 2022 Wayback Machinessa - M .: MGIMO-University Publishing House, 2007. - 272 s.
↑ Berkoos G, Holmes Ph. ja. Lumley J. L , The right orthogonal decomposition in the analysis of turbulent flows, Arkistoitu 16. heinäkuuta 2019, Wayback Machine Annu. Rev. FluidMech. 25 (1993), 539-575. Ensimmäinen turbulenssianalyysin julkaisu on Lumley, JL , The structure of inhomogenous turbulence. Julkaisussa Atmospheric Turbulence and Wave Propagation, toim. A. M. Yaglom, VI Tatarski, s. 166-178. Moskova, Nauka, 1967 (kuvituksineen ja karttoineen. (AN SSSR. Departmental Geophysical Committee. Institute of Atmospheric Physics). On mielenkiintoista, että näiden teosten tekijät seuraavat Kosambin (1943), Loevin teosten lähestymistavan historiaa. (1945), Karhunen (1946), Pugachev (1953) ja Obukhov (1954), kiinnittämättä huomiota Pearsonin työhön ja menetelmän 40 vuoden aikaisempaan historiaan.
↑ Harry T. Lawless, Hildegarde Heymann. Tietosuhteet ja monimuuttujasovellukset (englanniksi) // Food Science Text Series. — New York, NY: Springer New York, 2010. — S. 433–449 . - ISBN 9781441964878 , 9781441964885 . - doi : 10.1007/978-1-4419-6488-5_18 . Arkistoitu alkuperäisestä 9. kesäkuuta 2018.
↑ Korrelaatio haihtuvan koostumuksen ja aistinvaraisten ominaisuuksien välillä espanjalaisissa Albariño-viineissä // Microchemical Journal. – 01.07.2010. — Voi. 95 , iss. 2 . — s. 240–246 . — ISSN 0026-265X . - doi : 10.1016/j.microc.2009.12.007 .
↑ Nataliya V Zhilinskaya, Varuzhan A Sarkisyan, Valentina M Vorobieva, Irina S Vorobieva, Alla A Kochetkova, Elena A Smirnova, Irina V Glazkova. Marmeladin kehittäminen tyypin 2 diabetespotilaille: Sensoriset ominaisuudet ja hyväksyttävyys (englanniksi) // Food Science and Technology International: aikakauslehti. - 2018 - 7. kesäkuuta. — ISSN 10820132 .
↑ Tekstuuriprofiili ja korrelaatio ekstrudoitujen välipalojen aistinvaraisten ja instrumentaalisten analyysien välillä // Journal of Food Engineering. – 1.1.2014. — Voi. 121 . - s. 9-14 . — ISSN 0260-8774 . - doi : 10.1016/j.jfoodeng.2013.08.007 . Arkistoitu alkuperäisestä 17. kesäkuuta 2022.
↑ Uuden vähärasvaisen juuston aistinvaraisten ominaisuuksien ja markkina-aseman karakterisointi // Innovative Food Science & Emerging Technologies. – 1.1.2014. — Voi. 21 . — s. 169–178 . — ISSN 1466-8564 . - doi : 10.1016/j.ifset.2013.10.003 .

Kirjallisuus

klassisia teoksia

Pearson, K. , Linjoista ja tasoista, jotka parhaiten sopivat avaruuden pistejärjestelmiin, Philosophical Magazine, (1901) 2, 559-572; ja myös PCA:n verkkosivuilla .
Sylvester JJ , N:nnen kertaluvun bilineaarisen kvantin pelkistämisestä n:n tuotteen summan muotoon ortogonaalisen kaksoissubstituution avulla, Messenger of Mathematics, 19 (1889), 42-46; ja myös PCA:n verkkosivuilla .
Frećhet M. Les elements aléatoires de nature quelconque dans un espace distancié. Ann. Inst. H. Poincare 10 (1948), 215-310.

Perusoppaat

Ayvazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Sovellettu tilasto. Luokittelu ja dimensioiden vähentäminen.- M.: Rahoitus ja tilastot, 1989.- 607 s.
Jolliffe IT Principal Component Analysis , Series: Springer Series in Statistics , 2nd ed., Springer, NY, 2002, XXIX, 487 s. 28 illus. ISBN 978-0-387-95442-4

Ajankohtaisia arvosteluja

Gorban AN, Kegl B., Wunsch D., Zinovyev AY (Toim.), Datan visualisoinnin ja dimensioiden vähentämisen pääjakojärjestelmät , Sarja: Laskennallisen tieteen ja tekniikan luentomuistiinpanot 58, Springer, Berliini-Heidelberg-New York, 2007, XXIV , 340 s. 82illus. ISBN 978-3-540-73749-0 (myös verkossa ).

Koulutusohjelmistot

Pääkomponenttianalyysi ja itseorganisoituvat kartat Java-sovelma (EM Mirkes, pääkomponenttianalyysi ja itseorganisoituvat kartat: sovelma . University of Leicester, 2011). Ilmainen ohjelmisto pääkomponenttien, itseorganisoitujen karttojen (SOM) ja kasvavien itseorganisoitujen karttojen (GSOM) malleilla. Algoritmien kuvaus (englanniksi) on annettu, käsikirjat ja joitain julkaisuja on annettu. Käytetään pienten opiskelijoiden tutkimustyön tekemiseen, jossa verrataan erilaisia datansovitusalgoritmeja.

Linkit

Kurssi "Kielellisen tiedon analyysi: kvantitatiiviset menetelmät ja visualisointi"
Pääkomponenttien analyysin opetusohjelma , Jonathon Shlens, 22, 2009; Versio 3.01.
Epälineaarinen pääkomponenttimenetelmä (kirjastosivusto)
Online-opas "Principal Component Method (PCA)" ja esimerkkejä Excel-työkirjassa, Alexey Pomerantsev.

Sanakirjat ja tietosanakirjat	iso kiinalainen iso kiinalainen iso kiinalainen Iso venäläinen
Bibliografisissa luetteloissa	BNF : 11942895w GND : 4129174-8 J9U : 987007536366205171 LCCN : sh85106729

Koneoppiminen ja tiedon louhinta
Tehtävät	Luokittelu ongelma Oppiminen ilman opettajaa Opettajan avustama oppiminen Taantumisanalyysi AutoML Yhdistyksen säännöt Ominaisuuksien erottaminen Ominaisuuksien koulutus Ranking koulutus Kieliopillinen johtaminen Verkko-oppiminen
Opettajan kanssa oppimista	k-lähimmän naapurin menetelmä Naiivi Bayesin luokitin päätöspuu Tuki vektorikonetta Lineaarinen regressio Logistinen regressio perceptron Mallien kokoonpanot Pussittaminen tehostaa satunnainen metsä Asiaankuuluva vektorimenetelmä
ryhmäanalyysi	k-keinomenetelmä Sumea klusterointimenetelmä Hierarkkinen klusterointi EM-algoritmi KOIVU PARANTAA DBSCAN OPTIIKKA Keskimääräinen siirto
Mittasuhteiden vähentäminen	Tekijäanalyysi Pääkomponenttimenetelmä CCA ICA LDA Ei-negatiivinen matriisin laajennus t-SNE
Rakenteellinen ennustaminen	Graafinen todennäköisyysmalli Bayesin verkko Piilotettu Markovin malli CRF
Anomalian havaitseminen	k-lähimmän naapurin menetelmä Paikallinen päästötaso
Piirrä todennäköisyysmallit	Bayesin verkko Markovin verkko Piilotettu Markovin malli
Neuroverkot	Rajoitettu Boltzmann-kone itseorganisoituva kartta Aktivointitoiminto Sigmoidi softmax Radiaalinen kantafunktio Takaisin lisäysmenetelmä Syväoppiminen Monikerroksinen perceptroni Toistuva neuroverkko pitkä lyhytaikainen muisti Hallittu toistuva esto Konvoluutiohermoverkko U-verkko Autoenkooderi
Vahvistusoppiminen	Markovin prosessi Bellmanin yhtälö Ahne algoritmi Q-oppiminen SARSA Aikaero (TD)
Teoria	Vapnik-Chervonenkis teoria Bias-dispersion dilemma Laskennallinen oppimisteoria Empiirinen riskin minimointi Occam oppii PAC-oppiminen Tilastollinen oppimisteoria
Lehdet ja konferenssit	NeurIPS ICML ML JMLR ArXiv:cs.LG