Parhaan projektion etsintä ( eng. Projection Pursuit ) on tilastollinen menetelmä, jossa etsitään sellainen moniulotteisen datan projektio , jossa jokin projektion laatufunktio saavuttaa maksiminsa .
Vaikka ihmiset ovat hyviä visuaalisesti havaitsemaan tietoa, he pystyvät analysoimaan vain pienikokoisia kuvia . Moniulotteista dataa analysoitaessa kuvan havaitseminen ei toimi niin hyvin. Tämä ongelma ratkaistaan ottamalla huomioon kahden tai kolmen ulottuvuuden dataprojektiot. Dataprojektioiden visualisoimiseen käytetään tavallisia tekniikoita: sirontakaavioita , histogrammeja , laatikkokaavioita ja niin edelleen.
On tarpeen päättää, mikä projektio on "mielenkiintoisin". Yksi lähestymistavista "mielenkiintoisimman" projektion valinnan automatisoimiseksi perustuu seuraaviin näkökohtiin (selvyyden vuoksi tarkastelemme projektioa suoralle viivalle). Pidämme dataprojektiota "kiinnostavana", jos histogrammilla on normaalijakauman tiheys , kuten kuvassa 1.
Projektioita, joissa on kahden kärjen jakauma, kuten kuvassa 2, pidetään "mielenkiintoisina".
Mielestämme bimodaalinen (bimodaalinen) jakauma on kiinnostavampi, koska se osoittaa kahden klusterin mahdollisen esiintymisen tiedoissa.
"Mielenkiintoisimman" projektion etsimisen automatisoimiseksi käytetään erityisesti valittua laatutoimintoa, jota kutsutaan usein indeksiksi. Paras projektio on se, jonka laatutoiminto on maksimaalinen. Moniulotteisen datan projektion etsintää, joka perustuu jonkin projektion laadun funktion maksimointiin, kutsutaan parhaan projektion etsimiseksi (Projection Pursuit). Indeksin valinta määrittää, kuinka hyödyllinen tulos on. Kuvataan useita projektion laatufunktion muunnelmia.
Otetaan käyttöön notaatio. Olkoon -ulotteinen satunnaisvektori , niin oletetaan, että vektori on keskitetty, eli .
Merkitse - -ulotteinen numeerinen vektori, tämän vektorin löytäminen on ongelma löytää paras projektio, joka näyttää tältä .
Tässä tapauksessa datamatriisilla on ulottuvuus , vektori on datamatriisi.
Sitten indeksi määritellään lineaarisen yhdistelmän varianssiksi lisänormalisointiehdon kanssa .
Jerome Friedman ja John Tukey (1974) mittasivat, kuinka "mielenkiintoinen" monimuuttujajakauma on tarkastelemalla indeksiä
,
jossa tarkoittaa ytimen tiheysarviota , joka on saatu ennustetuista tiedoista,
.
Jos monimuuttujalla satunnaismuuttujalla on normaalijakauma, niin jokaisella projektiolla on standardi normaalijakauma, niin pitkä kuin ja keskitetty. Suhteellisen muutokset osoittavat poikkeamia normaalista.
Projektioindeksi määritellään , jossa on monimuuttujan satunnaismuuttujan , joka on datamatriisi, jakautumistiheys. Hyvin usein tiheyttä ei voida laskea eksplisiittisesti tai on paljon kätevämpää käyttää sen estimaattia tiheyden sijaan.
Hodges ja Lehman (1956) osoittivat, että josja, niin minimisaavutetaan Epanechnikov-tiheydellä, jonka muoto on, missäja. Tämä on parabolinen tiheysfunktio, joka on nolla välin ulkopuolella. Näin ollen, kun käytetään tällaista indeksiä, Epanechnikov-tiheys on vähiten kiinnostava. Suuri indeksiarvo ilmaisee suurta poikkeamaa parabolisesta muodosta.
Vaihtoehtoinen Hodges-Lehman-indeksi perustuu entropian maksimointiin , ts .
Jos ja , niin indeksin minimi saavutetaan normaalilla normaalitiheydellä. Tämä ominaisuus on indeksin etu edelliseen versioon verrattuna.
Todellakin näyttää intuitiivisesti siltä, että normaalijakauma on "vähemmän kiinnostava" kuin Epanetšnikov-jakauma. Näin ollen indeksillä mitataan jakauman poikkeama normaalista.
Toisena indeksinä voimme pitää Fisherin tietoja , .
Entropiaindeksiä laskettaessa kohtaamme suuria laskentavaikeuksia, joiden suorittaminen vaatii paljon aikaa, mikä ei tietenkään ole kovin kätevää.
Jones ja Sibson (1987) ehdottivat, että poikkeamia normaalitiheydestä pidettäisiin arvona , jos funktio täyttää ehdot
, klo
Jones-Sibson-indeksin laskennan yksinkertaistamiseksi on kätevää siirtyä kumulantteihin , .
Koska normaali normaalitiheys täyttää ehdon , indeksin tulee sisältää vähintään informaatiota symmetristen poikkeamien ( tai nollasta poikkeavien) tasoon asti normaalista. Yksinkertaisin näistä indekseistä on positiivinen määrätty neliömuoto ja . Tässä tapauksessa datan etumerkkiä muutettaessa tulisi olla invarianssia, alkaen ja , pitäisi saada samanlainen poikkeama normaalista. Huomaa, että se on outoa, eli . Ja - tasaisesti, eli . Normaalista poikkeamaa mittaava ja neliöllinen muoto ei sisällä sekakerrointa .
Siksi Jonesin ja Sibsonin ehdottama indeksi on
.
Tämä indeksi itse asiassa mittaa eron .
Menetelmä parhaan projektion löytämiseksi voi antaa mielenkiintoisia tuloksia, mutta sen toteutuksessa on monia puutteita. Ensinnäkin on vaikea keksiä oikeaa tulkintaa saaduista tuloksista. Toiseksi menetelmän käyttöönotto voi kestää kauan ja vaatia melko paljon tietokoneen RAM-muistia. Lisäksi parhaan projektion ihmisen visuaalisen esityksen ja parasta projektiota etsittäessä saadun ratkaisun välillä on edelleen eroja. Näitä ongelmia ei ole vielä ratkaistu, menetelmästä ei ole "kanonista" versiota ja aktiivinen tutkimus on käynnissä.