Ominaisuuksien poiminta on eräänlainen abstraktio , ulottuvuuden vähentämisprosessi , jossa alkuperäinen alkumuuttujien joukko pelkistetään paremmin hallittavissa oleviksi ryhmiksi (ominaisuuksiksi) jatkokäsittelyä varten, samalla kun se säilyy riittävänä joukkona kuvaamaan tarkasti ja täydellisesti alkuperäistä tietojoukkoa [1] . Ominaisuuden purkamista käytetään koneoppimisessa , hahmontunnistuksessa ja kuvankäsittelyssä . Ominaisuuden purkaminen alkaa alkuperäisestä tietojoukosta, tulostaa toissijaiset arvot ( ominaisuudet), jolle niiden oletetaan olevan informatiivisia eivätkä tarpeettomia, mikä edistää myöhempää koneoppimisprosessia ja vaiheiden yleistämistä ja joissakin tapauksissa johtaa tiedon parempaan ihmisen tulkintaan.
Kun algoritmin syötetieto on liian suuri käsiteltäväksi ja on epäilystä siitä, että data on redundanttia (esimerkiksi mittauksia tehdään sekä jaloilla että metreillä tai kuvien toistettavuus esitetään pikseleinä ), ne voidaan muunnetaan pelkistetyksi piirrejoukoksi (kutsutaan piirrevektoriksi ) . Alkuominaisuuksien osajoukon määrittelyä kutsutaan ominaisuuden valinnaksi [2] . Valitut ominaisuudet tarkistetaan syöttötiedon tarpeellisen tiedon sisällöstä, jotta haluttu tehtävä voidaan suorittaa tällä supistetulla sarjalla alkuperäisen täyden datan sijaan.
Ominaisuuden poimiminen tarkoittaa, että suuren datajoukon kuvaamiseen tarvittavien resurssien määrää vähennetään. Monimutkaista dataa analysoitaessa yksi suurimmista ongelmista johtuu mukana olevien muuttujien määrästä. Analyysi, jossa on suuri määrä muuttujia, vaatii yleensä paljon muistia ja prosessointitehoa, ja se voi myös aiheuttaa luokitusongelmaalgoritmien ylisopivuutta harjoitusjoukon suhteen, mikä yleensä johtaa huonoihin tuloksiin uusille näytteille. Ominaisuuksien poimiminen on päätermi menetelmille muuttujien yhdistelmien muodostamiseksi näiden ongelmien kiertämiseksi, mutta silti dataa kuvataan riittävän tarkasti. Monet koneoppimisen harjoittajat uskovat, että oikein optimoitu ominaisuuksien poimiminen on avain tehokkaan mallin rakentamiseen [3] .
Tuloksia voidaan parantaa käyttämällä sovelluskohtaisia ominaisuuksia, jotka yleensä ovat asiantuntijoiden rakentamia. Yhtä tällaista prosessia kutsutaan ominaisuussuunnitteluksi . Vaihtoehtoisesti käytetään yleisiä mittasuhteiden vähentämistekniikoita, kuten:
Yksi erittäin tärkeä ominaisuuksien poimintasovelluksen alue on kuvankäsittely , joka käyttää algoritmeja digitaalisen kuvan tai videovirran haluttujen osien tai muotojen (ominaisuuksien) tunnistamiseen ja eristämiseen . Yksi tärkeimmistä menetelmien soveltamisalueista on optinen merkintunnistus .
Monet aggregointipaketit tarjoavat ominaisuuksien poimimisen ja mittojen pienentämisen. Yleiset numeeriset käsittelyjärjestelmät, kuten MATLAB , Scilab , NumPy ja R-kieli , tukevat joitain yksinkertaisia ominaisuuksien poimintatekniikoita (kuten pääkomponenttianalyysiä ) sisäänrakennettujen komentojen avulla. Tarkempia algoritmeja on usein saatavilla julkisina skripteinä tai kolmannen osapuolen kehitystyönä. On myös paketteja, jotka on suunniteltu erityisille koneoppimissovelluksille erityisesti ominaisuuksien poimimista varten. [neljä]
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|