Ominaisuus (koneoppiminen)

Koneoppimisessa ja hahmontunnistuksessa ominaisuus on havaitun ilmiön yksilöllinen mitattavissa oleva ominaisuus tai ominaisuus [1] . Informatiivisten, erottuvien ja riippumattomien ominaisuuksien valinta on kriittinen askel tehokkaille algoritmeille hahmontunnistuksessa , luokittelussa ja regressiossa . Ominaisuudet ovat yleensä numeerisia, mutta rakenteellisia ominaisuuksia, kuten merkkijonoja ja kaavioita , käytetään syntaktisessa hahmontunnistuksessa . Käsite "ominaisuus" liittyy selittäviin muuttujiin , joita käytetään tilastotekniikoissa , kuten lineaarisessa regressiossa .

Luokitus

Numeeristen ominaisuuksien joukko kuvataan kätevästi piirrevektorilla. Esimerkki kahden piirteen luokittelun saavuttamisesta piirrevektorista (joka liittyy perceptroniin ) koostuu piirrevektorin ja painovektorin pistetulon laskemisesta , tuloksen vertaamisesta kynnysarvoon ja päättämisestä, mihin luokkaan kohde kuuluu. tuon vertailun perusteella.

Luokittelualgoritmeja, jotka perustuvat piirrevektoreihin, ovat lähin naapuriluokitus , hermoverkot ja tilastotekniikat , kuten Bayesin lähestymistapa .

Esimerkkejä

Merkintunnistuksessa ominaisuuksia voivat olla histogrammit , mukaan lukien mustien pisteiden lukumäärä vaaka- ja pystysuunnassa, sisäisten aukkojen määrä, viivan korostus ja monet muut.

Puheentunnistuksessa foneemin tunnistuksen ominaisuuksia voivat olla kohinakuva , äänten pituus, suhteellinen voimakkuus, suodattimen sovitus ja paljon muuta.

Roskapostin tunnistusalgoritmeissa ominaisuuksia voivat olla joidenkin sähköpostin otsikoiden olemassaolo tai puuttuminen, sähköpostin rakenne, kieli, tiettyjen termien esiintymistiheys, tekstin kieliopillinen oikeellisuus.

Tietokonenäössä on suuri määrä mahdollisia ominaisuuksia [ , kuten reunat ja esineet.

Laajennukset

Kuviontunnistuksessa ja koneoppimisessa piirrevektori on numeeristen ominaisuuksien n-ulotteinen vektori , joka edustaa jotakin objektia. Monet koneoppimisen algoritmit vaativat kohteiden numeerisen esityksen, koska sellaiset esitykset helpottavat käsittelyä ja tilastollista analyysiä. Kuvien kanssa työskenneltäessä ominaisuus voi vastata kuvan pisteitä (pikseleitä), kun taas tekstin ominaisuudet vastaavat termien käyttötiheyttä tekstissä. Piirrevektorit vastaavat tilastollisissa toimenpiteissä, kuten lineaarisessa regressiossa , käytettyjä selittävien muuttujien vektoreita . Ominaisuusvektorit yhdistetään usein painojen kanssa käyttämällä pistetuloa lineaarisen ennustajafunktion muodostamiseksi, jota käytetään määrittämään ennusteen pisteet.

Näihin vektoreihin liittyvää vektoriavaruutta kutsutaan usein piirreavaruudeksi . Useita ulottuvuuden pienentämistekniikoita voidaan käyttää piirretilan pienentämiseen .

Korkeamman tason ominaisuuksia voidaan johtaa jo tunnetuista ominaisuuksista ja lisätä piirrevektoriin. Esimerkiksi sairauksien tutkimuksessa attribuutti "ikä" on hyödyllinen, joka voidaan määritellä seuraavasti: ikä = "kuolemavuosi" miinus "syntymävuosi" . Tätä prosessia kutsutaan ominaisuuden rakentamiseksi [2] [3] . Ominaisuuden rakentaminen on rakentamisoperaattoreiden joukon soveltamista olemassa olevien ominaisuuksien joukkoon, mikä johtaa uusien ominaisuuksien rakentamiseen. Esimerkkejä tällaisista konstruktiooperaattoreista ovat yhtäläisyystestit {=, ≠}, aritmeettiset operaattorit {+,−,×, /}, taulukkooperaattorit {max(S), min(S), keskiarvo(S)} ja monimutkaisemmat operaattorit, esimerkiksi count(S,C) [4] , joka laskee piirrevektorin S ominaisuuksia, jotka täyttävät jonkin ehdon C, tai esimerkiksi etäisyyden toiseen tunnistusluokkaan, jonka jokin laite on yleistänyt. Ominaisuuden rakentamista pidetään tehokkaana työkaluna sekä tarkkuuden lisäämisessä että rakenteen ymmärtämisen parantamisessa, erityisesti korkean ulottuvuuden ongelmissa [5] . Sovelluksia ovat sairauksien tutkimus ja tunteiden tunnistaminen keskustelussa [6] .

Valinta ja valinta

Alkuperäiset raakaominaisuudet voivat olla redundantteja ja liian suuria käsiteltäväksi. Näin ollen alustava vaihe monissa koneoppimis- ja hahmontunnistussovelluksissa koostuu ominaisuuksien osajoukon valitsemisesta tai uuden supistetun ominaisuusjoukon rakentamisesta yleisyyden ja tulkittavuuden parantamiseksi.

Ominaisuuksien eristäminen tai valinta on taiteen ja tieteen yhdistelmä. Tämän tekemiseen tarvittavia järjestelmiä kutsutaan ominaisuussuunnittelujärjestelmiksi . Ominaisuuden poimiminen ja valinta vaatii kokeilua monilla mahdollisuuksilla sekä kykyä yhdistää automatisoituja tekniikoita intuitioon ja kapeaan asiantuntijan tietoon tällä alalla. Tämän prosessin automatisointia kutsutaan ominaisuuden oppimiseksi , jossa kone ei vain käytä ominaisuuksia oppiakseen itseään, vaan myös oppii uusia ominaisuuksia.

Katso myös

Muistiinpanot

  1. Piispa, 2006 .
  2. Liu, Motoda, 1998 .
  3. Piramuthu, Sikora, 2009 , s. 3401-3406.
  4. Bloedorn ja Michalski 1998 , s. 30-37.
  5. Breiman, Friedman, Olshen, Stone, 1984 .
  6. Sidorova, Badia, 2009 .

Kirjallisuus

Lue lisää