Binääri- , binääri- tai dikotominen luokittelu on tehtävä tietyn joukon elementtien luokittelemiseksi kahteen ryhmään (ennakoimalla, mihin ryhmään kukin joukon elementti kuuluu) luokittelusäännön perusteella . Kontekstit , joissa on päätettävä, onko objektilla jokin laadullinen ominaisuus , tiettyjä ominaisuuksia tai jokin tyypillinen binääriluokitus, ovat:
Binääriluokitus on käytännön tarkoituksiin sovellettu dikotomisointi . Monissa binääriluokituksen käytännön ongelmissa nämä kaksi ryhmää eivät ole symmetrisiä - yleisen tarkkuuden sijaan virhetyyppien suhteelliset osuudet ovat tärkeitä . Esimerkiksi laboratoriotesteissä väärä positiivinen (sairaus, jota ei todellisuudessa ole olemassa) katsotaan erotettavissa väärästä negatiivisesta (ei potilaalla todellisuudessa olevan sairauden havaitsemisesta).
Tilastollinen luokittelu on koneoppimisessa tutkittu tehtävä . Se on eräänlainen ohjattu oppiminen , koneoppimismenetelmä, jossa luokat määritellään ennalta ja niitä käytetään luokan valitsemiseen uudelle todennäköisyyspohjaiselle havainnolle. Jos kategorioita on vain kaksi, ongelmaa kutsutaan tilastolliseksi binääriluokitukseksi.
Jotkut binääriluokitukseen yleisesti käytetyt menetelmät ovat:
Jokainen luokitin toimii parhaiten vain valitulla alueella havaintojen lukumäärän, piirrevektorin ulottuvuuden, datan kohinan ja monien muiden tekijöiden perusteella. Esimerkiksi satunnaiset metsäluokittimet toimivat paremmin kuin 3D-pistepilvien tukivektorikoneet [1] [2] .
On monia mittareita, joita voidaan käyttää luokittelijan tai ennustajan suorituskyvyn mittaamiseen. Eri kentillä on erilaisia etuja tietyille mittareille eri tarkoituksiin. Esimerkiksi herkkyyttä ja spesifisyyttä käytetään usein lääketieteessä , kun taas ja muistamista suositaan tiedonhaussa . Tärkeä ero mittareissa on, onko se riippumaton esiintyvyydestä (kuinka usein kukin kategoria esiintyy väestössä) vai riippuvainen, ja molemmat tyypit ovat hyödyllisiä, mutta niillä on hyvin erilaisia ominaisuuksia.
Tietojoukon luokituksen perusteella kelvollisen luokan ja määritetyn kategorian perusyhdistelmää on neljä:
Ne voivat sijaita ehdollisuustaulukossa , jossa on sarakkeet, jotka vastaavat todellisia arvoja - ehdollisesti positiivisia ( eng. kunto positiivinen , CP) tai ehdollisesti negatiivisia ( eng. kunto negatiivinen , CN), ja rivit vastaavat luokitusarvoja - testi tulos on positiivinen tai negatiivinen. Taulukosta voidaan laskea kahdeksan perussuhdetta, jotka jakautuvat neljään täydentävään pariin (kunkin parin summa on 1). Ne saadaan jakamalla kukin neljästä numerosta rivin tai sarakkeen summalla, jolloin saadaan kahdeksan numeroa, joita voidaan kutsua "todellisten positiivisten riviksi" tai "väärien negatiivisten sarakkeeksi", vaikka yleisesti käytettyjä termejä onkin. Sarakesuhteita on myös kaksi paria ja rivisuhteita kaksi paria, ja niitä saa neljä valitsemalla jokaisesta parista yksi suhde, muut neljä numeroa ovat niiden komplementteja.
Osuussarake sisältää todellisten positiivisten tulosten suhteen ( eng. True Positive Rate , TPR, kutsutaan myös herkkyydeksi tai muistutukseksi , lisäys on väärien negatiivisten tulosten osuus , eng. False Negative Rate , FNR) ja todellisten negatiivisten tulosten osuus ( eng. True Negative Rate , TNR, kutsutaan myös spesifisyydeksi , ( eng. Spesicity , SPC, komplementti - väärien positiivisten tulosten osuus , eng. False Positive Rate , FPR) Ne ovat verrannollisia populaatioon sellaisella ehdolla (vastaavasti ilman ehtoa), jonka testi on tosi (tai testi on epätosi) ja ne eivät ole riippuvaisia esiintyvyydestä.
Murtokorivi on positiivinen ennustearvo ( Positive Predictive Value , PPV, kutsutaan myös tarkkuudella , komplementti on väärien hylkäysten osuus , False Discovery Rate , FDR) ja negatiivinen ennustearvo ( fin ... Negatiivinen ennustearvo , NPV, lisäys - väärien syöttöjen osuus, eng. False Omission Rate , FOR). Ne ovat verrannollisia populaatioon, jolla on annettu oikea testitulos (tai väärä tulos), ja ne riippuvat esiintyvyydestä.
Laboratoriokokeissa tärkeimmät käytetyt suhteet ovat todellinen osuus -sarake - todellisten positiivisten ja todellisten negatiivisten osuus - joissa nämä tunnetaan herkkyydeksi ja spesifisyydeksi . Tietoa poimittaessa tärkeimmät suhteet ovat todellinen positiivinen suhde (rivi ja sarake) - negatiivinen ennustearvo ja todellinen positiivinen suhde -, joissa niitä kutsutaan tarkkuuden ja palautuksena .
On mahdollista ottaa toisiaan täydentävien suhdeparien suhteet, jotka antavat neljä todennäköisyyssuhdetta (osuussarakkeen kaksi arvoa, suhderivin kaksi arvoa). Tämä tehdään ensisijaisesti kolonnisuhteille, mikä antaa todennäköisyyssuhteet laboratoriotesteissä . Kun otetaan suhde jossakin näistä ryhmistä, saadaan lopullinen diagnostisen testin kerroinsuhde ( Diagnostic Odds Ratio , DOR) . Tämä arvo voidaan määrittää myös suoraan muodossa . Tämä on hyödyllinen tulkinta todennäköisyyssuhteeksi, ja se on riippumaton esiintyvyydestä.
On olemassa useita muita mittareita, joista yksinkertaisin on Fraction Correct (FC), joka mittaa kaikkien oikein luokiteltujen tapausten osuuden . Tämän arvon lisäys 1:een on virheellisen osuuden ( Englanninkielinen Fraction Incorrect , FiC). F-mitta yhdistää tarkkuuden ja palauttamisen yhteen numeroon valitsemalla painon, joka on yksinkertaisimmassa tapauksessa yhtä suuri kuin tasapainotetussa F-mitassa ( F1 mitta ). Jotkut mittarit tulevat regressiokertoimista - merkitty ja informatiivinen ja niiden geometrinen keskiarvo , Matthewsin korrelaatiokerroin . Muita mittareita ovat Youdenin J-tilasto , epävarmuuskerroin , Phi-kerroin ja Cohenin kappa.
Testit, joiden tulokset ovat jatkuvia arvoja, kuten useimmat verikoearvot , voidaan tehdä keinotekoisesti binäärisiksi määrittelemällä raja-arvo . Testitulos määritellään positiiviseksi tai negatiiviseksi saatujen ja raja-arvojen vertailun tuloksista riippuen.
Tämä muunnos johtaa kuitenkin tiedon menetykseen, koska binääriluokituksen tulos ei osoita, kuinka paljon korkeammat tai pienemmät raja-arvot ovat. Muunnettaessa jatkuvaa arvoa, joka on lähellä raja-arvoa, saatu positiivinen tai negatiivinen ennustearvo on yleensä suurempi kuin suoraan jatkuvasta arvosta saatu ennustearvo Tällaisissa tapauksissa positiivinen tai negatiivinen testitulos antaa liian suuren varmuuden, kun taas itse arvo on itse asiassa epävarmuuden alueella. Esimerkiksi ihmisen koriongonadotropiinin (hCG) pitoisuudella virtsassa on jatkuva arvo. Virtsan raskaustesti , jonka raja-arvo on 50 mIU / ml ja todellinen hCG-pitoisuus 52 mIU / ml, voi näyttää "positiivisen tuloksen". Toisaalta testituloksella, joka on kaukana raja-arvosta, on yleensä positiivinen tai negatiivinen ennustearvo, joka on pienempi kuin jatkuvasta arvosta saatu ennustearvo. Esimerkiksi hCG-arvo 200 000 mIU/ml osoittaa erittäin korkeaa raskauden astetta, mutta muuntaminen binäärituloksiin antaa "positiivisen" testituloksen vain 52 mIU/ml.
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|