Ensimmäisen ja toisen tyyppiset virheet

Ensimmäisen tyyppinen virhe ( α-virhe, väärä positiivinen johtopäätös ) - tilanne, jossa oikea nollahypoteesi hylätään (ilmiöiden tai halutun vaikutuksen välisen yhteyden puuttumisesta).

Toisen tyyppinen virhe  ( β-virhe, väärä negatiivinen johtopäätös ) on tilanne, jossa hyväksytään virheellinen nollahypoteesi.

Matemaattisessa tilastossa nämä ovat tilastollisten hypoteesien testausongelmien avainkäsitteitä . Näitä käsitteitä käytetään usein muilla alueilla, kun on tehtävä "binaarinen" päätös (kyllä ​​/ ei) jonkin kriteerin (testi, verifiointi, mittaus) perusteella, joka voi jollain todennäköisyydellä antaa väärän tuloksen.

Määritelmät

Otetaan näyte tuntemattomasta yhteisjakaumasta ja asetetaan tilastollisten hypoteesien testauksen binääriongelma:

missä  on nollahypoteesi ja  vaihtoehtoinen hypoteesi . Oletetaan, että tilastollinen testi on annettu

,

vertaamalla otoksen jokaista toteutusta yhteen käytettävissä olevista hypoteeseista. Sitten seuraavat neljä tilannetta ovat mahdollisia:

  1. Otoksen jakauma vastaa hypoteesia ja määräytyy tarkasti tilastollisen kriteerin eli .
  2. Otosjakauma vastaa hypoteesia , mutta se hylätään virheellisesti tilastollisessa testissä, eli .
  3. Otoksen jakauma vastaa hypoteesia ja määräytyy tarkasti tilastollisen kriteerin eli .
  4. Otosjakauma vastaa hypoteesia , mutta se hylätään virheellisesti tilastollisessa testissä, eli .

Toisessa ja neljännessä tapauksessa sanotaan, että on tapahtunut tilastollinen virhe, ja sitä kutsutaan ensimmäisen ja toisen tyyppiseksi virheeksi [ 1] [2] .

  Oikea hypoteesi
     
Kriteerin
 soveltamisen  tulos
   oikein hyväksytty väärin vastaanotettu  ( toisen tyyppinen
virhe )
   väärin hylätty  (tyypin I
virhe )
oikeutetusti hylätty

Ensimmäisen ja toisen tyyppisten virheiden merkityksestä

Yllä olevasta määritelmästä voidaan nähdä, että ensimmäisen ja toisen tyyppiset virheet ovat keskenään symmetrisiä, eli jos hypoteesit ja vaihdetaan keskenään , niin ensimmäisen tyyppiset virheet muuttuvat toisen tyyppisiksi virheiksi ja päinvastoin. Useimmissa käytännön tilanteissa ei kuitenkaan ole epäselvyyttä, koska on yleisesti hyväksyttyä, että nollahypoteesi vastaa "oletustilaa" (luonnollinen, odotetuin tilanne) - esimerkiksi sitä, että tutkittava on terve, tai että metallinpaljastimen läpi kulkevalla matkustajalla ei ole kiellettyjä metalliesineitä. Vastaavasti vaihtoehtoinen hypoteesi kuvaa päinvastaista tilannetta, joka yleensä tulkitaan vähemmän todennäköiseksi, poikkeukselliseksi, jonkinlaista reaktiota vaativaksi.

Tästä huolimatta tyypin I virhettä kutsutaan usein vääräksi hälytykseksi , vääräksi positiiviseksi tai vääräksi positiiviseksi . Jos esimerkiksi verikoe osoitti taudin olemassaolon, vaikka henkilö on itse asiassa terve, tai metallinpaljastin antoi hälytyksen laukaisemalla metallivyön soljen, hyväksytty hypoteesi ei pidä paikkaansa, ja siksi tyypin I virhe on tehty. Sanalla "väärä positiivinen" ei tässä tapauksessa ole mitään tekemistä itse tapahtuman toivottavuuden tai ei-toivottavuuden kanssa.

Termiä käytetään laajalti lääketieteessä. Esimerkiksi sairauksien diagnosointiin suunnitellut testit antavat joskus positiivisen tuloksen (eli osoittavat, että potilaalla on sairaus), vaikka potilas ei itse asiassa kärsi tästä sairaudesta. Tällaista tulosta kutsutaan vääräksi positiiviseksi .

Muilla alueilla käytetään yleensä samankaltaisia ​​ilmauksia, esimerkiksi "false pozitív", "false hälytys" jne. Tietotekniikassa englanninkielistä termiä false pozitív käytetään usein ilman käännöstä.

Väärien positiivisten tulosten mahdollisuuden vuoksi ei ole mahdollista täysin automatisoida taistelua monenlaisia ​​uhkia vastaan. Pääsääntöisesti väärän positiivisen todennäköisyys korreloi tapahtuman puuttumisen todennäköisyyden kanssa (toisen tyyppinen virhe). Eli mitä herkempi järjestelmä, sitä enemmän vaarallisia tapahtumia se havaitsee ja siten estää. Mutta herkkyyden kasvaessa väärien positiivisten tulosten todennäköisyys kasvaa väistämättä. Siksi liian herkkä (paranoidinen) konfiguroitu puolustusjärjestelmä voi rappeutua vastakohtakseen ja johtaa siihen, että siitä aiheutuva sivuhaita ylittää hyödyn.

Tämän vuoksi tyypin II virhettä kutsutaan joskus ohitetuksi tapahtumaksi tai vääräksi negatiiviseksi . Henkilö on sairas, mutta verikoe ei osoittanut tätä tai matkustajalla on kylmäase, mutta metallinpaljastimen runko ei havainnut sitä (esimerkiksi koska kehyksen herkkyys on säädetty havaitsemaan vain erittäin massiiviset metalliesineet). Nämä esimerkit viittaavat tyypin II virheeseen. Sanalla "väärä negatiivinen" ei tässä tapauksessa ole mitään tekemistä itse tapahtuman toivottavuuden tai ei-toivottavuuden kanssa.

Termiä käytetään laajalti lääketieteessä. Esimerkiksi sairauksien diagnosointiin suunnitellut testit antavat joskus negatiivisen tuloksen (eli ne osoittavat, että potilaalla ei ole sairautta), vaikka potilaalla on tämä sairaus. Tällaista tulosta kutsutaan vääräksi negatiiviseksi .

Muilla alueilla käytetään yleensä samankaltaisia ​​​​merkityksiä, esimerkiksi "tapahtuma puuttuu" jne.

Koska tyypin I virheen todennäköisyys yleensä pienenee tyypin II virheen todennäköisyyden kasvaessa ja päinvastoin, päätöksentekojärjestelmän virittämisen on oltava kompromissi. Se, missä tällaisella oikaisulla saatu tasapainopiste tarkalleen sijaitsee, riippuu kummankin tyyppisten virheiden tekemisen seurausten arvioinnista.

Virheiden todennäköisyydet ( merkittävyystaso ja teho)

Tyypin I virheen todennäköisyyttä tilastollisten hypoteesien testauksessa kutsutaan merkitsevyystasoksi ja sitä merkitään yleensä kreikkalaisella kirjaimella (siis nimivirhe).

Toisen tyyppisen virheen todennäköisyydellä ei ole erityistä yleisesti hyväksyttyä nimeä, se on merkitty kreikkalaisella kirjaimella (siis nimivirhe). Tämä arvo liittyy kuitenkin läheisesti toiseen arvoon, jolla on suuri tilastollinen merkitys - kriteerin voima . Se lasketaan kaavan mukaan. Mitä suurempi kriteerin teho on, sitä todennäköisemmin se tekee tyypin II virheen.

Nämä molemmat ominaisuudet lasketaan yleensä käyttämällä ns. testitehofunktiota . Erityisesti tyypin I virhetodennäköisyys on nollahypoteesin perusteella laskettu tehofunktio. Kiinteän kokoiseen otokseen perustuvissa testeissä tyypin II virheen todennäköisyys on yksi miinus tehofunktio, joka lasketaan olettaen, että havaintojen jakauma sopii vaihtoehtoiseen hypoteesiin. Peräkkäisille kriteereille tämä pätee myös, jos kriteeri pysähtyy todennäköisyydellä yksi (kun otetaan huomioon jakauma vaihtoehdosta).

Tilastollisissa testeissä tyypin I ja tyypin II virheiden hyväksyttävän tason välillä on yleensä kompromissi . Usein päätöksen tekemiseen käytetään kynnysarvoa, joka voi vaihdella, jotta testistä tulee tiukempi tai päinvastoin pehmeämpi. Tämä kynnysarvo on se merkitsevyystaso , joka annetaan tilastollisia hypoteeseja testattaessa . Esimerkiksi metallinpaljastimen tapauksessa laitteen herkkyyden lisääminen lisää tyypin 1 virheen riskiä (väärä hälytys), kun taas herkkyyden pienentäminen lisää tyypin 2 virheen riskiä (kielletyn virheen puuttuminen). erä).

Käyttöesimerkkejä

Tutka

Ilmakohteiden tutkahavaitsemistehtävässä, ensisijaisesti ilmapuolustusjärjestelmässä, ensimmäisen ja toisen tyyppiset virheet sanamuodoilla "väärä hälytys" ja "kohteen puuttuminen" ovat yksi pääelementeistä sekä teoriassa että käytännössä. tutka-asemien rakentaminen . Tämä on luultavasti ensimmäinen esimerkki tilastollisten menetelmien johdonmukaisesta soveltamisesta koko teknisellä alalla.

Tietokoneet

Tyypin I ja tyypin II virheiden käsitteitä käytetään laajalti tietokoneiden ja ohjelmistojen alalla.

Tietoturva

Tietojenkäsittelyjärjestelmien haavoittuvuuksien esiintyminen johtaa siihen, että toisaalta on tarpeen ratkaista tietokonetietojen eheyden ylläpitämisen ongelma ja toisaalta varmistaa laillisten käyttäjien normaali pääsy näihin tietoihin ( katso tietoturva ). Tässä yhteydessä seuraavat ei-toivotut tilanteet ovat mahdollisia [3] :

  • kun valtuutetut käyttäjät luokitellaan rikkojiksi ( tyypin I virheet );
  • kun rikolliset luokitellaan valtuutetuiksi käyttäjiksi ( toisen tyyppiset virheet ).
Roskapostin suodatus

Tyypin 1 virhe ilmenee, kun roskapostin esto-/suodatusmekanismi luokittelee virheellisesti laillisen sähköpostiviestin roskapostiksi ja estää sen toimittamisen normaalisti. Vaikka useimmat roskapostin estoalgoritmit pystyvät estämään/suodattamaan suuren osan ei-toivotuista sähköposteista, on paljon tärkeämpää minimoida "väärien hälytysten" (haluttujen viestien virheellinen esto) määrä.

Tyypin II virhe ilmenee, kun roskapostin estojärjestelmä päästää virheellisesti ei-toivotun viestin läpi ja luokittelee sen "ei roskapostiksi". Tällaisten virheiden alhainen taso on osoitus roskapostin estoalgoritmin tehokkuudesta.

Toistaiseksi ei ole ollut mahdollista luoda roskapostin estojärjestelmää ilman korrelaatiota ensimmäisen ja toisen tyypin virheiden todennäköisyyden välillä. Roskapostin puuttumisen todennäköisyys nykyaikaisissa järjestelmissä vaihtelee 1 prosentista 30 prosenttiin. Kelvollisen viestin virheellisen hylkäämisen todennäköisyys on 0,001 % - 3 %. Järjestelmän ja sen asetusten valinta riippuu tietyn vastaanottajan olosuhteista: joillekin vastaanottajille riskiä, ​​että hyvästä postista katoaa 1 %, on arvioitu merkityksettömäksi, toisille jopa 0,1 %:n katoamista ei voida hyväksyä.

Haittaohjelmat

Tyypin I virheen käsitettä käytetään myös silloin, kun virustorjuntaohjelmisto luokittelee vaarattoman tiedoston väärin virukseksi . Virheellinen havaitseminen voi johtua heuristiikasta tai tietokannan virheellisestä virustunnisteesta . Samanlaisia ​​ongelmia voi esiintyä myös troijalais- ja vakoiluohjelmien torjuntaohjelmissa .

Haku tietokoneen tietokannoista

Tietokannasta haettaessa ensimmäisen tyyppiset virheet sisältävät haun kautta lähteneet asiakirjat, vaikka ne eivät ole merkityksellisiä (epäyhdenmukaisia) hakukyselyn kanssa. Väärät positiiviset ovat tyypillisiä kokotekstihaulle , kun hakualgoritmi analysoi kaikkien tietokantaan tallennettujen asiakirjojen kokonaiset tekstit ja yrittää löytää yhteen tai useampaan käyttäjän kyselyssä määrittelemään termiin.

Suurin osa vääristä positiivisista tuloksista johtuu luonnollisten kielten monimutkaisuudesta , sanojen moniselitteisyydestä: esimerkiksi "koti" voi tarkoittaa sekä "henkilön asuinpaikkaa" että "verkkosivuston juurisivua". Tällaisten virheiden määrää voidaan vähentää käyttämällä erityistä sanakirjaa . Tämä ratkaisu on kuitenkin suhteellisen kallis, koska tällaisen sanaston ja dokumenttien merkinnät ( indeksointi ) on luotava asiantuntijan toimesta.

Optinen merkintunnistus (OCR)

Erilaiset tunnistusalgoritmit antavat usein ensimmäisen tyyppisiä virheitä . OCR-ohjelmisto voi tunnistaa kirjaimen "a" tilanteessa, jossa on itse asiassa useita pisteitä.

Matkustajien ja matkatavaroiden turvatarkastus

Tyypin I virheitä tapahtuu säännöllisesti joka päivä lentokenttien turvatarkastusten tietokonejärjestelmissä. Niihin asennetut ilmaisimet on suunniteltu estämään aseiden kantaminen lentokoneessa; Ne on kuitenkin usein asetettu niin korkealle herkkyystasolle , että ne ampuvat monta kertaa päivässä pieniä esineitä, kuten avaimia, vyön solkia, kolikoita, matkapuhelimia, nauloja kengänpohjissa jne. (katso Räjähteiden havaitseminen)., metallinpaljastimet ).

Näin ollen väärien hälytysten määrän (kunnollisen matkustajan tunnistaminen rikolliseksi) suhde oikeiden hälytysten määrään (todella kiellettyjen esineiden havaitseminen) on erittäin korkea.

Biometriset tiedot

Ensimmäisen ja toisen tyyppiset virheet ovat suuri ongelma biometrisissa skannausjärjestelmissä, jotka käyttävät silmän iiriksen tai verkkokalvon tunnistamista , kasvojen piirteitä jne. Tällaiset skannausjärjestelmät voivat erehdyksessä tunnistaa jonkun toisen järjestelmän tuntemasta henkilöstä. kenestä tietokantaan on tallennettu (esimerkiksi se voi olla henkilö, jolla on kirjautumisoikeus, tai epäilty rikollinen jne.). Päinvastainen virhe olisi järjestelmän epäonnistuminen tunnistamaan laillista rekisteröityä käyttäjää tai tunnistamaan rikoksesta epäiltyä [4] .

Lääketieteellinen joukkodiagnostiikka (seulonta)

Lääketieteellisessä käytännössä seulonnan ja testauksen välillä on merkittävä ero :

  • Seulonta sisältää suhteellisen halpoja testejä, jotka suoritetaan suurelle ihmisryhmälle ilman kliinisiä sairauden oireita (kuten Papa-kokeilu ).
  • Testaus sisältää paljon kalliimpia , usein invasiivisia toimenpiteitä, jotka suoritetaan vain niille, joilla on taudin kliinisiä oireita ja joita käytetään pääasiassa epäillyn diagnoosin vahvistamiseen.

Esimerkiksi useimmat Yhdysvaltojen osavaltiot vaativat vastasyntyneiden seulonnan hydroksifenyyliketonurian ja kilpirauhasen vajaatoiminnan , muiden synnynnäisten epämuodostumien , varalta . Huolimatta tyypin I virheiden suuresta määrästä , näitä seulontatoimenpiteitä pidetään hyödyllisinä, koska ne lisäävät huomattavasti todennäköisyyttä havaita nämä häiriöt hyvin varhaisessa vaiheessa [5] .

Yksinkertaisissa verikokeissa, joita käytetään mahdollisten luovuttajien HIV :n ja hepatiitin seulomiseen , on merkittävä tyypin I virhetaso ; Lääkäreillä on kuitenkin paljon tarkempia (ja siksi kalliimpia) testejä arsenaalissaan tarkistaakseen, onko henkilö todella saastunut jostakin näistä viruksista.

Ehkä laajimmin keskusteltu on tyypin I virhe rintasyövän seulontatoimenpiteissä ( mammografia ). Yhdysvalloissa tyypin I virheprosentti mammografiassa on jopa 15 %, mikä on maailman korkein [6] . Alin taso on Alankomaissa , 1 % [7] .

Lääketieteellinen testaus

Tyypin II virheet ovat merkittävä ongelma lääketieteellisissä testeissä . Ne antavat potilaalle ja lääkärille väärän käsityksen siitä, että sairautta ei ole, vaikka todellisuudessa on. Tämä johtaa usein epäasianmukaiseen tai riittämättömään hoitoon. Tyypillinen esimerkki on luottamus pyöräergometrian tuloksiin sepelvaltimon ateroskleroosin havaitsemisessa , vaikka tiedetään, että pyöräergometria paljastaa vain ne sepelvaltimon verenkierron esteet, jotka johtuvat ahtaumasta .

Toisen tyyppiset virheet aiheuttavat vakavia ja vaikeasti ymmärrettäviä ongelmia, varsinkin kun haluttu tila on laajalle levinnyt. Jos testiä, jonka tyypin II virheprosentti on 10 % , käytetään populaatiossa, jossa "tosi positiivisten" tapausten todennäköisyys on 70 %, monet negatiiviset testitulokset ovat vääriä. (Katso Bayesin lause ).

Tyypin I virheet voivat myös aiheuttaa vakavia ja vaikeasti ymmärrettäviä ongelmia. Tämä tapahtuu, kun etsittävä tila on harvinainen. Jos testin tyypin I virheprosentti on yksi kymmenestä tuhannesta, mutta testattavassa näytteiden (tai ihmisten) ryhmässä "todella positiivisten" tapausten todennäköisyys on keskimäärin yksi miljoonasta, niin suurin osa positiivisista tuloksista siitä testistä on epätosi [8] .

Tutkimuksia yliluonnollisesta

Paranormaalien ja haamujen alan tutkijat ovat kehittäneet termin tyypin I virhe kuvaamaan valokuvaa tai tallennetta tai mitä tahansa muuta todistetta, joka on virheellisesti tulkittu olevan paranormaalia alkuperää - tässä yhteydessä tyypin I virhe  on mikä tahansa kestämätön "median näyttö" (kuva, video, ääni jne.), jolla on tavallinen selitys. [9]

Katso myös

Muistiinpanot

  1. GOST R 50779.10-2000. "Tilastolliset menetelmät. Todennäköisyys ja tilastojen perusteet. Termit ja määritelmät". — s. 26 Arkistoitu 9. marraskuuta 2018 Wayback Machinessa
  2. Easton VJ, McColl JH Tilastosanasto: Hypoteesin testaus. Arkistoitu 24. syyskuuta 2011 Wayback Machinessa
  3. Moulton RT Network Security   // Datamation . - 1983. - Voi. 29 , iss. 7 . - s. 121-127 .
  4. Tämä esimerkki kuvaa vain tapausta, jossa virheiden luokittelu riippuu järjestelmän tarkoituksesta: jos biometristä skannausta käytetään työntekijöiden hyväksymiseen ( nollahypoteesi : "tarkistuksen kohteena oleva henkilö on todella työntekijä"), virheellinen tunnistaminen olla toisen tyyppinen virhe ja "tunnistamattomuus" - ensimmäisen tyyppinen virhe ; jos skannausta käytetään rikollisten tunnistamiseen ( nollahypoteesi : "skannattava henkilö ei ole rikollinen"), niin virheellinen tunnistaminen on tyypin I virhe ja "tunnistamattomuus" on tyypin II virhe .
  5. Vastasyntyneiden seulonnan osalta viimeaikaiset tutkimukset ovat osoittaneet, että ensimmäisen tyyppisten virheiden määrä on 12 kertaa suurempi kuin oikeiden havaitsemisten määrä (Gambrill, 2006. [1] )
  6. Yksi seuraus tästä korkeasta tyypin I virheiden määrästä Yhdysvalloissa on, että mielivaltaisen 10 vuoden aikana puolet tutkimukseen osallistuneista amerikkalaisista naisista saa vähintään yhden väärän positiivisen mammografian. Nämä virheelliset mammografiatutkimukset ovat kalliita, mikä johtaa 100 miljoonan dollarin vuosittaiseen seurantaan (tarpeettomiin) hoitoihin. Lisäksi ne aiheuttavat naisissa tarpeetonta ahdistusta. Yhdysvalloissa esiintyvien tyypin I virheiden suuren määrän vuoksi noin 90–95 prosentilla naisista, jotka ovat saaneet positiivisen mammografian vähintään kerran elämässään, ei ole sairautta.
  7. Näiden virheiden alhaisimmat tasot havaitaan Pohjois-Euroopassa, jossa mammografiafilmit luetaan kahdesti ja lisätestauksille asetetaan korkeampi kynnys ( korkea kynnys vähentää testin tilastollista tehokkuutta ).
  8. Todennäköisyys, että testitulos on tyypin I virhe, voidaan laskea Bayesin lauseella .
  9. Jotkut sivustot tarjoavat esimerkkejä tyypin I virheistä, esimerkiksi: The Atlantic Paranormal Society (TAPS) Arkistoitu 28. maaliskuuta 2005.  (downlink 13-05-2013 [3457 päivää]) ja Moorestown Ghost Research Arkistoitu 2006-06-14 .  (downlink alkaen 13-05-2013 [3457 päivää] - historia ) .