Theil–Senin estimaattorifunktio

Ei -parametrisissa tilastoissa on menetelmä pistejoukon jyrkkää lineaarista tasoitusta varten ( yksinkertainen lineaarinen regressio ), jossa valitaan kaikkien tason näytepisteparien läpi kulkevien viivojen kaltevuuden mediaani . Menetelmää kutsutaan nimellä Theil-Sen-estimaattori , Slope Sen -estimaattori [1] [2] , Slope-valinta [3] [4] , yksimediaanimenetelmä [5] , Kendallin robustin suoraviivaisen approksimaatiomenetelmä [6] [7] ja vankka suora Kendall-Teyla [8] . Menetelmä on nimetty Henri Theilin ja Pranab K. Senin mukaan, jotka julkaisivat menetelmää koskevia artikkeleita vuonna 1950 ja 1968, sekä Maurice Kendallin mukaan .

Tämä estimaattori voidaan laskea tehokkaasti, eikä se ole herkkä poikkeaville arvoille . Se voi olla merkittävästi tarkempi kuin ei-robustit pienimmän neliösumman epäsymmetrisillä ja heteroskedastisilla tiedoilla ja kilpailee hyvin ei-robustien pienimmän neliösumman kanssa jopa normaalisti jakautuneista tiedoista tilastollisen tehon suhteen [9] . Menetelmä tunnustetaan "suosituimmaksi ei-parametriseksi tekniikaksi lineaarisen trendin arvioimiseksi" [2] .

Määritelmä

Kuten Theil [10] määritteli, tason ( x i , y i ) pistejoukon Theil-Sen -estimaattori on m kaltevuuskertoimen ( y jy i )/( x jx i )  mediaani . kaikkien näytepisteiden parien yli. Sen [11] laajensi tätä määritelmää käsittelemään tapausta, jossa kahdella pisteellä on samat x -koordinaatit . Senin määritelmän mukaan kaltevuuskertoimien mediaani otetaan vain pistepareista, joilla on erilaiset x -koordinaatit .

Kun kaltevuus m on laskettu, suora voidaan määrittää näytepisteistä valitsemalla y - akselin leikkauspiste b , joka on yhtä suuri kuin arvojen y imx i mediaani [12] . Kuten Sen totesi, tämä on estimaattori, joka tekee Kendallin τ-rankkorrelaatiokertoimen verrattaessa x i :tä i: nnen havainnon loppuosaan suunnilleen nollaksi [13] .

Luottamusväli kaltevuuskulman estimoimiseksi voidaan määritellä väliksi, joka sisältää pisteparien läpi kulkevien viivojen kaltevuuskertoimien keskiarvon 95 % [14] , ja se voidaan nopeasti estimoida ottamalla pareista näyte ja määrittämällä 95 % intervalli näytteitetyistä kaltevuuskertoimista. Numeeristen simulaatioiden mukaan noin 600 pisteparin näyte riittää määrittämään tarkan luottamusvälin [9] .

Muunnelmia

Jokaiselle näytepisteelle ( x i , y i ) tämän pisteen läpi kulkevien suorien kaltevuuskertoimien ( y jy i ) /( x j x i ) mediaani m i ja sitten kokonaiskustannusfunktio on lasketaan näiden mediaanien mediaaniksi.

Toinen vaihtoehto valitsee näytepisteiden parit niiden x -koordinaattien järjestyksen mukaan (parista valitaan pienimmän koordinaatin piste, mediaanikoordinaatin yläpuolella oleva ensimmäinen piste jne.), sitten näiden määrittämien viivojen kaltevuuskertoimet. pisteparit lasketaan [16] .

Myös painotettuihin mediaaneihin perustuvia Theil-Sen-estimaattorin muunnelmia tutkitaan sillä periaatteella, että näytepareilla, joiden x - koordinaatit eroavat enemmän, on todennäköisemmin tarkempi kaltevuus, ja siksi niillä tulisi olla suurempi paino. [17]

Kausitietojen osalta saattaa olla tarkoituksenmukaista tasoittaa datan kausimuuttujia valitsemalla näytepisteiden parit, jotka kuuluvat samaan kuukauteen tai samaan vuodenaikaan, ja laskea sitten määritettyjen viivojen kaltevuuskertoimien mediaani. näillä rajoitetuilla pareilla [18] .

Tilastolliset ominaisuudet

Theil-Sen estimaattori on puolueeton arvio todellisesta kulmakertoimesta yksinkertaisessa lineaarisessa regressiossa [19] [20] . Monille ei-satunnaisille virhejakaumille tällä estimaattorilla on korkea asymptoottinen tehokkuus suhteessa pienimmän neliösumman menetelmään [21] [22] . Heikko suorituskykyiset estimaattorit vaativat enemmän riippumattomia havaintoja saman varianssin saavuttamiseksi kuin tehokkaat puolueettomat estimaattorit.

Theil -Sen estimaattori on luotettavampi kuin pienimmän neliösumman estimaattori, koska se on huomattavasti robustimpi poikkeaville arvoille . Sillä on kynnys , mikä tarkoittaa, että se sietää jopa 29,3 % syöttötiedoista tarkkuutta heikentämättä [12] . Menetelmän moniulotteisten yleistysten kynnys kuitenkin pienenee [23] . Korkeampi kynnys, 50 %, on käytettävissä toiselle luotettavalle lineaariselle estimaattorille, Siegelin toistuvalle mediaaniestimaattorille [12] .

Theil-Sen-pisteytysfunktio on ekvivariantti mille tahansa vastemuuttujiensa lineaariselle muunnokselle , mikä tarkoittaa, että datamuunnos, jota seuraa pisteytysviiva ja suora, jota seuraa datamuunnos, johtaa samoihin tuloksiin [24] . Estimaattori ei kuitenkaan ole ekvivariantti sekä ennustaja- että vastemuuttujien samanaikaisessa affiinisessa muunnoksessa [23] .

Algoritmit

N näytepisteen joukon kaltevuuden mediaani voidaan laskea tarkasti laskemalla kaikki O ( n 2 ) suorat pisteparien läpi ja käyttämällä lineaarista aikaalgoritmia mediaanin valitsemiseksi . Vaihtoehtoisesti arvo voidaan arvioida ottamalla näytteitä pistepareista. Ongelma vastaa projektiivisen kaksinaisuuden mukaan ongelmaa löytää leikkauspiste viivojen konfiguraatiolle, joka sisältää koordinaattien mediaanin x kaikkien tällaisten leikkauspisteiden välillä. [25]

Laskennallisessa geometriassa on tutkittu laajasti ongelmaa valita kulmakerroin tarkasti, mutta tehokkaammin kuin raaka neliöllinen laskenta . Jotkut muut menetelmät tunnetaan Theil-Sen-estimaattorin tarkkaan laskemiseen O ( n log n ) -ajassa joko deterministisesti [3] tai käyttämällä todennäköisyysalgoritmeja [4] . Toistuva mediaani Siegel-estimaatti voidaan myös rakentaa tehokkaasti samassa ajassa [26] . Laskennallisissa malleissa, joissa syöttökoordinaatit ovat kokonaislukuja ja bittioperaatiot kokonaisluvuilla vievät vakioaikaa, ongelma voidaan ratkaista jopa nopeammin laskenta-ajan odotuksella [27] .

Striimaustietomallissa (jossa algoritmi käsittelee näytepisteitä yksitellen, eikä algoritmilla ole riittävästi kynnysarvoa kuin Theil-Sen-estimaattorilla) voidaan saada kaltevuuskerroinestimaattori, jonka likimääräinen mediaaniarvo on muisti tallentaa pysyvästi kaikki tietojoukot) käyttämällä ε-verkkoihin perustuvaa algoritmia [28] .

Sovellukset

Theil-Senin estimaattoria on käytetty tähtitieteessä , koska se pystyy työskentelemään sensuroitujen regressiomallien kanssa [29] . Fernandez ja Leblanc ehdottivat sen käyttöä kaukokartoituksen biofysiikassa [30] , kuten lehtien pinnan estimointia heijastusmittauksella, johtuen "laskennan yksinkertaisuudesta, analyyttisestä luottamusvälin arvioinnista, poikkeavien tekijöiden robustisuudesta, todennettavissa olevista virheistä ja… rajoitettu ennakkotieto virhemittauksista". Kausiluonteisten ympäristötietojen, kuten vedenlaadun , mittaamiseen Theil-Senin kausiestimaattorin on ehdotettu olevan pienimmän neliösumman menetelmää parempi, koska se antaa paremman tarkkuuden vääristyneiden tietojen tapauksessa [18] . Tietojenkäsittelytieteessä on käytetty Theil-Sen-menetelmää ohjelmistojen vanhenemisen trendin arvioimiseen [ [31] . Toinen Theil-Sen-testin sovellus on meteorologia ja klimatologia [32] , jossa sitä käytetään tuulen suunnan ja nopeuden vakaiden trendien arvioimiseen.

Katso myös

Muistiinpanot

  1. Gilbert, 1987 .
  2. 1 2 El-Shaarawi, Piegorsch, 2001 .
  3. 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
  4. 1 2 Dillencourt, Mount, Netanyahu, 1992 ; Matousek, 1991 ; Blunck, Vahrenhold, 2006 .
  5. Massart, Vandeginste et ai., 1997 .
  6. Sokal, Rohlf, 1995 .
  7. Dytham, 2011 .
  8. Granato, 2006 .
  9. 12 Wilcox , 2001 .
  10. Theil, 1950 .
  11. Sen, 1968 .
  12. 1 2 3 Rousseeuw, Leroy, 2003 , s. 67, 164.
  13. Osborne, 2008 .
  14. Luottamusvälien määrittämiseksi pistepareista on otettava takaisinotos . Tämä tarkoittaa, että tässä laskelmassa käytetty parien joukko sisältää täsmälleen yhteensopivia pareja. Nämä parit jäävät aina pois luottamusväliltä, ​​koska ne eivät määrittele mitään tiettyä jyrkkyystekijää, mutta niiden ottaminen huomioon laskennassa laajentaa luottamusväliä.
  15. Siegel, 1982 .
  16. De Muth, 2006 .
  17. Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
  18. 1 2 Hirsch, Slack, Smith, 1982 .
  19. Sen, 1968 , s. 1384 Lause 5.1.
  20. Wang, Yu, 2005 .
  21. Sen, 1968 , s. 6.
  22. Wilcox, 1998 .
  23. 12 Wilcox , 2005 .
  24. Sen, 1968 , s. 1383.
  25. Cole, Salowe, Steiger, Szemerédi, 1989 .
  26. Matoušek, Mount, Netanyahu, 1998 .
  27. Chan, Pătraşcu, 2010 .
  28. Bagchi, Chaudhary, Eppstein, Goodrich, 2007 .
  29. Akritas, Murphy, LaValley, 1995 .
  30. Fernandes, Leblanc, 2005 .
  31. Vaidyanathan, Trivedi, 2005 .
  32. Romanić, Ćurić, Jovičić, Lompar, 2015 , s. 288-302.

Kirjallisuus

Linkit