Theil–Senin estimaattorifunktio
Ei -parametrisissa tilastoissa on menetelmä pistejoukon jyrkkää lineaarista tasoitusta varten ( yksinkertainen lineaarinen regressio ), jossa valitaan kaikkien tason näytepisteparien läpi kulkevien viivojen kaltevuuden mediaani . Menetelmää kutsutaan nimellä Theil-Sen-estimaattori , Slope Sen -estimaattori [1] [2] , Slope-valinta [3] [4] , yksimediaanimenetelmä [5] , Kendallin robustin suoraviivaisen approksimaatiomenetelmä [6] [7] ja vankka suora Kendall-Teyla [8] . Menetelmä on nimetty Henri Theilin ja Pranab K. Senin mukaan, jotka julkaisivat menetelmää koskevia artikkeleita vuonna 1950 ja 1968, sekä Maurice Kendallin mukaan .
Tämä estimaattori voidaan laskea tehokkaasti, eikä se ole herkkä poikkeaville arvoille . Se voi olla merkittävästi tarkempi kuin ei-robustit pienimmän neliösumman epäsymmetrisillä ja heteroskedastisilla tiedoilla ja kilpailee hyvin ei-robustien pienimmän neliösumman kanssa jopa normaalisti jakautuneista tiedoista tilastollisen tehon suhteen [9] . Menetelmä tunnustetaan "suosituimmaksi ei-parametriseksi tekniikaksi lineaarisen trendin arvioimiseksi" [2] .
Määritelmä
Kuten Theil [10] määritteli, tason ( x i , y i ) pistejoukon Theil-Sen -estimaattori on m kaltevuuskertoimen ( y j − y i )/( x j − x i ) mediaani . kaikkien näytepisteiden parien yli. Sen [11] laajensi tätä määritelmää käsittelemään tapausta, jossa kahdella pisteellä on samat x -koordinaatit . Senin määritelmän mukaan kaltevuuskertoimien mediaani otetaan vain pistepareista, joilla on erilaiset x -koordinaatit .
Kun kaltevuus m on laskettu, suora voidaan määrittää näytepisteistä valitsemalla y - akselin leikkauspiste b , joka on yhtä suuri kuin arvojen y i − mx i mediaani [12] . Kuten Sen totesi, tämä on estimaattori, joka tekee Kendallin τ-rankkorrelaatiokertoimen verrattaessa x i :tä i: nnen havainnon loppuosaan suunnilleen nollaksi [13] .
Luottamusväli kaltevuuskulman estimoimiseksi voidaan määritellä väliksi, joka sisältää pisteparien läpi kulkevien viivojen kaltevuuskertoimien keskiarvon 95 % [14] , ja se voidaan nopeasti estimoida ottamalla pareista näyte ja määrittämällä 95 % intervalli näytteitetyistä kaltevuuskertoimista. Numeeristen simulaatioiden mukaan noin 600 pisteparin näyte riittää määrittämään tarkan luottamusvälin [9] .
Muunnelmia
Jokaiselle näytepisteelle ( x i , y i ) tämän pisteen läpi kulkevien suorien kaltevuuskertoimien ( y j − y i ) /( x j − x i ) mediaani m i ja sitten kokonaiskustannusfunktio on lasketaan näiden mediaanien mediaaniksi.
Toinen vaihtoehto valitsee näytepisteiden parit niiden x -koordinaattien järjestyksen mukaan (parista valitaan pienimmän koordinaatin piste, mediaanikoordinaatin yläpuolella oleva ensimmäinen piste jne.), sitten näiden määrittämien viivojen kaltevuuskertoimet. pisteparit lasketaan [16] .
Myös painotettuihin mediaaneihin perustuvia Theil-Sen-estimaattorin muunnelmia tutkitaan sillä periaatteella, että näytepareilla, joiden x - koordinaatit eroavat enemmän, on todennäköisemmin tarkempi kaltevuus, ja siksi niillä tulisi olla suurempi paino. [17]
Kausitietojen osalta saattaa olla tarkoituksenmukaista tasoittaa datan kausimuuttujia valitsemalla näytepisteiden parit, jotka kuuluvat samaan kuukauteen tai samaan vuodenaikaan, ja laskea sitten määritettyjen viivojen kaltevuuskertoimien mediaani. näillä rajoitetuilla pareilla [18] .
Tilastolliset ominaisuudet
Theil-Sen estimaattori on puolueeton arvio todellisesta kulmakertoimesta yksinkertaisessa lineaarisessa regressiossa [19] [20] . Monille ei-satunnaisille virhejakaumille tällä estimaattorilla on korkea asymptoottinen tehokkuus suhteessa pienimmän neliösumman menetelmään [21] [22] . Heikko suorituskykyiset estimaattorit vaativat enemmän riippumattomia havaintoja saman varianssin saavuttamiseksi kuin tehokkaat puolueettomat estimaattorit.
Theil -Sen estimaattori on luotettavampi kuin pienimmän neliösumman estimaattori, koska se on huomattavasti robustimpi poikkeaville arvoille . Sillä on kynnys , mikä tarkoittaa, että se sietää jopa 29,3 % syöttötiedoista tarkkuutta heikentämättä [12] . Menetelmän moniulotteisten yleistysten kynnys kuitenkin pienenee [23] . Korkeampi kynnys, 50 %, on käytettävissä toiselle luotettavalle lineaariselle estimaattorille, Siegelin toistuvalle mediaaniestimaattorille [12] .
Theil-Sen-pisteytysfunktio on ekvivariantti mille tahansa vastemuuttujiensa lineaariselle muunnokselle , mikä tarkoittaa, että datamuunnos, jota seuraa pisteytysviiva ja suora, jota seuraa datamuunnos, johtaa samoihin tuloksiin [24] . Estimaattori ei kuitenkaan ole ekvivariantti sekä ennustaja- että vastemuuttujien samanaikaisessa affiinisessa muunnoksessa [23] .
Algoritmit
N näytepisteen joukon kaltevuuden mediaani voidaan laskea tarkasti laskemalla kaikki O ( n 2 ) suorat pisteparien läpi ja käyttämällä lineaarista aikaalgoritmia mediaanin valitsemiseksi . Vaihtoehtoisesti arvo voidaan arvioida ottamalla näytteitä pistepareista. Ongelma vastaa projektiivisen kaksinaisuuden mukaan ongelmaa löytää leikkauspiste viivojen konfiguraatiolle, joka sisältää koordinaattien mediaanin x kaikkien tällaisten leikkauspisteiden välillä. [25]
Laskennallisessa geometriassa on tutkittu laajasti ongelmaa valita kulmakerroin tarkasti, mutta tehokkaammin kuin raaka neliöllinen laskenta . Jotkut muut menetelmät tunnetaan Theil-Sen-estimaattorin tarkkaan laskemiseen O ( n log n ) -ajassa joko deterministisesti [3] tai käyttämällä todennäköisyysalgoritmeja [4] . Toistuva mediaani Siegel-estimaatti voidaan myös rakentaa tehokkaasti samassa ajassa [26] . Laskennallisissa malleissa, joissa syöttökoordinaatit ovat kokonaislukuja ja bittioperaatiot kokonaisluvuilla vievät vakioaikaa, ongelma voidaan ratkaista jopa nopeammin laskenta-ajan odotuksella [27] .
Striimaustietomallissa (jossa algoritmi käsittelee näytepisteitä yksitellen, eikä algoritmilla ole riittävästi kynnysarvoa kuin Theil-Sen-estimaattorilla) voidaan saada kaltevuuskerroinestimaattori, jonka likimääräinen mediaaniarvo on muisti tallentaa pysyvästi kaikki tietojoukot) käyttämällä ε-verkkoihin perustuvaa algoritmia [28] .
Sovellukset
Theil-Senin estimaattoria on käytetty tähtitieteessä , koska se pystyy työskentelemään sensuroitujen regressiomallien kanssa [29] . Fernandez ja Leblanc ehdottivat sen käyttöä kaukokartoituksen biofysiikassa [30] , kuten lehtien pinnan estimointia heijastusmittauksella, johtuen "laskennan yksinkertaisuudesta, analyyttisestä luottamusvälin arvioinnista, poikkeavien tekijöiden robustisuudesta, todennettavissa olevista virheistä ja… rajoitettu ennakkotieto virhemittauksista". Kausiluonteisten ympäristötietojen, kuten vedenlaadun , mittaamiseen Theil-Senin kausiestimaattorin on ehdotettu olevan pienimmän neliösumman menetelmää parempi, koska se antaa paremman tarkkuuden vääristyneiden tietojen tapauksessa [18] . Tietojenkäsittelytieteessä on käytetty Theil-Sen-menetelmää ohjelmistojen vanhenemisen trendin arvioimiseen [ [31] . Toinen Theil-Sen-testin sovellus on meteorologia ja klimatologia [32] , jossa sitä käytetään tuulen suunnan ja nopeuden vakaiden trendien arvioimiseen.
Katso myös
- Regression laimennus , toinen kaltevuustrendin estimointia käyttävä ongelma
Muistiinpanot
- ↑ Gilbert, 1987 .
- ↑ 1 2 El-Shaarawi, Piegorsch, 2001 .
- ↑ 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
- ↑ 1 2 Dillencourt, Mount, Netanyahu, 1992 ; Matousek, 1991 ; Blunck, Vahrenhold, 2006 .
- ↑ Massart, Vandeginste et ai., 1997 .
- ↑ Sokal, Rohlf, 1995 .
- ↑ Dytham, 2011 .
- ↑ Granato, 2006 .
- ↑ 12 Wilcox , 2001 .
- ↑ Theil, 1950 .
- ↑ Sen, 1968 .
- ↑ 1 2 3 Rousseeuw, Leroy, 2003 , s. 67, 164.
- ↑ Osborne, 2008 .
- ↑ Luottamusvälien määrittämiseksi pistepareista on otettava takaisinotos . Tämä tarkoittaa, että tässä laskelmassa käytetty parien joukko sisältää täsmälleen yhteensopivia pareja. Nämä parit jäävät aina pois luottamusväliltä, koska ne eivät määrittele mitään tiettyä jyrkkyystekijää, mutta niiden ottaminen huomioon laskennassa laajentaa luottamusväliä.
- ↑ Siegel, 1982 .
- ↑ De Muth, 2006 .
- ↑ Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
- ↑ 1 2 Hirsch, Slack, Smith, 1982 .
- ↑ Sen, 1968 , s. 1384 Lause 5.1.
- ↑ Wang, Yu, 2005 .
- ↑ Sen, 1968 , s. 6.
- ↑ Wilcox, 1998 .
- ↑ 12 Wilcox , 2005 .
- ↑ Sen, 1968 , s. 1383.
- ↑ Cole, Salowe, Steiger, Szemerédi, 1989 .
- ↑ Matoušek, Mount, Netanyahu, 1998 .
- ↑ Chan, Pătraşcu, 2010 .
- ↑ Bagchi, Chaudhary, Eppstein, Goodrich, 2007 .
- ↑ Akritas, Murphy, LaValley, 1995 .
- ↑ Fernandes, Leblanc, 2005 .
- ↑ Vaidyanathan, Trivedi, 2005 .
- ↑ Romanić, Ćurić, Jovičić, Lompar, 2015 , s. 288-302.
Kirjallisuus
- D. Romanić, M. Ćurić, I. Jovičić, M. Lompar. Koshava-tuulen pitkän aikavälin trendit vuosina 1949–2010. // International Journal of Climatology. - 2015. - T. 35 , no. 2 . - S. 288-302 . - doi : 10.1002/joc.3981 .
- Michael G. Akritas, Susan A. Murphy, Michael P. LaValley. Theil-Senin estimaattori kahdesti sensuroiduilla tiedoilla ja sovelluksilla tähtitiedettä // Journal of the American Statistical Association. - 1995. - T. 90 , no. 429 . - S. 170-177 . - doi : 10.1080/01621459.1995.10476499 . — .
- Amitabha Bagchi, Amitabh Chaudhary, David Eppstein, Michael T. Goodrich. Deterministinen näytteenotto ja alueen laskenta geometrisissa tietovirroissa // ACM Transactions on Algorithms. - 2007. - Osa 3 , numero. 2 . - C. Art. ei. 16 . - doi : 10.1145/1240233.1240239 . - arXiv : cs/0307027 .
- David Birkes, Yadolah Dodge. Vaihtoehtoiset regressiomenetelmät. - Wiley-Interscience, 1993. - T. 282. - S. 113-118. - (Todennäköisyys- ja tilastotieteen Wiley-sarja). — ISBN 978-0-471-56881-0 .
- Henrik Blunck, Jan Vahrenhold. Kansainvälinen symposium algoritmeista ja monimutkaisuudesta. - Berliini: Springer-Verlag, 2006. - T. 3998. - S. 30-41. — (Luentomuistiinpanot tietojenkäsittelytieteestä). — ISBN 978-3-540-34375-2 . - doi : 10.1007/11758471_6 .
- Hervé Brönnimann, Bernard Chazelle. Optimaalinen kaltevuuden valinta leikkausten avulla // Laskennallisen geometrian teoria ja sovellukset . - 1998. - T. 10 , no. 1 . — S. 23–29 . - doi : 10.1016/S0925-7721(97)00025-4 .
- Timothy M. Chan, Mihai Pătraşcu. Proceedings of Twenty-First Annual ACM-SIAM Symposium on Discrete Algorithms (SODA '10). - 2010. - S. 161-173.
- Richard Cole, Jeffrey S. Salowe, WL Steiger, Endre Szemerédi . Optimaalisen ajan algoritmi kaltevuuden valinnassa // SIAM Journal on Computing . - 1989. - T. 18 , no. 4 . — S. 792–810 . - doi : 10.1137/0218055 .
- E. James De Muth. Perustilastot ja farmaseuttiset tilastosovellukset. – 2. - CRC Press, 2006. - Vol. 16. - (Biostatistics). — ISBN 978-0-8493-3799-4 .
- Michael B. Dillencourt, David Mount, Nathan Netanyahu. Satunnaistettu algoritmi kaltevuuden valintaan // International Journal of Computational Geometry & Applications. - 1992. - Osa 2 , numero. 1 . - S. 1-27 . - doi : 10.1142/S0218195992000020 .
- Calvin Dytham. Tilastojen valinta ja käyttö: Biologin opas. – 3. - John Wiley and Sons, 2011. - ISBN 978-1-4051-9839-4 .
- Abdel H. El-Shaarawi, Walter W. Piegorsch. Encyclopedia of Environmetrics, osa 1. - John Wiley and Sons, 2001. - ISBN 978-0-471-89997-6 .
- Richard Fernandes, Sylvain G. Leblanc. Parametriset (muokatut pienimmän neliösummat) ja ei-parametriset (Theil–Sen) lineaariset regressiot biofysikaalisten parametrien ennustamiseen mittausvirheiden esiintyessä // Remote Sensing of Environment. - 2005. - T. 95 , no. 3 . — S. 303–316 . - doi : 10.1016/j.rse.2005.01.005 .
- Richard O. Gilbert. Tilastolliset menetelmät ympäristön pilaantumisen seurantaan. - John Wiley and Sons, 1987. - S. 217-219. — ISBN 978-0-471-28878-7 .
- Gregory E. Granato. Kendall-Theil Robust Line (KTRLine - versio 1.0) - Visuaalinen perusohjelma kahden jatkuvan muuttujan välisten lineaarisen regressiokertoimien vahvojen ei-parametristen arvioiden laskemiseen ja kuvaamiseen. - US Geological Survey, 2006. - S. 31 CD-ROM-levyllä. — (US Geological Surveyn tekniikat ja menetelmät, kirja 4, luku A7).
- Robert M. Hirsch, James R. Slack, Richard A. Smith. Trendianalyysin tekniikat kuukausittaisille vedenlaatutiedoille // Water Resources Research. - 1982. - T. 18 , no. 1 . — S. 107–121 . - doi : 10.1029/WR018i001p00107 . - .
- Louis A. Jaeckel. Regressiokertoimien arviointi minimoimalla jäännösten hajonta // Annals of Mathematical Statistics. - 1972. - T. 43 , no. 5 . - S. 1449-1458 . - doi : 10.1214/aoms/1177692377 .
- Matthew J. Katz, Micha Sharir. Optimaalinen kaltevuuden valinta laajentajien avulla // Information Processing Letters . - 1993. - T. 47 , no. 3 . — S. 115–122 . - doi : 10.1016/0020-0190(93)90234-Z .
- DL Massart, BGM Vandeginste, LMC Buydens, S. De Jong, PJ Lewi, J. Smeyers-Verbeke. Handbook of Chemometrics and Qualimetrics: Osa A. - Elsevier, 1997. - Vol. 20A. — S. 355–356. — (Tietojen ja teknologian tietojenkäsittely). - ISBN 978-0-444-89724-4 .
- Jiri Matousek. Satunnaistettu optimaalinen algoritmi kaltevuuden valinnassa // Information Processing Letters . - 1991. - T. 39 , no. 4 . — S. 183–187 . - doi : 10.1016/0020-0190(91)90177-J .
- Jiří Matoušek, David M. Mount, Nathan S. Netanyahu. Tehokkaat satunnaistetut algoritmit toistuvan mediaaniviivan estimaattorille // Algorithmica . - 1998. - T. 20 , no. 2 . — S. 136–150 . - doi : 10.1007/PL00009190 .
- Jason W. Osborne. Kvantitatiivisten menetelmien parhaat käytännöt. - Sage Publications, Inc., 2008. - ISBN 9781412940658 .
- Peter Rousseeuw, Annick M. Leroy. Robust Regression ja Outlier Detection. - Wiley, 2003. - V. 516. - (Wiley-sarja todennäköisyys- ja matemaattisissa tilastoissa). — ISBN 978-0-471-48855-2 .
- Friedrich-Wilhelm Scholz. Painotetut mediaaniregressioarviot // The Annals of Statistics. - 1978. - T. 6 , no. 3 . — S. 603–609 . - doi : 10.1214/aos/1176344204 . — .
- Pranab Kumar Sen. Regressiokertoimen arviot Kendallin tau:n perusteella. — Journal of the American Statistical Association . - 1968. - T. 63. - S. 1379-1389. - doi : 10.2307/2285891 .
- Andrew F. Siegel Vankka regressio käyttäen toistuvia mediaaneja // Biometrika. - 1982. - T. 69 , no. 1 . — S. 242–244 . - doi : 10.1093/biomet/69.1.242 .
- Gerald L. Sievers. Painotetut tilastot yksinkertaista lineaarista regressiota varten // Journal of the American Statistical Association. - 1978. - T. 73 , no. 363 . — S. 628–631 . - doi : 10.1080/01621459.1978.10480067 . — .
- Robert R. Sokal, F. James Rohlf. Biometria: Tilastojen periaatteet ja käytäntö biologisessa tutkimuksessa. - Macmillan, 1995. - ISBN 978-0-7167-2411-7 .
- H. Theil. Lineaarisen ja polynomisen regressioanalyysin järjestysinvarianttimenetelmä. I, II, III // Nederl. Akad. Wetensch., Proc.. - 1950. - T. 53 . — S. 386–392, 521–525, 1397–1412 . .
- Kalyanaraman Vaidyanathan, Kishor S. Trivedi. Kattava malli ohjelmistojen uudistamiseen // IEEE-tapahtumat luotettavassa ja suojatussa tietojenkäsittelyssä. - 2005. - Osa 2 , numero. 2 . — S. 124–137 . - doi : 10.1109/TDSC.2005.15 .
- Xueqin Wang, Qiqing Yu. Theil-Sen -estimaattorin puolueettomuus // Journal of Nonparametric Statistics. - 2005. - T. 17 , no. 6 . — S. 685–695 . - doi : 10.1080/10485250500039452 .
- Rand R. Wilcox. Huomautus Theil–Sen-regressioestimaattorista, kun regressori on satunnainen ja virhetermi on heteroskedastinen // Biometrical Journal. - 1998. - T. 40 , no. 3 . — S. 261–268 . - doi : 10.1002/(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V .
- Rand R. Wilcox. Nykyaikaisten tilastomenetelmien perusteet: Tehon ja tarkkuuden huomattava parantaminen. - Springer-Verlag, 2001. - S. 207-210. — ISBN 978-0-387-95157-7 .
- Rand R. Wilcox. Johdatus luotettavaan estimointiin ja hypoteesitestaukseen . - Academic Press, 2005. - S. 423-427 . — ISBN 978-0-12-751542-7 .
Linkit