Ydintiheyden arvio

Ytimen tiheyden arviointi ( KDE ) on ei - parametrinen menetelmä satunnaismuuttujan tiheyden arvioimiseen [ ] . Ytimen tiheyden estimointi on datan tasoitusongelma, jossa populaatio päätellään äärellisistä datanäytteistä . Joillakin aloilla, kuten signaalinkäsittelyssä ja matemaattisessa taloustieteessä , menetelmää kutsutaan myös Parzen-Rosenblatt-ikkunamenetelmäksi . Uskotaan, että Emmanuel Parzen ja Murray Rosenblatt loivat itsenäisesti menetelmän nykyisessä muodossaan [1] [2] .

Määritelmä

Olkoon yksiulotteinen näyte riippumattomista identtisesti jakautuneista suureista, jotka on erotettu jostain jakaumasta, jonka tiheys on tuntematon ƒ . Tehtävämme on estimoida funktion ƒ muoto . Sen ydintiheysestimaattori on $(x_{1},x_{2},\pisteet ,x_{n})$

{\hat {f}}_{h}(x)={\frac {1}{n}}\sum _{i=1}^{n}K_{h}(x-x_{i })={\frac {1}{nh}}\sum _{i=1}^{n}K{\Big (}{\frac {x-x_{i}}{h}}{\Big ) },

jossa K on ydin eli ei-negatiivinen funktio ja h > 0 on tasoitusparametri, jota kutsutaan kaistanleveydeksi . Ydintä, jonka indeksi on h , kutsutaan painotetuksi ytimeksi ja se määritellään nimellä . Intuitiivisesti yritetään valita h niin pieni kuin data sallii, mutta aina on valittavissa estimaattorin biasin ja sen varianssin välillä. Kaistanleveyden valintaa käsitellään tarkemmin alla. $K_{h}(x)=1/hK(x/h)$

On olemassa useita yleisimmin käytettyjä ydintoimintoja : homogeeninen, kolmiomainen, kaksipainoinen, kolmipainoinen, Epanechnikov, normaali ja muut. Epanechnikov-ydin on optimaalinen keskineliövirheen [3] mielessä , vaikka ennen sitä lueteltujen ytimien tehokkuuden menetys on pieni [4] . Kätevien matemaattisten ominaisuuksien vuoksi käytetään usein normaalia ydintä, jonka keskiarvo on , missä on standardi normaalitiheysfunktio . $K(x)=\phi (x)$ $\phi$

Ytimen tiheysestimaatin rakentaminen löytää tulkinnan tiheysestimaatin ulkopuolelta [5] . Esimerkiksi termodynamiikassa tämä vastaa lämmön määrää, joka syntyy, kun lämpöoperaattoriytimet ( lämpöyhtälön perusratkaisut ) sijoitetaan kuhunkin datapisteeseen x i . Samanlaisia menetelmiä käytetään erillisten Laplace-operaattoreiden rakentamiseen pilvipisteisiin monimuotoista oppimista varten .

Ytimen tiheysarviot liittyvät läheisesti histogrammeihin , mutta niille voidaan antaa ominaisuuksia, kuten sileys tai jatkuvuus, valitsemalla sopiva ydin. Tämän näkemiseksi verrataan histogrammin rakennetta ja ytimen tiheysarviota näissä 6 pisteessä:

yksi	2	3	neljä	5	6
-2.1	-1.3	-0.4	1.9	5.1	6.2

Histogrammissa vaaka-akseli on jaettu osaväliin, jotka kattavat tietoalueen. Tässä tapauksessa meillä on 6 palkkia, joista jokaisen pituus on 2. Kun datapiste putoaa palkin sisään, asetamme 1/12 korkeuden suorakulmion. Jos segmenttiin putoaa useampi kuin yksi piste, asetamme suorakulmiot päällekkäin.

Ytimen tiheyden arviota varten asetetaan normaali ydin, jonka varianssi on 2,25 (näkyy punaisilla katkoviivoilla) jokaiselle x i -datapisteelle . Ytimet lasketaan yhteen, jotta saadaan arvio ytimen tiheydestä (kiinteä sininen käyrä). Ytimen tiheysestimaatin tasaisuus on ilmeinen verrattuna histogrammin diskreettisyyteen, koska ytimen tiheysestimaatit konvergoivat nopeammin jatkuvien satunnaismuuttujien todelliseen taustatiheyteen [6] .

Kaistanleveyden valinta

Ytimen kaistanleveys on vapaa parametri , jolla on vahva vaikutus estimointitulokseen. Tämän vaikutuksen näyttämiseksi otamme näennäissatunnaisen näytteen tavallisesta normaalijakaumasta (näkyy sinisinä pylväinä nauhakaaviossa vaaka-akselilla). Harmaa käyrä edustaa todellista tiheyttä (normaalitiheys keskiarvolla 0 ja varianssilla 1). Vertailun vuoksi punainen käyrä ei ole tarpeeksi tasainen , koska se sisältää liian monia satunnaisia piikkejä, joita esiintyy käytettäessä kaistanleveyttä h = 0,05, mikä on liian pieni. Vihreä käyrä on ylitasoitettu , koska käytetty kaistanleveys h = 2 piilottaa rakenteen merkittävästi. Mustan käyrän, jonka kaistanleveys on h = 0,337, katsotaan olevan optimaalisesti tasoitettu, koska sen tiheysestimaatti on lähellä todellista tiheyttä.

Yleisimmin käytetty optimikriteeri tämän parametrin valinnassa on odotetun häviön funktio L 2 , jota kutsutaan myös Mean Integrated Squared Error [ ] :

\operaattorinimi {MISE} (h)=\operaattorinimi {E} \!\left[\,\int ({\hat {f))_{h}(x)-f(x))^{2 }\,dx\oikea].

Heikoilla oletuksilla funktioista ƒ ja K ( ƒ on yleensä tuntematon todellinen tiheysfunktio) [1] [2] , MISE ( h )=AMISE( h ) + o(1/(nh) + h 4 ) , missä o on "o" pieni . AMISE tarkoittaa "asymptotic MISE" (asymptotic MISE), joka koostuu kahdesta johtavasta jäsenestä

\operaattorinimi {AMISE} (h)={\frac {R(K)}{nh))+{\frac {1}{4}}m_{2}(K)^{2}h^{ 4}R(f'')

missä funktiolle g , , ja ƒ'' on funktion ƒ toinen derivaatta . Löytääkseen arvon h AMISE , jossa minimi AMISE saavutetaan, on tarpeen erottaa edellinen AMISE lauseke h :n suhteen ja saada ratkaisu seuraavasta algebrallisesta yhtälöstä [7] : $R(g)=\int g(x)^{2}\,dx$ $m_{2}(K)=\int x^{2}K(x)\,dx$ $h_{\operaattorinimi {AMISE} }$

{\frac {\partial }{\partial h))\operaattorin nimi {AMISE} (h)\equiv -{\frac {R(K)}{nh^{2))}+m_{2}( K)^{2}h^{3}R(f'')=0

tai

h_{\operatorname {AMISE} }={\frac {R(K)^{1/5}}{m_{2}(K)^{2/5}R(f'')^{1 /5}n^{1/5}}}.

AMISE:n ja h AMISEn laskentakaavoja ei voida käyttää suoraan, koska niissä on tuntematon tiheysfunktio ƒ tai sen toinen derivaatta ƒ'' , joten kaistanleveyden valintaan on kehitetty lukuisia automaattisia tietopohjaisia menetelmiä. Monissa katsauksissa on verrattu näiden menetelmien suorituskykyä [8] [9] [10] [11] [12] [13] [14] yleiseen yksimielisyyteen, jonka mukaan kytkettävät näytteenottotoiminnot [5] [15] ja ristiinvalidointitoiminnot [ 16] [17] [18] ovat hyödyllisimpiä useissa eri tietosarjoissa.

Korvaamalla minkä tahansa kaistanleveyden h , jolla on sama asymptoottinen järjestys n −1/5 kuin h AMISE :llä, saadaan , jossa O — "O" on suuri . Voidaan osoittaa, että heikoilla olettamuksilla ei voi olla ei-parametrista estimaattoria, joka konvergoi nopeammin kuin ytimen estimaattori [19] . Huomaa, että nopeus n −4/5 on pienempi kuin n − 1 parametristen menetelmien tyypillinen konvergenssinopeus . $\mathrm {AMISE} (h)=O(n^{-4/5})$

Jos kaistanleveys ei ole kiinteä ja voi muuttua riippuen joko estimaatin koon (palloestimaattori) tai otoksen koon (pistekohtainen estimaattori) sijainnista saadaan tehokas menetelmä, jota kutsutaan adaptiiviseksi ytimen tiheyden estimointimenetelmäksi . .

Kaistanleveyden valinta ytimen tiheysestimaatille hitaasti laskevan "häntän" kanssa on suhteellisen vaikea tehtävä [20] .

Nyrkkisääntö kaistanleveyden valinnassa

Jos Gaussin perusfunktioita käytetään yksimuuttujaisen datan approksimoimiseen ja arvioitu taustatiheys on Gaussin, optimaalinen valinta h :lle (eli kaistanleveys, joka minimoi keskimääräisen kertyneen neliövirheen ) on [21]

h=\left({\frac {4{\hat {\sigma }}^{5}}{3n}}\oikea)^{\frac {1}{5}}\noin 1,06{ \hat {\sigma }}n^{-1/5},

missä on näytteen keskihajonta . Approksimaatiota kutsutaan normaalijakauman approksimaatioksi , Gaussin jakaumaksi tai Silvermanin (1986) peukalosääntöksi . Vaikka tätä peukalosääntöä on laskennallisesti helppo soveltaa, sitä tulee käyttää varoen, sillä se antaa erittäin epätarkkoja arvioita, kun tiheys ei ole lähellä normaalia. Harkitse esimerkiksi bimodaalista Gaussin sekoitusestimaattia: ${\hat {\sigma ))$

\textstyle {\frac {1}{2{\sqrt {2\pi }}}}e^{-{\frac {1}{2}}(x-10)^{2}}+{ \frac {1}{2{\sqrt {2\pi }}}}e^{-{\frac {1}{2}}(x+10)^{2}}

200 pisteen näytteestä. Oikeassa alakulmassa oleva kuva näyttää todellisen tiheyden ja kaksi ytimen tiheyden arviota - toisessa nyrkkisääntöä käyttäen ja toisessa kaistanvalintaa yhtälön [5] [15] ratkaisemisen perusteella . Peukalosääntöön perustuva arvio on liian tasoitettu. Matlab-skripti käyttää esimerkkinä kde.m :ää, ja se on annettu alla.

% Data randn ( ' siemen' , 1 ) data =[ randn ( 100 , 1 ) - 10 ; randn ( 100 , 1 ) + 10 ]; % Kahden normaalijakauman sekoitus %Totta phi =@( x ) exp ( - .5 * x .^ 2 ) / sqrt ( 2 * pi ); % normaalitiheys tpdf =@( x ) phi ( x + 10 ) / 2 + phi ( x - 10 ) / 2 ; % Todellinen tiheys % Ydin h = std ( data ) * ( 4/3 / numero ( data ) ) ^ ( 1/5 ) ; _ _ % Kaistanleveys Silvermanin peukalosääntön mukaan ydin =@( x ) keskiarvo ( phi (( x - data ) / h ) / h ); % Ydintiheys kpdf =@( x ) arrayfun ( kernel , x ); % elementti sovellukselta % tontti kuva ( 2 ), clf , pidä kiinni x = linaavaruus ( -25 , +25 , 1000 ) ; _ % Viivan tiheys kuvaaja ( x , tpdf ( x )) % Todellisen tiheyden kuvaaja plot ( x , kpdf ( x )) % Ydintiheyden kuvaaja peukalosääntöllä kde ( data ) % Ytimen tiheyskäyrä ja ratkaisu yhtälöön vyöhykkeen laskemista varten

Suhde tiheysestimaattorin ominaisfunktioon

Otos annettaessa on luonnollista arvioida ominaisfunktio as $(x_{1},x_{2},\pisteet ,x_{n})$ $\varphi (t)=\mathrm {E} [e^{itX}]$

{\hat {\varphi }}(t)={\frac {1}{n}}\sum _{j=1}^{n}e^{itx_{j}}

Tuntemalla ominaisfunktion, voidaan löytää vastaava todennäköisyystiheys Fourier-muunnoskaavojen avulla . Tämän inversiokaavan soveltamisessa on yksi vaikeus, joka on se, että se johtaa divergenttiintegraaliin, koska estimaatti on epäluotettava suurelle t :lle . Tämän ongelman välttämiseksi estimaattori kerrotaan vaimennusfunktiolla , joka on 1 origossa, ja laskee sitten 0:aan äärettömässä. "Kaistanleveysparametri" h ohjaa kuinka paljon yritämme rajoittaa funktion vaihtelua . Erityisesti kun h on pieni, se on suunnilleen yhtä suuri kuin yksi suurelle t :lle , mikä tarkoittaa, että se pysyy käytännössä muuttumattomana t :n tärkeimmällä alueella . $\scriptstyle {\hat {\varphi }}(t)$ $\scriptstyle {\hat {\varphi }}(t)$ $\psi _{h}(t)=\psi (ht)$ $\scriptstyle {\hat {\varphi }}(t)$ $\psi _{h}(t)$ $\scriptstyle {\hat {\varphi }}(t)$

Yleisin tapa valita funktio on joko homogeeninen funktio , joka käytännössä tarkoittaa inversiokaavan integrointivälin katkaisemista [−1/ h , 1/ h ] tai Gaussin funktio . Kun funktio on valittu, voidaan käyttää inversiokaavaa ja tiheysestimaattori on $\psi$ ${\displaystyle \psi (t)=\mathbf {1} \{-1\leqslant t\leqslant 1\))$ $\psi (t)=e^{-\pi t^{2))$ $\psi$

{\begin{aligned}{\hat {f}}(x)&={\frac {1}{2\pi }}\int _{-\infty }^{+\infty }{\hat {\varphi }}(t)\psi _{h}(t)e^{-itx}dt={\frac {1}{2\pi }}\int _{-\infty }^{+\infty }{\frac {1}{n}}\sum _{j=1}^{n}e^{it(x_{j}-x)}\psi (ht)dt\\&={\frac { 1}{nh}}\sum _{j=1}^{n}{\frac {1}{2\pi }}\int _{-\infty }^{+\infty }e^{-i( ht){\frac {x-x_{j}}{h}}}\psi (ht)d(ht)={\frac {1}{nh}}\sum _{j=1}^{n} K{\Big (}{\frac {x-x_{j}}{h}}{\Big )},\end{aligned}}

jossa K on vaimennusfunktion Fourier-muunnos . Tällöin ytimen tiheysestimaattori on sama kuin tiheysestimaattorin ominaisfunktio. $\psi$

Tilastolliset toteutukset

Epätäydellinen luettelo ohjelmistoista, jotka toteuttavat ytimen tiheyden arvioijia:

Analytica - julkaisussa 4.4 KDE todennäköisyystiheysfunktion Smoothing-vaihtoehtoa , ja lausekkeille vaihtoehto on käytettävissä sisäänrakennetuna Pdfominaisuutena.
C / C++-kielissä FIGTree on kirjasto, jota voidaan käyttää ytimen tiheysestimaatin laskemiseen normaaleilla ytimillä. MATLAB-liitäntä saatavilla.
C++ :ssa libagf on adaptiivisen ytimen tiheyden arvioinnin kirjasto .
CrimeStatissa ytimen tiheyden estimointi on toteutettu viidellä eri ytimen funktiolla - normaali, yhtenäinen, neljännen asteen funktio, negatiivinen eksponentiaalinen ja kolmio . Käytettävissä on yhden ja kahden ytimen tiheyden arviointimenettelyjä. Ytimen tiheyden estimointia käytetään myös Head Bang -interpolointimenettelyssä, 2D-matka rikokseen -tiheysfunktion arvioinnissa ja 3D Bayesin matka rikokseen -estimaattorissa.
ELKI- kehyksessä ytimen tiheysfunktiot löytyvät paketistade.lmu.ifi.dbs.elki.math.statistics.kernelfunctions
ESRI - tuotteissa ytimen tiheyskartoitus löytyy Spatial Analyst -työkalupakista, ja se käyttää neljännen asteen (painottamatonta) ydintä.
Royal Society of Chemistry on luonut Excel -ohjelmaa varten lisäosan ydintiheyden arvioimiseksi, joka perustuu Analytical Methods Committeen tekniseen esitykseen 4 .
Gnuplotissa ytimen tiheysarvio toteutetaan valinnalla smooth kdensity, datatiedosto voi sisältää painon ja kaistanleveyden jokaiselle pisteelle tai kaistanleveys voidaan asettaa automaattisesti [22] "Silvermanin peukalosääntön" mukaisesti (katso yllä).
Haskellissa ytimen tiheys on toteutettu tilastopaketissa .
IGOR Prossa ytimen tiheyden arviointi toteutetaan operaationa StatsKDE(lisätty Igor Pron versioon 7.00). Kaistanleveys voidaan määrittää tai arvioida Silvermanin, Scottin tai Bowmannin ja Azzalinin keskiarvoilla. Ydintyypit: Epanechnikov, bi-painotettu, kolmipainoinen, kolmiomainen, Gaussin ja suorakaiteen muotoinen.
Java-kielessä Weka - paketti sisältää muun muassa weka.estimators.KernelEstimatorin .
JavaScriptissä D3.js - visualisointipaketti sisältää KDE paketin science.stats-paketissa.
JMP - paketti voi käyttää "Jakelualustaa" 1D-ytimen tiheysestimaatin luomiseen, ja "Fit Y by X -alustaa" voidaan käyttää 2D-ytimen tiheysestimaatin luomiseen.
Julia -kielessä ytimen tiheyden arviointi on toteutettu KernelDensity.jl-paketissa .
MATLABissa ytimen tiheyden arviointi toteutetaan funktion ksdensity(Statistics Toolbox) kautta. MATLABin 2018-julkaisussa sekä kaistanleveys että ytimen tasoittaja voidaan määrittää , mukaan lukien muut vaihtoehdot, kuten ytimen tiheysrajojen määrittäminen. Vaihtoehtoisesti MATLABille on saatavana ilmainen paketti, joka toteuttaa automaattisen kaistanleveyden valinnan [5] "MATLAB Central File Exchange" -sivulta.
- 1-ulotteinen data
- 2-ulotteinen data
- n-Dimensional Data Tällä sivulla
  on saatavilla ilmainen MATLAB-työkalusarja, joka sisältää ytimen regression, ytimen tiheyden arvioinnin, ytimen riskifunktion arvioinnin ja paljon muuta (tämä työkalupakki on osa Kernel Smoothing in MATLAB -kirjaa [23] ).
Mathematica - järjestelmässä ytimen jakauman numeerinen arviointi on toteutettu funktiona SmoothKernelDistribution tässä ja symbolinen evaluointi KernelMixtureDistribution tässä funktiolla , ja molemmat toteutukset valitsevat kaistanleveyden esitetystä tiedosta.
Minitab - pakettia varten Royal Society of Chemistry loi makron ydintiheyden estimointiin perustuen heidän Analytical Methods Committeen tekniseen tiedotteeseen 4 .
NAG -kirjastossa ytimen tiheyden estimointi toteutetaan menettelyllä (saatavilla Fortranissa [24] ja C [25] ).g10ba
Nuklei -kirjastossa ydintiheysmenetelmät C++ : ssa keskittyvät erityiseen euklidiseen ryhmään kuuluviin meloneihin . $SE(3)$
Octave - järjestelmässä ytimen tiheyden estimointi on toteutettu ominaisuutena kernel_density(matematical Economics paketti).
Origin 2D -paketissa ytimen tiheyskaavio voidaan piirtää paketin käyttöliittymän avulla, ja koodit kahdelle funktiolle Ksdensity for 1D ja Ks2density for 2D voidaan ottaa LabTalkissa , Pythonissa tai C : ssä.
Perlissä toteutus löytyy Statistics-KernelEstimati- moduulista
PHP : ssä toteutus löytyy MathPHP-kirjastosta
Pythonissa on monia toteutuksia : pyqt_fit.kde-moduuli PyQt -Fit-paketissa , SciPy ( scipy.stats.gaussian_kdeja scipy.signal.parzen), Statsmodels ( KDEUnivariateja KDEMultivariate) ja Scikit-learn ( KernelDensity) (katso vertailu [26] ). KDEpy tukee painotettua dataa, ja FFT-toteutus on suuruusluokkaa nopeampi kuin muut toteutukset.
R-kielessä tämä on toteutettu kautta densityperusjakelussa , kautta KernSmooth-kirjastossa , bkdekautta AdaptGauss-kirjastossa (pareto-jakauman tiheyden arvioimiseksi), kautta ks -kirjastossa , kautta ja evmix - kirjastossa , np-kirjasto (numeerinen ja kategorinen data), kirjastossa sm . Katso kde.R kohdasta ominaisuustoteutus , joka ei vaadi paketin tai kirjaston asentamista . Kaupunkianalyysiin suunniteltu btb-kirjasto toteuttaa ytimen tiheysarvion kautta .ParetoDensityEstimationkdedkdendbckdennpudenssm.densitykde.R kernel_smoothing
SAS - järjestelmässä (ohjelma) voidaan käyttää proseduuria proc kdeyksi- ja kaksiulotteisten ydintiheyden arvioimiseksi.
Stata -paketissa tämä on toteutettu esimerkiksi muodossa [ kdensity27]histogram x, kdensity . Vaihtoehtoisesti Statan ilmainen KDENS-moduuli on saatavilla täältä , jonka avulla voit arvioida 1D- tai 2D-tiheysfunktioita.
Apache Sparkissa voit käyttää luokkaa KernelDensity()(katso virallinen dokumentaatio )

Katso myös

Ydin (tilastot)
Nuclear Smoother
ydinregressio
Tiheysarvio (muiden esimerkkien kanssa)
Keskimääräinen vaihtomenettely
Monimuuttuja ytimen tiheyden arvio
Mukautuva ytimen tiheyden arvio

Muistiinpanot

↑ 1 2 Rosenblatt, 1956 , s. 832.
↑ 1 2 Parzen, 1962 , s. 1065.
↑ Epanetšnikov, 1969 , s. 153-158.
↑ Wand, Jones, 1995 .
↑ 1 2 3 4 Botev, Grotowski, Kroese, 2010 , s. 2916–2957.
↑ Scott, 1979 , s. 605–610.
↑ V. A. Epanetšnikov, "Moniulotteisen todennäköisyystiheyden ei-parametrinen estimointi", Teor. Veroyatnost. ja sen sovellus, 14:1 (1969), 156–161; Teoria Probab. Appl. 14:1 (1969), 153–158 . www.mathnet.ru _ Haettu: 31.1.2022. (määrätön)
↑ Park, Marron, 1990 , s. 66–72.
↑ Park, Turlach, 1992 , s. 251-270.
↑ Cao, Cuevas, Manteiga, 1994 , s. 153-176.
↑ Jones, Marron, Sheather, 1996 , s. 401–407.
↑ Sheather, 1992 , s. 225-250, 271-281.
↑ Agarwal, Aluru, 2010 , s. 575–597.
↑ Xu, Yan, Xu, 2015 , s. 28–37.
↑ 1 2 Sheather, Jones, 1991 , s. 683–690.
↑ Rudemo, 1982 , s. 65–78.
↑ Bowman 1984 , s. 353-360.
↑ Hall, Marron, Park, 1992 , s. 1–20.
↑ Wahba, 1975 , s. 15-29.
↑ Buch-Larsen, 2005 , s. 503–518.
↑ Silverman, 1986 , s. 48.
↑ Janert, 2009 , s. kohta 13.2.2.
↑ Horová, Koláček, Zelinka, 2012 .
↑ Numeeristen algoritmien ryhmän NAG-kirjaston rutiiniasiakirja: nagf_smooth_kerndens_gauss (g10baf) . NAG Library Manual, Mark 23 . Haettu: 16. helmikuuta 2012. (määrätön)
↑ Numeeristen algoritmien ryhmän NAG-kirjaston rutiiniasiakirja: nag_kernel_density_estim (g10bac) (downlink) . NAG Library Manual, Mark 9 . Käyttöpäivä: 16. helmikuuta 2012. Arkistoitu alkuperäisestä 24. marraskuuta 2011. (määrätön)
↑ Vanderplas, Jake Ytimen tiheyden arviointi Pythonissa (1. joulukuuta 2013). Haettu: 12. maaliskuuta 2014. (määrätön)
↑ https://www.stata.com/manuals13/rkdensity.pdf

Kirjallisuus

Rosenblatt M. Huomautuksia joistakin tiheysfunktion ei-parametrisista arvioista // The Annals of Mathematical Statistics. - 1956. - T. 27 , no. 3 . - doi : 10.1214/aoms/1177728190 .
Parzen E. Todennäköisyystiheysfunktion ja -moodin arvioinnista // The Annals of Mathematical Statistics . - 1962. - T. 33 , no. 3 . - doi : 10.1214/aoms/1177704472 . — .
Epanechnikov VA Monimuuttujan todennäköisyystiheyden ei-parametrinen estimointi // Todennäköisyysteoria ja sen sovellukset. - 1969. - T. 14 . - doi : 10.1137/1114019 .
Wand MP, Jones MC Kernel Smoothing. — Lontoo: Chapman & Hall/CRC, 1995. — ISBN 0-412-55270-1 .
Botev ZI, Grotowski JF, Kroese DP Ytimen tiheyden estimointi diffuusion kautta // Annals of Statistics . - 2010. - T. 38 , no. 5 . - doi : 10.1214/10-AOS799 . - arXiv : 1011.2602 .
Scott D. Optimaalisista ja tietoihin perustuvista histogrammeista // Biometrika. - 1979. - T. 66 , no. 3 . - doi : 10.1093/biomet/66.3.605 .
Park BU, Marron JS Data-ohjattujen kaistanleveysvalitsimien vertailu // Journal of the American Statistical Association . - 1990. - T. 85 , no. 409 . - doi : 10.1080/01621459.1990.10475307 . — .
Park BU, Turlach BA Useiden dataohjattujen kaistanleveysvalitsimien käytännöllinen suorituskyky (keskustelulla) // Computational Statistics. - 1992. - T. 7 . — S. 251–270 .
Cao R., Cuevas A., Manteiga WG Vertaileva tutkimus useista tasoitusmenetelmistä tiheysestimoinnissa // Computational Statistics and Data Analysis. - 1994. - T. 17 , no. 2 . - doi : 10.1016/0167-9473(92)00066-Z .
Jones MC, Marron JS, Sheather SJ Lyhyt kysely kaistanleveyden valinnasta tiheyden estimointia varten // Journal of the American Statistical Association. - 1996. - T. 91 , no. 433 . - doi : 10.2307/2291420 . — .
Sheather SJ Kuuden suositun kaistanleveyden valintamenetelmän suorituskyky joissakin todellisissa tietojoukoissa (keskustelun kanssa) // Computational Statistics. - 1992. - T. 7 .
Agarwal N., Aluru NR Tietoihin perustuva stokastinen kollokaatiomenetelmä epävarmuuden kvantifiointiin MEMS:ssä // International Journal for Numerical Methods in Engineering. - 2010. - T. 83 , no. 5 .
Xu X., Yan Z., Xu S. Tuulennopeuden todennäköisyysjakauman arviointi diffuusiopohjaisella ytimen tiheysmenetelmällä // Electric Power Systems Research. - 2015. - T. 121 . — S. 28–37 .
Sheather SJ, Jones MC Luotettava tietoon perustuva kaistanleveyden valintamenetelmä ytimen tiheyden arviointiin // Journal of the Royal Statistical Society, Series B. - 1991. - V. 53 , no. 3 . — .
Rudemo M. Histogrammien ja ytimen tiheysestimaattien empiirinen valinta // Scandinavian Journal of Statistics. - 1982. - T. 9 , no. 2 . — .
Bowman AW Vaihtoehtoinen ristiinvalidointimenetelmä tiheysestimaattien tasoittamiseen // Biometrika. - 1984. - T. 71 , no. 2 . - doi : 10.1093/biomet/71.2.353 .
Hall P., Marron JS, Park BU Tasoitettu ristiinvalidointi // Probability Theory and Related Fields. - 1992. - T. 92 . - S. 1-20 . - doi : 10.1007/BF01205233 .
Wahba G. Muuttuvan solmun, ytimen ja ortogonaalisen sarjan menetelmien optimaaliset konvergenssiominaisuudet tiheyden estimointiin // Annals of Statistics . - 1975. - T. 3 , no. 1 . - doi : 10.1214/aos/1176342997 .
Piikki Buch-Larsen. Ytimen tiheyden estimointi raskaan pyrstön jakaumille Champernownen muunnolla // Tilastot. - 2005. - T. 39 , no. 6 . - doi : 10.1080/02331880500439782 .
Silverman BW -tiheysarvio tilastoja ja tietojen analysointia varten. — Lontoo: Chapman & Hall/CRC, 1986. — ISBN 0-412-24620-1 .
Philip K Janet. osa 13.2.2 Ytimen tiheysarviot // Gnuplot toiminnassa : tietojen ymmärtäminen kaavioiden avulla. - Connecticut, USA: Manning Publications, 2009. - ISBN 978-1-933988-39-9 .
Horová I., Koláček J., Zelinka J. Kernel Smoothing in MATLAB: Theory and Practice of Kernel Smoothing. - Singapore: World Scientific Publishing, 2012. - ISBN 978-981-4405-48-5 .

Linkit

Johdatus ytimen tiheyden arviointiin Lyhyt johdanto, jossa selitetään ytimen tiheyden estimointi histogrammien parannuksena.
Ytimen kaistanleveyden optimointi Ilmainen online-työkalu, joka luo optimoidun ytimen tiheysarvion tiedoistasi.
Ilmainen online-ohjelmisto (laskin) laskee ytimien tiheysarvion mille tahansa näytteelle ytimistä: Gaussin, epanechnikov, suorakulmainen, kolmiomainen, bi-painotettu, kosini ja optkosiini.
Ytimen tiheyden arviointisovelma Interaktiivinen online-esimerkki ytimen tiheyden arvioinnista. Vaatii NET-version 3.0 tai uudemman.