Skaala-invariantti ominaisuusmuunnos

Scale -invariant feature transform ( SIFT ) on piirteiden havaitsemisalgoritmi [ tietokonenäössä kuvien paikallisten piirteiden havaitsemiseen ja kuvaamiseen. Algoritmin patentoi Kanadassa Brittiläisen Kolumbian yliopisto [1] ja David Lowe julkaisi vuonna 1999 [2] . Sovelluksia ovat kohteen tunnistus , robottikartoitus ja robottinavigointi, kuvien yhdistäminen [ , 3D-mallinnus , eleiden tunnistus , seuranta , villieläinten tunnistus ja sijainnin seuranta .

Ensin objektien avainpisteet erotetaan SIFT:ssä viitekuvista [2] ja tallennetaan tietokantaan. Kohde tunnistetaan uudessa kuvassa vertaamalla kutakin piirrettä uudesta kuvasta tietokannan ominaisuuksiin ja etsimällä ehdokaspiirteitä piirrevektorien välisen euklidisen etäisyyden perusteella. Uuden kuvan kaikista vastaavuuksista valitaan avainpisteiden osajoukot, jotka vastaavat parhaiten kohdetta sen sijainnin, mittakaavan ja suunnan suhteen. Sopivien ominaisuuslohkojen määrittäminen on nopeaa yleisen Hough-muunnoksen tehokkaalla hash-taulukon toteutuksella . Jokaisen kolmen tai useamman ominaisuuden lohkon, joka on yhdenmukainen kohteen ja sen sijainnin kanssa, mallin sopivuus tarkistetaan tarkemmin, ja poikkeamat hylätään. Lopuksi lasketaan todennäköisyys, että tietty ominaisuusjoukko ilmaisee kohteen olemassaolon, mikä antaa tietoa osuman tarkkuudesta ja mahdollisten ohitusten lukumäärästä. Objekteja, jotka läpäisevät kaikki nämä testit, voidaan pitää oikeina suurella varmuudella [3] .

Yleiskatsaus

Kaikille kuvan kohteille voidaan poimia piirrepisteitä, jotka tarjoavat objektin "ominaisuuskuvauksen". Tätä harjoituskuvasta saatua kuvausta voidaan sitten käyttää kohteen tunnistamiseen, kun kohde yritetään paikantaa testikuvassa, joka sisältää monia muita kohteita. Luotettavan tunnistuksen kannalta on tärkeää, että harjoituskuvasta poimitut ominaisuudet voidaan havaita myös kuvan mittakaavan, kohinan ja valaistuksen muutoksilla. Tällaiset pisteet sijaitsevat yleensä suurikontrastisilla alueilla, kuten esineiden reunoilla.

Toinen näiden ominaisuuksien tärkeä ominaisuus on, että niiden väliset suhteet eivät saa muuttua kuvasta toiseen. Jos esimerkiksi vain oven neljää kulmaa käytettäisiin kyltteinä, ne toimisivat oven asennosta riippumatta. Mutta jos käytettäisiin myös ovenpitimen pisteitä, tunnistus saattaa epäonnistua, koska ovi saattaa olla auki tai kiinni. Samoin nivellettyihin tai joustaviin objekteihin sijoitetut ominaisuudet eivät yleensä toimi, jos käsittelyjoukon kahden kuvan välillä tapahtuu muutoksia sisäisessä geometriassa. Käytännössä SIFT kuitenkin havaitsee ja käyttää paljon suuremman määrän kuvaominaisuuksia, mikä vähentää kunkin näiden paikallisten muutosten aiheuttaman virheen osuutta kaikkien ominaisuuksien yhteensopivuusvirheiden kokonaisvirheeseen.

SIFT [1] voi valita kohteet luotettavasti myös melun ja osittaisen päällekkäisyyden yhteydessä, koska SIFT-ominaisuuden kuvaaja on muuttumaton suhteelliselle skaalalle , suunnalle , valaistuksen muutoksille ja on osittain invariantti affiineille vääristymille [2] . Tässä osiossa kuvataan alkuperäinen SIFT-algoritmi ja mainitaan useita kilpailevia tekniikoita, jotka ovat käytettävissä meluisten ja päällekkäisten kohteiden tunnistamiseen.

SIFT-kuvaaja perustuu kuvamittauksiin reseptorikenttien suhteen [4] [5] [6] [7] , joille muodostetaan paikalliset mittakaavaltaan muuttumattomat viitekehykset [8] [9] valitsemalla paikallinen asteikko [10] . [11] [9] . Algoritmin yleinen teoreettinen selitys on annettu Scholarpedian SIFT-projektipaperissa [12] .

Tehtävä	Tekniikka	Etu
avaimen sijainti / mittakaava / kierto	Gaussin ero / avaruuden asteikkojen pyramidi / suuntien antaminen	tarkkuus, vakaus, mittakaava ja kiertoinvarianssi
geometrinen vääristymä	paikallisten kuvan suuntatasojen sumennus/näytteistys	affiininen invarianssi
indeksointi ja sovittaminen	lähin naapuri / hae "Best Bin First"	Tehokkuus / nopeus
Klusterin tunnistus	Hough muuttaa äänestää	luotettavia asentomalleja
Mallin validointi / poikkeamien havaitseminen	Lineaariset pienimmän neliösumman	parempi virhetoleranssi vähemmällä yhdenmukaisuudella
Hypoteesin hyväksyntä	Bayesin todennäköisyysanalyysi	luotettavuus

Perusvaiheet

Mittakaavamuuttumattomien ominaisuuksien havaitseminen

Lowen menetelmä kuvan piirteiden luomiseksi muuntaa kuvan suureksi joukoksi piirrevektoreita, joista jokainen on muuttumaton (rinnakkaisen) kuvan muunnoksen, skaalauksen ja kierron aikana, osittain invariantti valaistuksen muutoksille ja kestää paikallisia geometrisia vääristymiä. Näillä ominaisuuksilla on samanlaiset ominaisuudet kuin päänäön aivokuoren neuroneilla, jotka koodaavat perusmuodon, värin ja esineen liikkeen havaitsemista kädellisten näössä [13] . Sijaintinäppäimet määritellään Gaussin erofunktion ja minimiarvoksi, jota sovelletaan skaalausavaruudessa tasoitettujen ja uudelleen hahmonnettujen kuvien sarjaan. Ehdokaspisteet, joissa on alhainen kontrasti ja pisteet reunoilla, hylätään. Lokalisoiduille avainpisteille on määritetty hallitsevat suuntaukset. Nämä vaiheet lisäävät vakautta vastaavuuden ja tunnistamisen avainpisteille. SIFT-kuvaajat, jotka kestävät paikallisia affiinirikkomuksia, saadaan sitten tarkastelemalla pikseleitä avaimen sijainnin ympärillä sumentamalla ja näyttelemällä uudelleen paikalliset kuvan suuntatasot.

Ominaisuuden haku ja indeksointi

Indeksointi koostuu SIFT-avainten muistamisesta ja vastaavien avainten tunnistamisesta uudesta kuvasta. Lowe käytti muunnelmaa k-ulotteisesta puualgoritmista, jota kutsutaan best-bin-first (BBF) [14] -hakumenetelmäksi , joka pystyy tunnistamaan lähimmän naapurin suurella todennäköisyydellä käyttämällä vain rajoitettua määrää laskelmia. BBF-algoritmi käyttää muokattua hakujärjestystä k-ulotteiselle puualgoritmille siten, että piirreavaruuden alueita etsitään niiden lähimmän etäisyyden mukaan pyydetystä sijainnista. Tämä hakujärjestys edellyttää kasaan perustuvan prioriteettijonon käyttöä hakujärjestyksen määrittämiseksi tehokkaasti. Paras ehdokas kuhunkin avainpisteeseen löydetään perustamalla sen lähin naapuri avainpistetietokantaan harjoituskuvista. Lähimmät naapurit määritellään avainpisteiksi, joilla on pienin euklidinen etäisyys annetusta kuvaajavektorista. Todennäköisyys, että vastaavuus on oikea, voidaan määrittää laskemalla etäisyyden suhde lähimmästä naapurista toiseen lähimpään naapuriin.

Matala [3] hylkäsi kaikki ottelut, joissa etäisyyssuhde on suurempi kuin 0,8, mikä eliminoi 90 % virheellisistä osumista ja hylkäsi alle 5 % oikeista osumista. Parantaakseen suorituskykyä entisestään paras roskakori ensin -hakualgoritmi pysähtyy tarkistettuaan 200 ensimmäistä lähintä naapuriehdokasta. Tietokannassa, jossa on 100 000 avainpistettä, tämä lisää nopeutta verrattuna tarkkaan naapureiden etsimiseen 2 suuruusluokkaa, kun taas väärä valinta ei ylitä 5 % oikeista osumista.

Klusterin tunnistaminen äänestämällä Hough-muunnosta

Hough-muunnosta käytetään klusteroimaan vankka hypoteesimalli ja etsimään avaimia, jotka ovat yhdenmukaisia tietyn mallin sijainnin kanssa Hough-muunnos paljastaa piirteiden klustereita, joiden tulkinta on johdonmukainen, äänestämällä kunkin ominaisuuden puolesta kaikille ominaisuuden mukaisille objektipaikoille. Kun objektin samalle paikalle löydetään piirreryhmiä äänillä, oikean tulkinnan todennäköisyys on paljon suurempi kuin minkään yksittäisen ominaisuuden todennäköisyys. Luodaan hash-taulukon merkintä, joka sisältää arvioidun sijainnin, suunnan ja asteikon vastaavuushypoteesista. Hash-taulukosta etsitään tunnistaakseen kaikki klusterit, joissa on alueella vähintään 3 elementtiä, ja alueet lajitellaan pienenevän koon mukaan.

Jokainen SIFT-avainpiste määrittää 2D-sijainnin, mittakaavan ja suunnan, ja jokaisella tietokannan avainpisteellä on merkintä parametreineen, jotka liittyvät harjoituskuvaan, josta se löydettiin. Näistä neljästä parametrista johtuva analoginen muunnos on vain likiarvo 3D-objektien 6 vapausasteen koko sijaintiavaruuteen, eikä se myöskään ota huomioon joustavia muodonmuutoksia. Näin ollen Lowe [3] käytti 30 asteen aluekokoja sijainnin suuntaamiseen, kerrointa 2 mittakaavaan ja kerrointa 0,25 harjoituskuvan maksimiprojektiokoon (käyttämällä ennustettua skaalaa). Suuressa mittakaavassa luoduille SIFT-avaimille annetaan kaksinkertainen paino verrattuna pienemmän mittakaavan avaimiin. Tämä tarkoittaa, että suurempi mittakaava pystyy suodattamaan pois todennäköisempiä naapureita testaamaan pienemmässä mittakaavassa. Se myös parantaa tunnistussuorituskykyä antamalla enemmän painoa vähemmän meluisalle vaakalle. Rajausvaikutusten ongelman välttämiseksi aluetta määritettäessä jokainen avainpiste tarkastelee 2 lähimmän alueen ääniä kumpaankin suuntaan, jolloin kullekin hypoteesille saadaan yhteensä 16 arvoa ja hämärtää sijaintihajautta entisestään.

Pienimmän neliösumman mallin validointi

Jokaiseen perustettuun klusteriin sovelletaan tarkistusmenettelyä, joka suorittaa pienimmän neliösumman kuvamalliin liittyville affiinimuunnosparametreille . Mallipisteen [xy] T affiinimuunnos kuvapisteeksi [uv] T voidaan kirjoittaa seuraavasti

{\begin{bmatrix}u\\v\end{bmatrix}}={\begin{bmatrix}m1&m2\\m3&m4\end{bmatrix}}{\begin{bmatrix}x\\y\end{bmatrix ))+{\begin{bmatrix}tx\\ty\end{bmatrix}}

missä rinnakkaistranslaatio on [tx ty] T , ja affiinikiertoa, mittakaavaa ja venytystä edustavat parametrit m1, m2, m3 ja m4. Muunnosparametrien saamiseksi yhtälö voidaan kirjoittaa uudelleen niin, että kaikki tuntemattomat ovat sarakevektorissa.

{\begin{bmatrix}x&y&0&0&1&0\\0&0&x&y&0&1\\..\\..\end{bmatrix}}{\begin{bmatrix}m1\\m2\\m3\\m4\\tx \\ty\ end{bmatrix}}={\begin{bmatrix}u\\v\\.\\.\end{bmatrix}}

Tasa-arvo näyttää yhden osuman, mutta voit lisätä minkä tahansa määrän osumia, jolloin jokainen vastaavuus lisää kaksi riviä ensimmäiseen ja viimeiseen matriisiin. Ratkaisun saamiseksi tarvitaan vähintään 3 osumaa. Voimme kirjoittaa tämän lineaarisen järjestelmän muodossa

A{\hat {\mathbf {x} }}\noin \mathbf {b} ,

missä A on tunnettu matriisi (yleensä m > n ), x on tuntematon n - ulotteinen parametrivektori ja b on tunnettu m - ulotteinen ulottuvuusvektori. $m\ kertaa n$

Näin ollen minimoiva vektori on ratkaisu normaaliyhtälöön ${\hat {\mathbf {x} ))$

A^{T}\!A{\hat {\mathbf {x} }}=A^{T}\mathbf {b} .

Lineaarisen yhtälöjärjestelmän ratkaisu on annettu matriisina, jota kutsutaan pseudoinversiomatriisiksi A : lle muodossa ${\näyttötyyli (A^{T}A)^{-1}A^{T}}$

{\hat {\mathbf {x} }}=(A^{T}\!A)^{-1}A^{T}\mathbf {b} .

joka minimoi mallin sijaintiprojektioiden neliöetäisyyksien summan vastaaviin kuvapaikkoihin.

Poikkeamien tunnistaminen

Poikkeamat voidaan nyt hylätä tarkistamalla kunkin kuvan ominaisuuden ja parametriratkaisun antaman mallin välinen sopimus. Kun pienimmän neliösumman ratkaisu on annettu, jokaisen vastaavuuden tulee olla korkeintaan puolet virhevälistä, jota käytettiin Hough-muunnosalueiden parametreille . Poikkeamat hylätään, pienimmän neliösumman ratkaisu lasketaan uudelleen jäljelle jääville pisteille ja prosessi toistetaan. Jos poikkeamien hylkäämisen jälkeen on jäljellä alle 3 pistettä , ottelu hylätään. Lisäksi ylhäältä alas -sovitusvaihetta käytetään lisäämään kaikki muut sovitukset, jotka ovat yhdenmukaisia projisoidun mallin sijainnin kanssa ja jotka Hough-muunnosalue voi jättää huomiotta samanlaisten muunnosten approksimoinnin tai muiden virheiden vuoksi.

Lopullinen päätös hyväksyä tai hylätä hypoteesimalli perustuu yksityiskohtaiseen todennäköisyysmalliin [15] . Tämä menetelmä laskee ensin sijaintimallin odotetun virhevastaavuuksien määrän mallin koon, alueen piirteiden lukumäärän ja sovituksen tarkkuuden perusteella. Bayes-analyysi antaa sitten todennäköisyyden, että objekti on läsnä, perustuen löydettyjen ominaisuusosumien todelliseen määrään. Malli hyväksytään, jos oikean tulkinnan lopullinen todennäköisyys on suurempi kuin 0,98. Lowen kehittämään SIFT-menetelmään perustuen kohteen tunnistus antaa erinomaisia tuloksia paitsi valaistuksen laajan leviämisen ja ei-jäykkien muunnosten yhteydessä.

Kyltit

Paikallisten kuvan ominaisuuksien havaitseminen ja kuvaus voi auttaa kohteen tunnistamisessa. SIFT-ominaisuudet ovat paikallisia ja perustuvat objektin ilmentymiin tietyissä yksittäispisteissä. Ne ovat skaalaus- ja kiertoinvariantteja. Ne kestävät myös valaistuksen muutoksia, melua ja pieniä muutoksia näkökulmassa. Näiden ominaisuuksien lisäksi ne ovat hyvin erotettavissa, suhteellisen helppo hakea ja mahdollistavat kohteen tunnistamisen pienellä virheellä. Ne on suhteellisen helppo löytää (suuresta) paikallisten ominaisuuksien tietokannasta, mutta ominaisuuksien suuri ulottuvuus voi kuitenkin aiheuttaa vaikeuksia, joten todennäköisyyspohjaiset algoritmit, kuten k-ulotteiset puut best-bin-first -haulla ( BBF) käytetään. Objektin kuvaus SIFT-ominaisuuksilla on vakaa myös osittaisen päällekkäisyyden suhteen, koska jopa kolme objektin SIFT-ominaisuutta riittää laskemaan kohteen paikan ja sijainnin. Tunnistus voidaan suorittaa lähes reaaliajassa, ainakin pienille tietokantoille nykyaikaisista tietokonelaitteistoista.

Algoritmi

Paljastaa mittakaava-avaruuden ääripäät

Aloitamme tunnistamalla pisteet, joita kutsutaan SIFT:n avainpisteiksi . Kuva konvoloidaan Gaussin suodattimilla eri mittakaavassa, ja sitten lasketaan peräkkäisten Gaussin sumeiden kuvien ero . Avainpisteet otetaan sitten näytteiksi Gaussin maksimi/minimi-erona, joka esiintyy eri asteikoissa. Gaussin ero saadaan lausekkeella $D\left(x,y,\sigma \right)$

D\left(x,y,\sigma \right)=L\left(x,y,k_{i}\sigma \right)-L\left(x,y,k_{j}\sigma \ oikein)

, missä on alkuperäisen kuvan konvoluutio, jossa on Gaussin sumeus mittakaavassa , eli

L\left(x,y,k\sigma \oikea)

I\left(x,y\right)

G\left(x,y,k\sigma \oikea)

k\sigma

L\left(x,y,k\sigma \right)=G\left(x,y,k\sigma \oikea)*I\left(x,y\oikea)

Näin ollen kuva Gaussin erosta asteikkojen välillä ja on ero Gaussin sumennettujen kuvien asteikoilla ja . Skaalausavaruuden ääripään määrittämiseksi SIFT-algoritmissa kuva konvoloidaan ensin Gaussin sumealla eri mittakaavassa. Pikkukuvat ryhmitellään oktaavin mukaan (oktaavi vastaa arvon kaksinkertaistamista ) ja arvo valitaan siten, että saamme kiinteän määrän pikkukuvia oktaavia kohden. Sitten lasketaan Gaussin erotus vierekkäisistä Gaussin sumeista kuvista oktaavissa. $k_{i}\sigma$ $k_{j}\sigma$ $k_{i}\sigma$ $k_{j}\sigma$ $\sigma$ $k_i$

Kun kuvan Gauss-ero on saatu, avainpisteet määritellään kuvan Gaussin eron paikalliseksi minimi-/maksimiarvoksi mallien välillä. Tämä tehdään vertaamalla kutakin pikseliä kuvan Gaussin erotukseen sen kahdeksalla naapurialueella samassa mittakaavassa ja yhdeksässä vastaavassa naapuripikselissä kullakin naapuriasteikolla. Jos pikseliarvo on suurin tai pienin kaikkien vertailupisteiden joukossa, se valitaan avainpisteehdokkaaksi.

Tämä avainpisteen ilmaisuvaihe on muunnelma yhdestä Lindebergin pistehavaitsemismenetelmistä etsimällä ääriarvot asteikkoavaruudesta normalisoituna Laplacian asteikolle [10] [11] . Toisin sanoen sellaisten pisteiden määrittäminen, jotka ovat paikallisia äärimmäisyyksiä, ottaen huomioon sekä spatiaalisen sijainnin että mittakaavan, diskreetissä tapauksessa verrattuna lähimpään 26:een naapuriin diskretisoidussa tilavuudessa mittakaavatilassa. Gaussin erooperaattoria voidaan pitää laplacian approksimaationa, pyramidin implisiittisellä normalisoinnilla , joka sisältää myös diskreetin skaalanormalisoidun Laplacian approksimaation [12] . Lindeberg ja Bretzner esittelivät toisen reaaliaikaisen inkarnaation Laplace-operaattorin skaalaavaruuden äärimmäisyyksien etsinnästä, se perustuu hybridipyramidiesitykseen [16] , jota käytettiin tietokoneen ja ihmisen välisessä vuorovaikutuksessa reaaliaikaiseen eleiden tunnistamiseen. [17] .

Avainkohtien lokalisointi

Mittakaava-avaruuden ääriarvojen määrittäminen antaa liian monta ehdokasta avainpisteisiin, joista osa on epävakaita. Seuraava askel algoritmissa on suorittaa yksityiskohtainen naapurisovitus tarkan sijainnin, mittakaavan ja pääkaarevuussuhteen mukaan . Näiden tietojen avulla voit hylätä pisteet, joissa on pieni kontrasti (ja siksi herkkiä kohinalle) tai jotka sijaitsevat huonosti reunassa.

Viereisten tietojen interpolointi sijainnin tarkkuuteen

Ensinnäkin kunkin vihjepisteehdokkaan kohdalla käytetään lähellä datan interpolointia sijainnin määrittämiseen tarkasti. Alkuperäinen lähestymistapa oli määrittää kunkin avainpisteen sijainti avainpisteehdokkaan sijainnin ja asteikon perusteella [2] . Uusi lähestymistapa laskee ääripään interpoloidun sijainnin, mikä parantaa merkittävästi istuvuutta ja vakautta [3] . Interpolointi suoritetaan käyttämällä Gaussin mittakaavaero-funktion neliöllistä Taylor - laajennusta avainpisteehdokkaan ollessa origossa. Tämä Taylor-laajennus saadaan yhtälöstä: $D\left(x,y,\sigma \right)$

D({\textbf {x}})=D+{\frac {\partial D^{T}}{\partial {\textbf {x}}}}{\textbf {x}}+{\frac {1}{2}}{\textbf {x}}^{T}{\frac {\partial ^{2}D}{\partial {\textbf {x}}^{2}}}{\textbf { x}}

missä D ja sen derivaatta lasketaan ehdokaspisteessä ja on siirtymä tästä pisteestä. Ekstreemumin sijainti määritetään ottamalla tämän funktion derivaatta suhteessa nollaan ja yhtälöllä se. Jos siirto on suurempi jompaankumpaan suuntaan, tämä osoittaa, että ääripiste on lähempänä toista avainpisteehdokasta. Tässä tapauksessa avainpisteehdokasta muutetaan ja tälle pisteelle suoritetaan interpolointi. Muussa tapauksessa avainpisteehdokkaaseen lisätään poikkeama interpoloidun arvion saamiseksi ääripisteen sijainnista. Samanlainen asteikkoavaruuden ääripisteiden sijainnin alipikselimääritys, jonka ovat kehittäneet Lindeberg et al., suoritetaan reaaliajassa hybridipyramidien perusteella [16] . ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ ${\displaystyle {\hat {\textbf {x))))$ $\textbf{x}$ ${\displaystyle {\hat {\textbf {x))))$ $0.5$

Alhaisen kontrastin tärkeimpien kohtien poistaminen

Vähäkontrastisten avainpisteiden hylkäämiseksi lasketaan toisen asteen Taylor-laajennus , jossa on harha . Jos tämä arvo on pienempi kuin , avainpisteehdokas hylätään. Muussa tapauksessa se tallennetaan sijainnilla äärellisessä mittakaavassa , missä on avainpisteen alkuperäinen sijainti. $D({\textbf {x)))$ ${\displaystyle {\hat {\textbf {x))))$ $0.03$ ${\textbf {y}}+{\hat {\textbf {x}}}$ ${\textbf {y))$

Edge Contribution Exclusion

Gaussin erofunktiolla on voimakkaat arvot reunoilla, vaikka avainpisteehdokas ei olisi kestävä pienille kohinalle. Siksi vakauden lisäämiseksi sinun tulee sulkea pois avainpisteet, joiden sijainti on huonosti määritelty, mutta joilla on suuri osuus reunoista.

Huonosti määritellyillä Gaussin erofunktion huipuilla pääkaarevuus reunan poikki on paljon suurempi kuin pääkaarevuus sitä pitkin. Näiden pääkaarevien löytäminen vastaa toisen kertaluvun Hessian matriisin H ominaisarvojen löytämistä :

{\textbf {H}}={\begin{bmatrix}D_{xx}&D_{xy}\\D_{xy}&D_{yy}\end{bmatrix}}

H :n ominaisarvot ovat verrannollisia matriisin D pääkaareviin. Osoittautuu, että kahden ominaisarvon suhde, eli niistä suurempi, a on pienempi, suhteella , on riittävä SIFT:n tarkoituksiin. . Matriisin H jälki , eli , antaa meille kahden ominaisarvon summan, kun taas determinantti eli , antaa meille tulon. Suhde voidaan osoittaa olevan , joka riippuu vain ominaisarvojen suhteesta, ei yksittäisistä arvoista. R on minimi, jos ominaisarvot ovat yhtä suuret. Siten mitä suurempi on kahden ominaisarvon välisen eron itseisarvo, joka vastaa kahden pääkaarevuuden D välisen eron suurinta absoluuttista arvoa, sitä suurempi on R:n arvo. Tästä seuraa, että jollekin ominaisarvojen kynnyssuhteelle , jos R koska avainpisteehdokas on suurempi kuin , avainpiste sijaitsee huonosti ja siksi hylätään. Uusi lähestymistapa käyttää [3] . $\alpha$ $\beeta$ $r=\alpha /\beta$ $D_{xx}+D_{yy}$ ${\displaystyle D_{xx}D_{yy}-D_{xy}^{2))$ ${\text{R}}=\operaattorinimi {Tr} ({\textbf {H)))^{2}/\operaattorin nimi {Det} ({\textbf {H)))$ $(r+1)^{2}/r$ $r_{\text{th))$ $(r_{\text{th}}+1)^{2}/r_{\text{th}}$ $r_{\text{th}}=10$

Tämä reunavasteen vaimennusvaihe on siirtää sopiva lähestymistapa Harris-operaattorille kulman havaitsemista varten . Erona on se, että kynnyksen mitta lasketaan Hessenin matriisista, ei sekuntien matriisista [ .

Orientaatiotehtävä

Tässä vaiheessa kullekin avainpisteelle määrätään yksi tai useampi suunta paikallisen kuvan liukuvärien suuntien perusteella. Tämä on avainvaihe kiertoinvarianssin saavuttamisessa , koska avainpisteen kuvaaja voidaan esittää suhteessa tähän orientaatioon, ja siksi siitä tulee kuvan kiertoinvariantti.

Ensinnäkin Gaussin sumea kuva otetaan keskeisistä kohdista mittakaavalla , jotta kaikki laskelmat suoritetaan mittakaava-invariantilla. Skaalatun kuvan gradientin arvo ja suunta on laskettu valmiiksi pikselieron perusteella . $L\left(x,y,\sigma \right)$ $\sigma$ $L\left(x,y\right)$ $\sigma$ $m\left(x,y\right)$ $\theta \left(x,y\right)$

m\left(x,y\right)={\sqrt {\left(L\left(x+1,y\right)-L\left(x-1,y\right)\right)^ {2}+\vasen(L\vasen(x,y+1\oikea)-L\vasen(x,y-1\oikea)\oikea)^{2}}}

\theta \left(x,y\right)=\mathrm {atan2} \left(L\left(x,y+1\right)-L\left(x,y-1\right),L \vasen(x+1,y\oikea)-L\vasen(x-1,y\oikea)\oikea)

Gradientin suuruus ja suunta lasketaan jokaiselle Gaussin sumean kuvan L avainpisteen läheisyydessä olevalle pikselille. Muodostetaan suuntahistogrammi, jossa on 36 aluetta, joista jokainen kattaa 10 astetta. Jokainen ympäröivän laatikon piste lisätään histogrammialueelle, painotettuna gradientin suuruudella ja Gaussin painotetulla pyöreällä ikkunalla , joka on 1,5 kertaa avainpisteen asteikko. Tämän histogrammin huiput vastaavat hallitsevia suuntia. Kun histogrammi on täytetty, avainpisteelle osoitetaan suunnat, jotka vastaavat korkeimpia huippuja ja paikallisia huippuja, jotka ovat 80 %:n sisällä korkeimmista huipuista. Jos useita suuntia on määritetty, luodaan ylimääräinen avainpiste, jolla on sama sijainti ja mittakaava kuin kunkin lisäsuunnan alkuperäisellä pisteellä. $\sigma$

Keypoint deskriptor

Edelliset vaiheet etsivät avainpisteiden sijainnit tietyissä asteikoissa ja määrittävät niille suunnan. Tämä tarjoaa muuttumattomuuden pisteen sijainnille, mittakaavalle ja kierrolle. Nyt haluamme laskea kuvaajien vektorin kullekin avainpisteelle siten, että kuvaaja on hyvin erilainen ja osittain muuttumaton muihin muutoksiin, kuten valaistukseen, näkökulmiin ja niin edelleen. Tämä vaihe suoritetaan kuvalle, joka on mittakaavaltaan lähinnä avainpisteen mittakaavaa.

Ensinnäkin 4x4 vierekkäisille pikseleille luodaan joukko suuntahistogrammeja, joissa kussakin on 8 aluetta. Nämä histogrammit on laskettu avainpisteen ympärillä 16 × 16 -alueella olevien elementtien suuruus- ja suuntaarvoista siten, että jokainen histogrammi sisältää elementtejä alkuperäisen naapurialueen 4 × 4 -osa-alueelta. Arvoja painotetaan edelleen Gaussin funktiolla, joka on yhtä suuri kuin puolet kuvausikkunan leveydestä. Kahva muuttuu sitten kaikkien näiden histogrammien arvojen vektoriksi. Koska histogrammeja on 4×4=16, joissa kussakin on 8 aluetta, vektorissa on 128 elementtiä. Tämä vektori normalisoidaan yksikköpituuteen, jotta varmistetaan, että se on invariantti affinisiin valaistuksen muutoksiin nähden. Epälineaarisen valaistuksen vaikutuksen vähentämiseksi käytetään kynnysarvoa 0,2 ja vektori normalisoidaan uudelleen. Kynnysprosessi voi parantaa sovitustuloksia, vaikka ei olisi epälineaarisia valaistusefektejä [18] . Kynnysarvo 0,2 valitaan empiirisesti ja kiinteän kynnyksen korvaaminen tarkoituksenmukaisesti lasketulla kynnysarvolla voi parantaa vertailutuloksia [18] . $\sigma$

Vaikka deskriptoridimensio (eli 128) näyttää korkealta, pienemmät kuvaajat eivät toimi yhtä hyvin [3] ja laskentakustannukset pysyvät alhaisina, koska lähimmän naapurin etsimiseen käytetään likimääräistä BBF-menetelmää (katso alla). Pidemmät kuvaukset antaisivat parempia tuloksia, mutta eivät paljon, ja on olemassa vaara, että herkkyys vääristymille ja aliasoille kasvaa. On myös osoitettu, että ominaisuuksien täsmäystarkkuus on yli 50 % näkökulman muutoksilla 50 asteeseen asti. Siksi SIFT-kuvaajat ovat muuttumattomia pienille affiinisille muutoksille. SIFT-kuvaajien erottuvuuden testaamiseksi vastaavuustarkkuutta mitataan myös suhteessa eri avainpisteiden määrään testitietokannassa, ja on osoitettu, että täsmäytystarkkuus laskee vain hieman suurissa tietokannoissa, mikä osoittaa, että SIFT-ominaisuudet ovat hyvin erotettavissa. .

SIFT-ominaisuuksien vertailu muihin paikallisiin ominaisuuksiin

Intensiivistä tutkimusta on tehty erilaisten paikallisten kuvaajien, mukaan lukien SIFT:n, tehokkuuden arvioimiseksi [19] . Tärkeimmät tulokset näkyvät alla:

SIFT- ja (samankaltaiset kuin SIFT) GLOH -ominaisuudet ( Gradient Location and Orientation Histogram ) osoittavat korkeimman täsmäystarkkuuden 50 asteen affiinille muunnokselle . Tämän rajan ylittävistä tulostuloksista tulee epäluotettavia.
Kuvaajien eroavuus mitataan laskemalla yhteen pääkomponenttimenetelmällä saatujen kuvaajien ominaisarvot varianssilla normalisoiduille kuvaajille. Tämä vastaa eri kuvaajia vastaavan varianssin määrää ja siten niiden eroa. Ominaisuudet PCA-SIFT (Principal Component Method, jota sovelletaan SIFT-kuvauksiin), GLOH ja SIFT antavat korkeimmat arvot.
SIFT-pohjaiset kuvaukset ovat parempia kuin muut nykyaikaiset paikalliset kuvaukset sekä teksturoiduissa että strukturoiduissa kohtauksissa, mutta ne ovat tehokkaampia teksturoiduissa kohtauksissa.
2–2,5-kertaisella zoomauksella ja kuvan 30–45 asteen käännöllä SIFT- ja SIFT-pohjaiset kuvaukset ovat jälleen tehokkaampia kuin muut nykyaikaiset paikalliset kuvailevat kuvioitujen ja strukturoitujen kohtausten kuvaajat.
Sumeus (sumeus) vaikuttaa kaikkiin paikallisiin kuvaajiin, erityisesti niihin, jotka perustuvat reunoihin (reunoihin), kuten "muotokonteksti" -algoritmiin (muotokonteksti ), koska reunat häviävät, jos rajoja sumennetaan voimakkaasti. Mutta GLOH, PCA-SIFT ja SIFT toimivat edelleen paremmin kuin muut. Tämä koskee myös valaistuksen muutoksia.

Suoritetut testit viittaavat vahvasti siihen, että SIFT-pohjaiset kuvaajat ovat vakaimpia ja erotettavissa olevia, ja siksi niitä suositellaan parhaiten ominaisuuksien yhteensovittamiseen. Äskettäin kehitettyjä ominaisuuskuvaajia, kuten SURF , ei kuitenkaan ole tutkittu näissä kokeissa.

SURF:n tehokkuuden on osoitettu olevan lähellä SIFT:tä, mutta samalla algoritmi on paljon nopeampi [20] . Muut tutkimukset ovat osoittaneet, että kun nopeus ei ole kriittinen tekijä, SIFT ylittää SURF:n [21] [22] . Erityisesti näytteenottotehosteet huomioimatta SIFT-kuvan kuvaaja on huomattavasti parempi kuin SURF-kuvan kuvaaja. Samanaikaisesti SURF:n yksinkertaisen singulaaripisteilmaisimen Hessenin determinantin skaalaavaruudessa oleva ääripää koostuu huomattavasti paremmista singulaaripisteistä verrattuna laplalaisen skaalaavaruuden ääripäähän, jolle algoritmi singulaarisen pisteen determinantin määrittämiseksi SIFT:n singulaaripiste suorittaa numeerisen approksimoinnin [21] .

SIFT-kuvaajien kuvansovituskykyä voidaan parantaa saavuttamalla parempi suorituskyky ja alhaisemmat 1-tarkkuuspisteet[ selventää ] ( englanninkieliset 1-tarkkuuspisteet ) korvaamalla alkuperäisen SIFT:n Gaussin erooperaattorin skaalautuva spatiaalinen ääripää Hessin-determinantin ääripäällä skaalautuvassa avaruudessa tai ottamalla huomioon yleisemmän yksikön yleisten singulaaristen pisteiden perhettä. skaalautuva tila [21] .

Hiljattain on ehdotettu kuvaajan hieman muunneltua versiota, jossa käytetään epäyhtenäistä histogrammihilaa, mikä parantaa merkittävästi laatua [23] . Histogrammin alueiden 4x4-ruudukon sijaan kaikki alueet laajenevat kohti ominaisuuden keskustaa. Tämä parantaa kuvaajien joustavuutta mittakaavamuutoksille.

SIFT-Rank-kuvaajan [24] on osoitettu parantavan standardin SIFT-kuvaajan suorituskykyä affinissa ominaisuussovituksessa. SIFT-Rank-kuvaaja luodaan tavallisesta SIFT-kuvaajasta määrittämällä jokaiselle histogrammin alueelle järjestys lajiteltuun aluetaulukkoon. Euklidinen etäisyys SIFT-Rank-kuvaajien välillä on invariantti mielivaltaisten monotonisten histogrammiarvojen muutosten yhteydessä ja liittyy Spearmanin rankkorrelaatiokertoimiin .

Sovellukset

Objektintunnistus SIFT-ominaisuuksien avulla

Jos SIFT-järjestelmän on mahdollista löytää erilaisia avainpisteitä, jotka ovat muuttumattomia sijainnin, mittakaavan ja pyörimisen suhteen ja jotka kestävät affiineja muunnoksia ( skaalan , rotation , shift ja sijainnin muutokset) ja valaistuksen muutoksia, ne ovat hyödyllisiä esineiden tunnistamisessa. Nämä vaiheet on annettu alla

Ensinnäkin SIFT-ominaisuudet saadaan syötekuvasta käyttämällä edellä kuvattua algoritmia.
Näitä ominaisuuksia verrataan harjoituskuvista saatuihin tietokannan SIFT-ominaisuuksiin. Tämä ominaisuussovitus tehdään käyttämällä eukleidalaista lähin naapuri -lähestymistapaa. Vakauden lisäämiseksi sovitus hylätään avainpisteissä, joissa etäisyyden suhde lähimpään naapuriin ja etäisyyteen toiseen lähimpään naapuriin on suurempi kuin 0,8. Tämä hylkää monia vääriä osumia, jotka johtuvat taustaa häiritsevistä kuvista. Lopuksi, jotta vältytään kalliilta etsinnöiltä, joita tarvitaan lähimmän euklidisen naapurin löytämiseen, käytetään likimääräistä algoritmia nimeltä "best-bin-first" [14] . Tämä on nopea menetelmä, joka palauttaa lähimmän naapurin suurella todennäköisyydellä ja voi nopeuttaa hakuprosessia kertoimella 1000, kun taas lähimmän naapurin löytäminen vie 95 % ajasta.
Vaikka yllä kuvattu etäisyyssuhdetesti hylkää monia vääriä osumia, jotka johtuvat taustaa häiritsevistä kuvista, meille jää muihin objekteihin kuuluvia osumia. Siksi objektitunnistuksen luotettavuuden lisäämiseksi haluamme klusteroida samaan objektiin kuuluvat ominaisuudet ja hylätä klusterointiprosessin jälkeen jäljelle jääneet osumat. Tämä tehdään Hough-muunnoksen avulla . Se tunnistaa ominaisuusklusterit, jotka äänestävät jonkin objektin paikan puolesta. Kun ominaisuusrypäleitä löydetään äänillä kohteen jollekin sijainnille, oikean tulkinnan todennäköisyys on paljon suurempi kuin yksittäiselle ominaisuudelle. Jokainen avainpiste äänestää joukon ominaisuuksia, jos ne ovat yhdenmukaisia avainpisteen sijainnin, mittakaavan ja suunnan kanssa. Alueet , jotka keräävät vähintään 3 ääntä, katsotaan ehdokkaiksi kohteen/aseman yhteensovittamiseen.
Jokaiselle klusteriehdokkaalle saamme pienimmän neliösumman ratkaisun parhaille affiinisille projektioestimaateille, jotka liittyvät harjoituskuvat tulokuvaan. Jos avainpisteen projektio näiden parametrien läpi on puolessa virhevälistä, jota käytettiin Hough-muunnosalueiden parametreille, avainpisteiden vastaavuus säilyy. Jos alle 3 pistettä jää jäljelle alueiden poikkeavien arvojen hylkäämisen jälkeen, kohteen vastaavuus hylätään. Pienimmän neliön sovitus toistetaan niin kauan kuin jotain voidaan hylätä. Tämä toimii paremmin litteän objektin tunnistuksessa, mutta ei 3D-objektin tunnistuksessa, koska affine-malli muuttuu epäluotettavaksi 3D-objekteille.
Sirmachekin ja Unsalanin artikkeli [25] ehdottaa uutta lähestymistapaa SIFT-kuvaajien käyttämiseen useiden objektien allokoimiseksi. Ehdotettua usean kohteen tunnistusmenetelmää testattiin ilma- ja satelliittikuvissa.

SIFT-ominaisuuksia voidaan periaatteessa soveltaa kaikkiin ongelmiin, joissa vaaditaan kuvansovitusta. Työtä voidaan tehdä sovelluksissa, kuten tiettyjen objektiluokkien tunnistaminen 2D-kuvissa, 3D-objektien rekonstruktio, liikkeen seuranta ja segmentointi, robotin sijainti, panoraamakuvien ompeleminen ja epipolaarinen kalibrointi . Joitakin näistä sovelluksista käsitellään yksityiskohtaisemmin alla.

Robotin sijainti ja kartta

Tämä sovellus [26] käyttää stereotrinokulaarijärjestelmää arvioidakseen vihjepisteen 3D-sijainnin. Avainpisteitä käytetään vain, kun ne näkyvät kaikissa kolmessa kuvassa johdonmukaisine yhteensopimattomina, mikä johtaa erittäin harvinaisiin keskeytyksiin. Liikkuessaan robotti määrittää sijaintinsa käyttämällä ominaisuussuhteita olemassa olevan 3D-kartan kanssa ja lisää sitten karttaan asteittain ominaisuuksia samalla kun se päivittää 3D-sijainnin Kalman-suodattimen avulla. Tämä tarjoaa luotettavan ja tarkan ratkaisun robotin paikantamiseen tuntemattomassa ympäristössä.

Panoraamaompeleet

SIFT-ominaisuuden yhdistämistä voidaan käyttää kuvien yhdistämiseen täysin automaattiseen panoraaman rakentamiseen ei-panoraamakehyksistä. Syötekuvista poimitut SIFT-ominaisuudet verrataan toisiinsa k lähimmän naapurin löytämiseksi kustakin kuvasta. Näitä osumia käytetään sitten etsimään m kuvaa vastaavaa ehdokasta jokaiselle kuvalle. Kuvaparien väliset homografiat lasketaan sitten käyttämällä RANSAC :ia ( Random sample consensus ) ja todentamiseen käytetään todennäköisyysmallia . Koska syöttökuville ei ole rajoituksia, kaaviohakua käytetään yhdistettyihin kuvaa vastaaviin komponentteihin, jotta jokainen yhdistetty komponentti vastaa panoraamaa. Lopuksi kullekin liitetylle komponentille suoritetaan lohkosäätö kameran parametrien ratkaisemiseksi, ja panoraama käsitellään käyttämällä monikaistasekoitusta . SIFT-vaikutteisen lähestymistavan ansiosta panoraamaompelun kohteen tunnistusta varten tuloksena oleva järjestelmä ei ole herkkä kuvien järjestykselle, suunnalle, mittakaavalle ja valaistukselle. Syötekuvat voivat sisältää useita panoraamoja ja kuvakohinaa (joista osa ei välttämättä edes ole osa yhdistelmäkuvaa) [27] .

3D-näkymän mallinnus, tunnistus ja jäljitys

Tämä sovellus käyttää SIFT-ominaisuuksia 3D-objektien tunnistamiseen ja 3D-mallinnukseen lisätyn todellisuuden , jossa luodut keinotekoiset esineet tarkassa asennossa asetetaan todellisten kuvien päälle. SIFT-osuma määritetään useille 2D-kuville kohtauksesta tai kohteesta, jotka on otettu eri kulmista. Tätä käytetään lohkosäädön kanssa rakentamaan niukasti 3D-malli kyseisestä kohtauksesta ja samalla palauttamaan kameran asennot ja kalibrointiparametrit. Sitten määritetään virtuaalisen kohteen sijainti, suunta ja koko suhteessa tarkasteltavan mallin kehyskoordinaatteihin. Online - paikannusseurantaa varten SIFT-ominaisuudet poimitaan nykyisestä videokehyksestä ja verrataan jo laskettuihin ominaisuuksiin, mikä johtaa 2D- ja 3D-vastaavuuksiin. Näitä osumia käytetään sitten laskemaan kameran nykyinen sijainti virtuaalista projisointia ja lopullista käsittelyä varten. Normalisointitekniikkaa käytetään vähentämään värinää virtuaalisessa projektiossa [28] . SIFT 3D -laajennukset on myös toteutettu tunnistamaan ja korostamaan todellisia 3D - objekteja [29] [30] .

3D SIFT:n kaltaiset kuvaukset ihmisen toiminnan tunnistamiseen

SIFT-kuvaajan laajennuksia 2+1-ulotteiseen spatiotemporaaliseen dataan on tutkittu ihmisen toiminnan tunnistamisen yhteydessä videossa [29] [31] [32] [33] . Paikallisten sijainnista riippuvien histogrammien luominen 2D SIFT -algoritmissa laajenee 2D:stä 3D:ksi kuvaamaan aika-avaruusalueen SIFT-ominaisuuksia. Inhimillisten toimintojen tunnistamiseksi videossa harjoitusvideoita tehdään joko tietyistä spatiotemporaalisista pisteistä tai satunnaisessa paikassa, ajassa ja mittakaavassa. Näiden yksittäispisteiden ympärillä olevat tila-aika-alueet kuvataan sitten käyttämällä 3D SIFT -kuvaajaa. Nämä kuvaajat kootaan sitten " sanojen pussiksi " spatiotemporaaliseksi malliksi . Testileikkeistä poimitut 3D SIFT -kuvaukset verrataan näihin sanoihin ihmisten toiminnan luokittelemiseksi.

Kirjoittajat väittävät, että heidän 3D SIFT -kuvaajansa toimii huomattavasti paremmin kuin muut lähestymistavat, kuten yksinkertaiset 2D SIFT -kuvaajat ja gradienttiarvo [34] .

Ihmisaivojen analyysi 3D- magneettikuvauksessa

Ominaisuuspohjainen morfometria ( FBM ) [35] [35] käyttää Gaussin skaalausavaruuden analysointiin ja luokitteluunMRI(magneettiresonanssikuvienaivojen . FBM mallintaa kuvan todennäköisyydellä kollaasina itsenäisistä kuvan geometrian ja etikettiryhmien määrittämistä piirteistä, kuten terveistä esineistä ja Alzheimerin tautia vastaavista esineistä. Ominaisuudet erotetaan ensin yksittäisiksi kuviksi 4D Gaussin skaalausavaruuden erosta, minkä jälkeen ne mallinnetaan niiden ulkonäön, geometrian ja samanaikaisten esiintymistilastojen perusteella useiden kuvien ryhmässä. FBM on validoitu Alzheimerin taudin analyysissä noin 200 ihmisen aivojen tilavuuskuvauksen (MRI) sarjalla, joka havaitsee automaattisesti vakiintuneet Alzheimerin taudin indikaattorit aivoissa ja luokittelee ei-akuutit sairaudet uusissa kuvissa 80 %:lla [ 35] .

Kilpailevat menetelmät

Kilpailevat menetelmät mittakaavamuuttumattomien objektien tunnistamiseksi kohinan ja osittaisen päällekkäisyyden alla ovat seuraavat.

RIFT [36] : SIFT :n rotaatio -invariantti yleistys . RIFT-kuvaaja rakennetaan käyttämällä pyöreitä normalisoituja viipaleita, jotka on jaettu samanleveisiin samankeskisiin renkaisiin, ja kunkin renkaan sisällä lasketaan gradientin suunnan histogrammi. Pyörimisinvarianssin saamiseksi orientaatio mitataan kussakin pisteessä suhteessa suuntaan keskustasta.

G-RIF [37] : Generalized Robust Invariant Feature on yleinen kontekstikuvaaja, joka koodaa reunasuunnan, reunatiheyden ja väritiedot yhdellä avaimella yhdistäen havainnointitiedon spatiaaliseen koodaukseen. Objektin tunnistusjärjestelmä käyttää naapuruuskontekstia objektimallien arvioimiseen äänestämisen perusteella.

"SURF" [38] : Speeded Up Robust -ominaisuudet ovat korkean suorituskyvyn mittakaava- ja kiertoinvariantteja ilmaisimia/kuvaajia, joiden väitetään lähestyvän tai jopa ylittävän aiemmin ehdotetut suunnitelmat toistettavuuden, selkeyden ja luotettavuuden suhteen. SURF luottaa täydelliseen konvoluutiokuviin laskenta-ajan lyhentämiseksi ja perustuu johtavien olemassa olevien ilmaisimien ja kuvaajien vahvuuteen (käytetään Hessin matriisiin perustuvaa nopeaa mittaa ilmaisimille ja todennäköisyysjakaumaan perustuville kuvaajille). Se kuvaa Haar-aaltovasteiden jakautumista singulaaripisteen naapureiden kesken. Täysi kuvia käytetään nopeuttamiseen, ja vain 64-ulotteisia piirrevektoreita käytetään vähentämään laskenta- ja sovitusaikaa. Indeksointivaihe perustuu laplalaisen merkkiin , mikä lisää täsmäämisnopeutta ja deskriptorin robustisuutta.

PCA-SIFT [39] ja GLOH [19] ovat SIFT:n muunnelmia. PCA-SIFT-kuvaaja on x- ja y-suuntien kuvagradienttien vektori, joka on laskettu tuetulla alueella. Gradienttialue on jaettu 39×39 paikkaan, joten vektorin mitta on 3042. Dimensio pienennetään 36 :een pääkomponenttien menetelmällä . Sijainti-orientaatiogradienttihistogrammi ( GLOH ) on SIFT-kuvaajan laajennus, ja se kehitettiin lisäämään sen kestävyyttä ja erotettavuutta. SIFT-kuvaaja lasketaan logaritmisina napakoordinaateina sijaintiruudukossa, jossa on kolme aluetta säteen suunnassa (säde asetettu 6, 11 ja 15) ja 8 kulmasuuntiin, jolloin tuloksena on 17 aluetta. Keskialuetta ei ole jaettu kulmasuuntiin. Gradienttisuunnat kvantisoidaan 16 alueelle, jolloin saadaan histogrammi, jossa on 272 aluetta. Tämän kuvaajan kokoa pienennetään pääkomponenttimenetelmällä . Pääkomponenttimenetelmän kovarianssimatriisi arvioidaan eri kuvista kerätyistä kappaleista. Kuvauksessa käytetään 128 suurinta ominaisvektoria .

Gauss-SIFT [21] on puhdas kuvakuvaaja, joka määritellään mittaamalla kaikki taustalla olevan SIFT-kuvaajan kuvat Gaussin derivaatalla sen sijaan, että approksimoidaan derivaatta kuvapyramidissa, kuten tavallisessa SIFT:ssä. Tällä lähestymistavalla tilan ja mittakaavan diskretoinnin vaikutus voidaan vähentää minimiin, mikä mahdollisesti johtaa tarkempiin kuvakuvauksiin. Lindeberg [21] yhdisti tällaiset Gauss-SIFT-kuvakuvaajat joukkoon yleistettyjä singulaarisia pistemitta-avaruuksia, mukaan lukien Gaussin laplalainen, Hessin-determinantti, neljä uutta etumerkittömän ja signeeratun Hessian piirremittaa sekä Harris-Laplacen ja Shean. - Thomasin yksittäiset kohdat. Intensiivisessä kokeellisessa ajossa mainostaulujen tietokannassa, joka sisälsi useita muunnoksia 12 mainostaulun zoomauksen osalta jopa 6x ja katselusuuntaa jopa 45 asteen kulmaan, osoitettiin, että kuvankäsittelyn tehokkuuden merkittävä parannus (parempi tehokkuus) pisteet ja alemmat pisteet 1 -tarkkuus) voidaan saada korvaamalla singulaaripisteiden Gaussin laplalainen yksikköpisteiden Hessenin determinantilla. Koska singulaarisen pisteen Gaussin ero olettaa numeerisen approksimaation singulaarisen pisteen Gaussin Laplaciasta, tämä osoittaa, että on mahdollista parantaa merkittävästi yhteensovitussuorituskykyä korvaamalla SIFT:n singulaaripisteen Hessin-erotus singulaaripisteen Hessin-determinantilla. Suorituskyvyn lisähyötyjä voidaan saada lisää ottamalla huomioon etumerkitön Hessenin piirteen vahvuusmitta tai 0 muussa tapauksessa. Numeerinen vertailu Gauss-SIFT-kuvaajan ja vastaavan Gauss-SURF-kuvaajan välillä osoitti myös, että Gauss-SIFT toimii yleensä huomattavasti paremmin kuin Gauss-SURF useille eri pisteen mittakaava-avaruusilmaisimille. Tutkimus osoittaa siis, että SIFT-kuvan kuvauksen diskretisointivaikutelman vähennys on huomattavasti parempi kuin SURF-kuvan kuvaaja, mutta SURF:n piirrepisteen ilmaisin, jota voidaan pitää numeerisena approksimaationa Hessin-determinantin skaalaavaruuden ääripäästä, on huomattavasti parempi kuin SIFT:n ominaisuuspisteilmaisin. $D_{1}L=\operaattorinimi {det} HL-k\,\operaattorinnimi {trace} ^{2}HL\,{\mbox{if}}\operaattorinnimi {det} HL-k\,\operaattorinnimi {trace} ^{2}HL>0$

Wagner ja työtoverit ovat kehittäneet kaksi kohteen tunnistusalgoritmia, jotka on erityisesti mukautettu olemassa olevien matkapuhelinten rajoituksiin [40] . Toisin kuin klassisessa lähestymistavassa, SIFT Wagner ym. käyttävät FAST - kulmantunnistusalgoritmia piirteiden havaitsemiseen. Algoritmiin kuuluu myös offline-valmisteluvaihe, jossa ominaisuuksia luodaan eri zoomaustasoilla, sekä online-vaihe, jossa ominaisuuksia luodaan vain puhelimen kameran kiinteälle zoomaustasolle. Lisäksi ominaisuudet luodaan vain kiinteistä 15 × 15 pikselin alueista ja luodaan vain 36-ulotteinen SIFT-kuvaaja. Lähestymistapaa laajennettiin edelleen integroimalla Scalable Vocabulary Tree [41 ] . Tämä mahdollistaa suuren määrän esineiden tehokkaan tunnistamisen matkapuhelimella. Lähestymistapaa rajoittaa pääasiassa käytettävissä olevan RAM-muistin määrä .

KAZE ja A-KAZE (KAZE-ominaisuudet ja Kaze Boosted Features) on uusi 2D-ominaisuuksien tunnistus- ja karakterisointimenetelmä, joka toimii paremmin kuin SIFT ja SURF. Se on saavuttanut laajan suosion, koska sitä levitetään vapaasti ja sillä on avoin lähdekoodi. Algoritmia ei myöskään ole patentoitu. KAZEn loivat Pablo F. Alcantarilla, Adrien Bartoli ja Andrew J. Davison [42] .

Katso myös

Konvoluutiohermoverkko
Kuvan yhdistäminen
Zoomaa tilaa
SLAM
Rakenne kuvajoukon mukaan

Muistiinpanot

↑ 12 U.S. _ Patentti 6 711 293 , "Menetelmä ja laite mittakaavan muuttumattomien ominaisuuksien tunnistamiseksi kuvassa ja niiden käyttö kohteen paikantamiseen kuvassa", David Lowin patentti SIFT-algoritmille, 23. maaliskuuta 2004
↑ 1 2 3 4 Lowe, 1999 , s. 1150-1157.
↑ 1 2 3 4 5 6 Lowe, 2004 , s. 91–110.
↑ Koenderink, van Doorn, 1987 , s. 383-396.
↑ Koenderink, van Doorn, 1992 , s. 597-605.
↑ Lindeberg:BICY, 2013 , s. 589-635.
↑ Lindeberg: AdvImg, 2013 , s. 1-96.
↑ Lindeberg: PLOS ONE, 2013 .
↑ 12 Lindeberg , 2014 , s. 701-713.
↑ 12 Lindeberg , 1994 .
↑ 1 2 Lindeberg, 1998 , s. 79–116.
↑ 12 Lindeberg , 2012 , s. 10491.
↑ Serre, Kouh, Cadieu, Knoblich, Kreiman, Poggio, 2005 .
↑ 1 2 Beis, Lowe, 1997 , s. 1000–1006.
↑ Lowe, 2001 , s. 682-688.
↑ 1 2 Lindeberg, Bretzner, 2003 , s. 148-163.
↑ Bretzner, Laptev, Lindeberg, 2002 , s. 423-428.
↑ 12 Kirchner , 2016 , s. 291-295.
↑ 1 2 Mikolajczyk, Schmid, 2005 , s. 1615-1630
↑ TU-chemnitz.de (downlink) . Haettu 12. marraskuuta 2018. Arkistoitu alkuperäisestä 22. toukokuuta 2011. (määrätön)
↑ 1 2 3 4 5 Lindeberg, 2015 , s. 3-36.
↑ Oyallon, Rabin, 2015 .
↑ Cui, Hasler, Thormaehlen, Seidel, 2009 .
↑ Toews, Wells III, 2009 , s. 172-177.
↑ Sirmacek, Unsalan, 2009 , s. 1156-1167.
↑ Se, Lowe, Little, 2001 , s. 2051.
↑ Brown, Lowe, 2003 , s. 1218-1225.
↑ Gordon, Lowe, 2006 , s. 67-82.
↑ 1 2 Flitton, Breckon, 2010 , s. 11.1-12.
↑ Flitton, Breckon, Megherbi, 2013 .
↑ Laptev, Lindeberg, 2004 , s. 91–103.
↑ Laptev, Caputo, Schuldt, Lindeberg, 2007 , s. 207–229.
↑ Scovanner, Ali, Shah, 2007 , s. 357-360.
↑ Niebles, Wang, Li, 2006 , s. 1156-1167.
↑ 1 2 3 Toews, Wells III, Collins, Arbel, 2010 , s. 2318–2327.
↑ Lazebnik, Schmid, Ponce, 2004 .
↑ Kim, Yoon, Kweon, 2006 .
↑ Bay, Tuytelaars, van Gool, 2006 .
↑ Ke, Sukthankar, 2004 .
↑ Wagner, Reitmayr, Mulloni, Drummond, Schmalstieg, 2008 .
↑ Henze, Schinke, Boll, 2009 .
↑ KAZE-ominaisuudet . Haettu 12. marraskuuta 2018. Arkistoitu alkuperäisestä 3. marraskuuta 2018. (määrätön)

Kirjallisuus

David G. Lowe. Objektintunnistus paikallisista mittakaavamuuttumattomista ominaisuuksista // Proceedings of the International Conference on Computer Vision . - 1999. - T. 2. - S. 1150-1157. - doi : 10.1109/ICCV.1999.790410 .
David G. Lowe. Erottuvia kuvaominaisuuksia skaalautumattomista avainpisteistä // International Journal of Computer Vision. - 2004. - T. 60 , no. 2 . - S. 91-110 . - doi : 10.1023/B:VISI.0000029664.99615.94 .
Serre T., Kouh M., Cadieu C., Knoblich U., Kreiman G., Poggio T. A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Path in Primate Visual Cortex // Tietojenkäsittelytiede ja keinotekoinen Intelligence Laboratory Technical Report, 19. joulukuuta 2005. - MIT-CSAIL-TR-2005-082, 2005.
Beis J., David G. Lowe. Muodon indeksointi käyttämällä likimääräistä lähin naapurihakua suuriulotteisissa tiloissa // Conference on Computer Vision and Pattern Recognition, Puerto Rico: sn . - 1997. - S. 1000-1006. - doi : 10.1109/CVPR.1997.609451 .
David G. Lowe. Paikallinen ominaisuusnäkymän klusterointi 3D-objektien tunnistusta varten // IEEE Conference on Computer Vision and Pattern Recognition. - Kauai, Havaiji, 2001. - S. 682-688.
Lazebnik S., Schmid C., Ponce J. Semi-Local Affine Parts for Object Recognition // Proceedings of the British Machine Vision Conference . – 2004.
Sungho Kim, Kuk-Jin Yoon, So Kweonissa. Objektin tunnistus käyttämällä yleistettyä vahvaa muuttumatonta ominaisuutta ja Gestaltin läheisyys- ja samankaltaisuuslakia // Konferenssi tietokonenäön ja kuvioiden tunnistustyöpajasta (CVPRW'06). – 2006.
Bay H., Tuytelaars T., van Gool L. SURF: Speeded Up Robust Features // Proceedings of the Ninth European Conference on Computer Vision . – 2006.
Ke Y., Sukthankar R. PCA-SIFT: Erottuvampi esitys paikallisille kuvakuvaajille // Tietokonenäkö ja kuvioiden tunnistus . – 2004.
Mikolajczyk K., Schmid C. Paikallisten kuvaajien suorituskyvyn arviointi // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2005. - T. 27 , no. 10 . - S. 1615-1630 . - doi : 10.1109/TPAMI.2005.188 . — PMID 16237996 .
Wagner D., Reitmayr G., Mulloni A., Drummond T., Schmalstieg D. Pose tracking from natural features on mobile phones // Proceedings of the International Symposium on Mixed and Augmented Reality . — 2008. Arkistoitu 12. kesäkuuta 2009 Wayback Machinessa
Henze N., Schinke T., Boll S. Mikä se on? Objektin tunnistus matkapuhelimen luonnollisista piirteistä // Mobiilivuorovaikutusta todellisen maailman kanssa käsittelevän työpajan julkaisut . – 2009.
Tony Lindeberg. Ominaisuuden tunnistus automaattisella asteikon valinnalla // International Journal of Computer Vision. - 1998. - T. 30 , no. 2 . - S. 79-116 . - doi : 10.1023/A:1008045108935 .
Tony Lindeberg. Skaalaa invariantin ominaisuuden muunnos // Scholarpedia. - 2012. - Vol. 7 , no. 5 . - S. 10491 . doi : 10.4249 /scholarpedia.10491 .
Tony Lindeberg, Lars Bretzner. Reaaliaikainen mittakaavavalinta hybridi-moniasteikkoesityksissä // Proc. Scale-Space'03, Springerin luentomuistiinpanot tietojenkäsittelytieteessä. - 2003. - T. 2695 . - S. 148-163 . - ISBN 978-3-540-40368-5 . - doi : 10.1007/3-540-44935-3_11 .
Edouard Oyallon, Julien Rabin. SURF-menetelmän analyysi ja toteutus sekä sen vertailu SIFT:hen // Image Processing On Line. – 2015.
Cui Y., Hasler N., Thormaehlen T., Seidel H.-P. Skaalainvarianttien ominaisuuksien muunnos epäsäännöllisen suunnan histogrammin sitomisella // Kansainvälisen kuva-analyysi- ja tunnistuskonferenssin (ICIAR 2009) julkaisut . — Halifax, Kanada: Springer, 2009. Arkistoitu 23. syyskuuta 2010 Wayback Machinessa
Matthew Toews, William M. Wells III. SIFT-Rank: Invariant Feature Correspondence Ordinal Descriptors for Invariant Feature Correspondence // IEEE International Conference on Computer Vision and Pattern Recognition . - 2009. - S. 172-177. - doi : 10.1109/CVPR.2009.5206849 .
Visiopohjainen mobiilirobottien lokalisointi ja kartoitus mittakaavamuuttumattomilla ominaisuuksilla // IEEE International Conference on Robotics and Automation (ICRA) -julkaisut . - 2001. - T. 2. - S. 2051. - doi : 10.1109/ROBOT.2001.932909 .
Brown M., David G. Lowe. Panoraamojen tunnustaminen // Proceedings of 9th IEEE International Conference on Computer Vision . - 2003. - T. 2. - S. 1218-1225. - doi : 10.1109/ICCV.2003.1238630 .
Iryna Gordon, David G. Lowe. Mitä ja missä: 3D-objektien tunnistus tarkalla asennosta // Kohti luokkatason objektintunnistusta . - Springer-Verlag, 2006.
Ivan Laptev, Tony Lindeberg. Paikalliset kuvaukset spatio-temporaalista tunnistamista varten // ECCV'04 Workshop on Spatial Coherence for Visual Motion Analysis, Springer Lecture Notes in Computer Science, Volume 3667 . - 2004. - S. 91-103. - doi : 10.1007/11676959_8 .
Ivan Laptev, Barbara Caputo, Christian Schuldt, Tony Lindeberg. Paikalliset nopeuteen mukautetut liiketapahtumat spatio-temporaalista tunnistamista varten // Computer Vision and Image Understanding. - 2007. - T. 108 , no. 3 . - S. 207-229 . - doi : 10.1016/j.cviu.2006.11.023 .
Paul Scovanner, Ali S., Shah M. Kolmiulotteinen seulontakuvaaja ja sen soveltaminen toiminnan tunnistamiseen // Proceedings of the 15th International Conference on Multimedia. - 2007. - S. 357-360. - doi : 10.1145/1291233.1291311 .
Flitton G., Breckon T. Objektin tunnistus käyttäen 3D SIFT:tä monimutkaisissa CT -määrissä // Proceedings of the British Machine Vision Conference . - 2010. - S. 11.1-12. - doi : 10.5244/C.24.11 .

Niebles JC, Wang H., Fei-Fei Li. Ihmisten toimintakategorioiden ohjaamaton oppiminen spatiaalisten ja ajallisten sanojen avulla // Brittiläisen konenäkökonferenssin (BMVC) julkaisut . — Edinburgh, 2006. Arkistoitu 5. heinäkuuta 2008 Wayback Machinessa
Beril Sirmacek, Cem Unsalan. Kaupunkialueiden ja rakennusten tunnistus SIFT-avainpisteiden ja graafisen teorian avulla // IEEE Transactions on Geoscience and Remote Sensing. - 2009. - T. 47 , no. 4 . - S. 1156-1167 . - doi : 10.1109/TGRS.2008.2008440 .

Matthew Toews, William M. Wells III, D. Louis Collins, Tal Arbel. Ominaisuuspohjainen morfometria: Ryhmään liittyvien anatomisten kuvioiden löytäminen // NeuroImage. - 2010. - T. 49 , no. 3 . - S. 2318-2327 . - doi : 10.1016/j.neuroimage.2009.10.032 . — PMID 19853047 .
Lindeberg T. Scale-Space Theory in Computer Vision . - Kluwer Academic Publishers, 1994. - ISBN 0-7923-9418-6 .
Jan Koenderink, Ans van Doorn. Paikallisen geometrian esitys visuaalisessa järjestelmässä // Biological Cybernetics. - 1987. - T. 3 . - S. 383-396 .
Jan Koenderink, Ans van Doorn. Yleiset naapuruusoperaattorit // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1992. - T. 14. - S. 597-605.
Lindeberg T. Asteikkovalinta // Computer Vision: A Reference Guide / Ikeuchi K.. - Springer, 2014. - P. 701-713.
Lindeberg T. Visuaalisten operaatioiden muuttumattomuus vastaanottavien kenttien tasolla (englanniksi) // PLOS One . - Public Library of Science , 2013. - Vol. 8 , iss. (7):e66990 .
Lindeberg T. Laskennallinen teoria visuaalisista vastaanottavista kentistä // Biological Cybernetics. - 2013. - T. 107 , no. 6 . - S. 589-635 .
Lindeberg T. Yleistetty aksiomaattinen mittakaava-avaruusteoria // Advances in Imaging and Electron Physics. - 2013. - T. 178 . - S. 1-96 .
Flitton GT, Breckon TP, Megherbi N. 3D-kohdepisteiden kuvaajien vertailu lentokentän matkatavaroiden objektien havaitsemiseen monimutkaisissa CT-kuvissa // Pattern Recognition. - Elsevier, 2013. - doi : 10.1016/j.patcog.2013.02.008 .
Matthew Toews, William M. Wells III, D. Louis Collins, Tal Arbel. Ominaisuuspohjainen morfometria: Ryhmään liittyvien anatomisten kuvioiden löytäminen // NeuroImage. - 2010. - T. 49 , no. 3 . - S. 2318-2327 . - doi : 10.1016/j.neuroimage.2009.10.032 . — PMID 19853047 .
Lindeberg T. Kuvasovitus yleistetyillä mittakaava-avaruuspisteillä // Journal of Mathematical Imaging and Vision. - 2015. - T. 52 . - S. 3-36 .
Matthew R. Kirchner. SIFT-kuvaajien automaattinen kynnys // Image Processing (ICIP), 2016 IEEE International Conference on. - IEEE, 2016. - S. 291-295.
Lars Bretzner, Ivan Laptev, Tony Lindeberg. Käsieleiden tunnistus monimuotoisten väriominaisuuksien, hierarkkisten mallien ja hiukkassuodatuksen avulla // Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition . - Washington, DC, USA, 2002. - S. 423-428. - ISBN 0-7695-1602-5 . - doi : 10.1109/AFGR.2002.1004190 .

Linkit

Scale-Invariant Feature Transform (SIFT) Scholarpediassa
Rob Hessin SIFT-toteutus haettu 21. marraskuuta 2012
The Invariant Relations of 3D to 2D Projection of Point Sets, Journal of Pattern Recognition Research (JPRR) Arkistoitu 8. syyskuuta 2008 at the Wayback Machine , Voi. 3, nro 1, 2008.
Lowe, DG, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 60, 2, s. 91-110, 2004.
Mikolajczyk, K. ja Schmid, C., "A performance assessment of local descriptors", IEEE Transactions on Pattern Analysis and Machine Intelligence, 10, 27, s. 1615-1630, 2005.
PCA-SIFT: Erottuvampi esitys paikallisille kuvakuvaajille
Lazebnik, S., Schmid, C. ja Ponce, J., Semi-Local Affine Parts for Object Recognition, BMVC, 2004.
ASIFT (Affine SIFT) : suuri näkökulmasovitus SIFT:n kanssa, lähdekoodilla ja online-esittelyllä
VLFeat , avoimen lähdekoodin tietokonenäkökirjasto C-kielellä (MEX-liitännällä MATLABiin), mukaan lukien SIFT-toteutus
LIP-VIREO , työkalupakki avainpisteominaisuuksien poimimiseen (binäärit Windowsille, Linuxille ja SunOS:lle), mukaan lukien SIFT-toteutus
(Rinnakkais) SIFT C#:ssa , SIFT-algoritmi C#:ssa käyttäen Emgu CV:tä ja myös algoritmin muokattu rinnakkaisversio.
DoH & LoG + affine , Blob-ilmaisin mukautettu SIFT-työkalupakista
Yksinkertainen vaihe vaiheelta SIFT-opas
SIFT useiden kohteiden havaitsemiseen
" SIFT-menetelmän anatomia" Image Processing On Line -sovelluksessa, yksityiskohtainen tutkimus algoritmin jokaisesta vaiheesta avoimen lähdekoodin toteutuksella ja web-demo eri parametrien kokeilemiseksi
ezSIFT: helppokäyttöinen erillinen SIFT-toteutus C/C++:ssa . Itsenäinen avoimen lähdekoodin SIFT-toteutus, joka ei vaadi muita kirjastoja.
3D SIFT -toteutus: tunnistus ja sovitus tilavuuskuvissa.