Learning to ranking ( learning to ranking or machine-learned ranking, MLR ) [1] on ohjattujen koneoppimistehtävien luokka, joka koostuu sijoittelumallin automaattisesta valinnasta koulutusjoukosta, joka koostuu luetteloista ja elementtien osittaisista tilauksista . kunkin luettelon sisällä. Osittainen järjestys määritetään yleensä määrittämällä pisteet jokaiselle tuotteelle (esim. "olennainen" tai "ei relevantti"; enemmän kuin kaksi astetta on mahdollista). Ranking-mallin tavoitteena on parhaiten (jossain mielessä) approksimoida ja yleistää koulutusjoukon sijoitusmenetelmä uuteen dataan.
Rankingoppiminen on vielä melko nuori, nopeasti kehittyvä tutkimusala, joka syntyi 2000-luvulla, kun tiedonhaun alalla heräsi kiinnostus koneoppimismenetelmien soveltamiseen rankingongelmiin.
Mitä tulee hakukoneisiin , jokainen luettelo on joukko asiakirjoja, jotka täyttävät jonkin hakukyselyn.
Harjoitusnäyte koostuu hakukyselyjen otoksesta, niitä vastaavien asiakirjojen osajoukosta ja arvioista kunkin asiakirjan osuvuudesta kyselyyn. Ne voidaan valmistaa sekä manuaalisesti, erityiskoulutuksen saaneiden henkilöiden toimesta (haun laadun arvioijat tai arvioijat ) tai automaattisesti, perustuen käyttäjien napsautusten analyysiin [2] tai hakukonetyökaluihin, kuten Google - hakukoneen SearchWiki -järjestelmään .
Luokitusmallin koulutuksen ja toiminnan aikana jokainen dokumentti-pyyntö-pari muunnetaan numeeriseksi vektoriksi ranking-ominaisuuksista (kutsutaan myös rankingtekijöiksi tai -signaaleiksi), jotka kuvaavat dokumentin ominaisuuksia, kyselyä ja niiden suhdetta. Nämä merkit voidaan jakaa kolmeen ryhmään:
Seuraavassa on joitain esimerkkejä sijoitusominaisuuksista, joita on käytetty tunnetussa LETOR - tietojoukossa tällä tutkimusalalla : [5]
On olemassa useita mittareita, jotka arvioivat ja vertaavat otoksen sijoitusalgoritmien suorituskykyä vertaisarviointiin. Usein sijoitusmallin parametreja pyritään säätämään siten, että jonkin näistä mittareista saadaan maksimoitua arvo.
Esimerkkejä mittareista:
Artikkelissaan "Learning to Rank for Information Retrieval" [1] ja esitelmissään temaattisissa konferensseissa Tai-Yan Liu Microsoft Research Asiasta analysoi nykyisin saatavilla olevia menetelmiä ranking-oppimisen ongelman ratkaisemiseksi ja ehdotti niiden luokittelua kolmeen lähestymistapaan riippuen. käytetystä syöttödatan esityksestä ja sakkofunktiosta:
Pistekohtaisessa lähestymistavassa oletetaan , että jokaiselle kysely-asiakirja-parille on annettu numeerinen pistemäärä. Luokittelun oppimisen tehtävä rajoittuu regression rakentamiseen : jokaisen yksittäisen kysely-asiakirja-parin pistemäärä on tarpeen ennustaa.
Tässä lähestymistavassa monia koneoppimisalgoritmeja voidaan soveltaa regressioongelmiin. Kun pisteet voivat ottaa vain muutaman arvon, voidaan käyttää myös ordinaalisen regression ja luokittelun algoritmeja.
Parilähestymistavassa sijoittamisen oppiminen tiivistyy binääriluokittajan rakentamiseen, joka vastaanottaa kaksi samaa kyselyä vastaavaa dokumenttia syötteenä, ja on määritettävä, kumpi on parempi.
Esimerkkejä algoritmeista: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.
Listamainen lähestymistapa koostuu mallin rakentamisesta, jonka syötteenä ovat välittömästi kaikki kyselyä vastaavat asiakirjat ja tulos on niiden permutaatio . Mallin parametrien sovitus suoritetaan, jotta yksi yllä olevista sijoitusmittareista voidaan suoraan maksimoida. Mutta tämä on usein vaikeaa, koska sijoitusmittarit eivät yleensä ole jatkuvia ja erottumattomia sijoitusmallin parametrien suhteen, joten ne turvautuvat joidenkin approksimaatioidensa tai alempien arvioiden maksimoimiseen.
Esimerkkejä algoritmeista: [1] SoftRank, SVM - kartta , AdaRank, RankGP, ListNet, ListMLE.
Monien nykyaikaisten Internet-hakukoneiden hakukoneet, mukaan lukien Yandex , Yahoo [7] ja Bing , käyttävät koneoppimismenetelmillä rakennettuja rankingmalleja. Bingin haku käyttää RankNet- algoritmia . [8] Uusin Yandex -hakukoneessa kehitetty ja käytetty koneoppimisalgoritmi on nimeltään MatrixNet; [9] Yandex itse sponsoroi Internet Mathematics 2009 -kilpailua [10] rakentaakseen omaan tietosarjaansa perustuvan ranking-algoritmin.
Googlen tutkimusjohtaja Peter Norvig sanoi haastattelussa alkuvuodesta 2008, että heidän hakukoneensa ei ollut vielä valmis täysin uskomaan sijoitusta koneoppimisalgoritmeille, sillä ensinnäkin automaattisesti luodut mallit voivat käyttäytyä arvaamattomasti uusilla. kyselyluokat, jotka eivät ole samanlaisia kuin koulutusnäytteen kyselyt, verrattuna ihmisasiantuntijoiden luomiin malleihin. Toiseksi nykyisen Googlen ranking-algoritmin luojat luottavat siihen, että heidän mallinsa pystyy myös ratkaisemaan ongelmia tehokkaammin kuin koneoppiminen. [11] Ensimmäinen syy kiinnostaa meitä paljon enemmän, koska se ei johda pelkästään niin tunnettuun induktiivisen logiikan ongelmaan, jonka saksalainen matemaatikko C.G. Hempel ja ristiriita intuition kanssa (väite "kaikki korpit ovat mustia" vastaa loogisesti "kaikki ei-mustat esineet eivät ole korppeja"), mutta myös saa meidät palaamaan useisiin ratkaisemattomiin kysymyksiin F. Rosenblattilta, joka loi maailman ensimmäinen hermoverkko, joka pystyy havaitsemaan ja muodostamaan vasteen havaittuun ärsykkeeseen - yksikerroksinen perceptron. [12] Rosenblatin alkeisperceptronin kritiikin perusteella voimme ymmärtää tämän luokitusmallin koko haavoittuvuuden, josta Googlen asiantuntijat kertovat: pystyvätkö keinotekoiset järjestelmät yleistämään yksilöllisen kokemuksensa moniin tilanteisiin, joihin reagoitiin. ei ole ilmoitettu heille etukäteen? Ei, yksilöllinen kokemus keinotekoisista järjestelmistä käytännössä on aina rajallinen eikä koskaan täydellinen. Tavalla tai toisella koneoppimistyökalujen avulla voit ratkaista roskapostin lähettämisen ongelman melko tehokkaasti. [13]
Koneoppiminen ja tiedon louhinta | |
---|---|
Tehtävät | |
Opettajan kanssa oppimista | |
ryhmäanalyysi | |
Mittasuhteiden vähentäminen | |
Rakenteellinen ennustaminen | |
Anomalian havaitseminen | |
Piirrä todennäköisyysmallit | |
Neuroverkot | |
Vahvistusoppiminen |
|
Teoria | |
Lehdet ja konferenssit |
|