Ranking koulutus

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 2. elokuuta 2019 tarkistetusta versiosta . tarkastukset vaativat 4 muokkausta .

Learning to ranking ( learning to ranking or machine-learned ranking, MLR ) [1] on ohjattujen koneoppimistehtävien luokka, joka koostuu sijoittelumallin automaattisesta valinnasta koulutusjoukosta, joka koostuu luetteloista ja elementtien osittaisista tilauksista . kunkin luettelon sisällä. Osittainen järjestys määritetään yleensä määrittämällä pisteet jokaiselle tuotteelle (esim. "olennainen" tai "ei relevantti"; enemmän kuin kaksi astetta on mahdollista). Ranking-mallin tavoitteena on parhaiten (jossain mielessä) approksimoida ja yleistää koulutusjoukon sijoitusmenetelmä uuteen dataan.

Rankingoppiminen on vielä melko nuori, nopeasti kehittyvä tutkimusala, joka syntyi 2000-luvulla, kun tiedonhaun alalla heräsi kiinnostus koneoppimismenetelmien soveltamiseen rankingongelmiin.

Sovellus tiedonhaussa

Mitä tulee hakukoneisiin , jokainen luettelo on joukko asiakirjoja, jotka täyttävät jonkin hakukyselyn.

Harjoitusnäyte koostuu hakukyselyjen otoksesta, niitä vastaavien asiakirjojen osajoukosta ja arvioista kunkin asiakirjan osuvuudesta kyselyyn. Ne voidaan valmistaa sekä manuaalisesti, erityiskoulutuksen saaneiden henkilöiden toimesta (haun laadun arvioijat tai arvioijat ) tai automaattisesti, perustuen käyttäjien napsautusten analyysiin [2] tai hakukonetyökaluihin, kuten Google - hakukoneen SearchWiki -järjestelmään .

Ranking-ominaisuudet

Luokitusmallin koulutuksen ja toiminnan aikana jokainen dokumentti-pyyntö-pari muunnetaan numeeriseksi vektoriksi ranking-ominaisuuksista (kutsutaan myös rankingtekijöiksi tai -signaaleiksi), jotka kuvaavat dokumentin ominaisuuksia, kyselyä ja niiden suhdetta. Nämä merkit voidaan jakaa kolmeen ryhmään:

Kyselystä riippumattomat tai staattiset ominaisuudet - riippuvat vain asiakirjasta, mutta ei pyynnöstä. Esimerkiksi PageRank tai asiakirjan pituus. Tällaiset ominaisuudet lasketaan yleensä dokumenttien indeksointivaiheessa, ja niitä käytetään usein luomaan staattinen asiakirjan laatupiste, jota käytetään parantamaan hakukoneiden suorituskykyä. [3] [4]
Ominaisuudet, jotka riippuvat vain pyynnöstä. Esimerkiksi "pyyntö pornosta vai ei".
Kyselystä riippuvat tai dynaamiset ominaisuudet - riippuen sekä asiakirjasta että pyynnöstä. Esimerkiksi TF-IDF- mitta asiakirjan yhteensopivuudesta kyselyn kanssa.

Seuraavassa on joitain esimerkkejä sijoitusominaisuuksista, joita on käytetty tunnetussa LETOR - tietojoukossa tällä tutkimusalalla : [5]

Mittausarvot TF, TF-IDF , BM25 ja kielimalli , joka vastaa asiakirjan eri vyöhykkeiden pyyntöjä (otsikko, URL -osoite , leipäteksti, linkkiteksti);
Pituudet ja IDF - asiakirjan vyöhykkeiden summat;
Asiakirjojen sijoitukset on saatu linkkien luokittelualgoritmien , kuten PageRank ja HITS , eri muunnelmilla .

Ranking laatumittarit

On olemassa useita mittareita, jotka arvioivat ja vertaavat otoksen sijoitusalgoritmien suorituskykyä vertaisarviointiin. Usein sijoitusmallin parametreja pyritään säätämään siten, että jonkin näistä mittareista saadaan maksimoitua arvo.

Esimerkkejä mittareista:

DCG ja NDCG_ _
Tarkkuus @ n , NDCG@ n (@ n tarkoittaa, että metriarvo otetaan huomioon vain n parhaan asiakirjan osalta);
KARTTA ;
keskiarvo käänteinen arvo ;
pfoundin on kehittänyt Yandex . [6]

Algoritmien luokittelu

Artikkelissaan "Learning to Rank for Information Retrieval" [1] ja esitelmissään temaattisissa konferensseissa Tai-Yan Liu Microsoft Research Asiasta analysoi nykyisin saatavilla olevia menetelmiä ranking-oppimisen ongelman ratkaisemiseksi ja ehdotti niiden luokittelua kolmeen lähestymistapaan riippuen. käytetystä syöttödatan esityksestä ja sakkofunktiosta:

Pointwise lähestymistapa

Pistekohtaisessa lähestymistavassa oletetaan , että jokaiselle kysely-asiakirja-parille on annettu numeerinen pistemäärä. Luokittelun oppimisen tehtävä rajoittuu regression rakentamiseen : jokaisen yksittäisen kysely-asiakirja-parin pistemäärä on tarpeen ennustaa.

Tässä lähestymistavassa monia koneoppimisalgoritmeja voidaan soveltaa regressioongelmiin. Kun pisteet voivat ottaa vain muutaman arvon, voidaan käyttää myös ordinaalisen regression ja luokittelun algoritmeja.

Parillinen lähestymistapa

Parilähestymistavassa sijoittamisen oppiminen tiivistyy binääriluokittajan rakentamiseen, joka vastaanottaa kaksi samaa kyselyä vastaavaa dokumenttia syötteenä, ja on määritettävä, kumpi on parempi.

Esimerkkejä algoritmeista: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.

Luettelo lähestymistapa

Listamainen lähestymistapa koostuu mallin rakentamisesta, jonka syötteenä ovat välittömästi kaikki kyselyä vastaavat asiakirjat ja tulos on niiden permutaatio . Mallin parametrien sovitus suoritetaan, jotta yksi yllä olevista sijoitusmittareista voidaan suoraan maksimoida. Mutta tämä on usein vaikeaa, koska sijoitusmittarit eivät yleensä ole jatkuvia ja erottumattomia sijoitusmallin parametrien suhteen, joten ne turvautuvat joidenkin approksimaatioidensa tai alempien arvioiden maksimoimiseen.

Esimerkkejä algoritmeista: [1] SoftRank, SVM - kartta , AdaRank, RankGP, ListNet, ListMLE.

Käytännön sovellus

Suurissa hakukoneissa

Monien nykyaikaisten Internet-hakukoneiden hakukoneet, mukaan lukien Yandex , Yahoo [7] ja Bing , käyttävät koneoppimismenetelmillä rakennettuja rankingmalleja. Bingin haku käyttää RankNet- algoritmia . [8] Uusin Yandex -hakukoneessa kehitetty ja käytetty koneoppimisalgoritmi on nimeltään MatrixNet; [9] Yandex itse sponsoroi Internet Mathematics 2009 -kilpailua [10] rakentaakseen omaan tietosarjaansa perustuvan ranking-algoritmin.

Googlen tutkimusjohtaja Peter Norvig sanoi haastattelussa alkuvuodesta 2008, että heidän hakukoneensa ei ollut vielä valmis täysin uskomaan sijoitusta koneoppimisalgoritmeille, sillä ensinnäkin automaattisesti luodut mallit voivat käyttäytyä arvaamattomasti uusilla. kyselyluokat, jotka eivät ole samanlaisia kuin koulutusnäytteen kyselyt, verrattuna ihmisasiantuntijoiden luomiin malleihin. Toiseksi nykyisen Googlen ranking-algoritmin luojat luottavat siihen, että heidän mallinsa pystyy myös ratkaisemaan ongelmia tehokkaammin kuin koneoppiminen. [11] Ensimmäinen syy kiinnostaa meitä paljon enemmän, koska se ei johda pelkästään niin tunnettuun induktiivisen logiikan ongelmaan, jonka saksalainen matemaatikko C.G. Hempel ja ristiriita intuition kanssa (väite "kaikki korpit ovat mustia" vastaa loogisesti "kaikki ei-mustat esineet eivät ole korppeja"), mutta myös saa meidät palaamaan useisiin ratkaisemattomiin kysymyksiin F. Rosenblattilta, joka loi maailman ensimmäinen hermoverkko, joka pystyy havaitsemaan ja muodostamaan vasteen havaittuun ärsykkeeseen - yksikerroksinen perceptron. [12] Rosenblatin alkeisperceptronin kritiikin perusteella voimme ymmärtää tämän luokitusmallin koko haavoittuvuuden, josta Googlen asiantuntijat kertovat: pystyvätkö keinotekoiset järjestelmät yleistämään yksilöllisen kokemuksensa moniin tilanteisiin, joihin reagoitiin. ei ole ilmoitettu heille etukäteen? Ei, yksilöllinen kokemus keinotekoisista järjestelmistä käytännössä on aina rajallinen eikä koskaan täydellinen. Tavalla tai toisella koneoppimistyökalujen avulla voit ratkaista roskapostin lähettämisen ongelman melko tehokkaasti. [13]

Muistiinpanot

↑ 1 2 3 4 Tie-Yan Liu (2009), Learning to Rank for Information Retrieval , Funds and Trends in Information Retrieval: Voi. 3: nro 3, s. 225-331, ISBN 978-1-60198-244-5 , DOI 10.1561/1500000016 . Diat saatavilla Arkistoitu 31. maaliskuuta 2010. T. Lew'n puheesta WWW 2009 -konferenssissa.
↑ Hakukoneiden optimointi napsautussuhdetietojen avulla . Haettu 18. marraskuuta 2009. Arkistoitu alkuperäisestä 29. joulukuuta 2009. (määrätön)
↑ Staattiset laatupisteet ja tilaus . Haettu 18. marraskuuta 2009. Arkistoitu alkuperäisestä 7. heinäkuuta 2009. (määrätön)
↑ Richardson, M.; Prakash, A. ja Brill, E. (2006). "Beyond PageRank: Machine Learning for Static Ranking" (PDF) . 15. kansainvälisen World Wide Web -konferenssin julkaisut . s. 707–715. Arkistoitu (PDF) alkuperäisestä 15.8.2009. Käytöstä poistettu parametri |deadlink=( ohje )
↑ LETOR 3.0. Vertailuarvokokoelma tiedonhaun sijoituksen oppimiseen . Haettu 18. marraskuuta 2009. Arkistoitu alkuperäisestä 16. helmikuuta 2012. (määrätön)
↑ Gulin A., Karpovich P., Raskovalov D., Segalovich I. Yandex at ROMIP'2009. Ranking-algoritmien optimointi koneoppimismenetelmillä. Arkistoitu 22. marraskuuta 2009 Wayback Machinessa
↑ Yahoo lanseeraa maailman suurimman Hadoop-tuotantosovelluksen , arkistoitu 21. joulukuuta 2009 Wayback Machinessa
↑ Bing Search -blogi: Käyttäjien tarpeet, ominaisuudet ja tiede Bingin takana Arkistoitu 25. marraskuuta 2009 Wayback Machinessa
↑ Roem.ru: Yandex julkaisi uuden Snezhinsk-kaavan, nyt on tuhat muuttujaa 250 sijaan. . Haettu 20. marraskuuta 2009. Arkistoitu alkuperäisestä 13. marraskuuta 2009. (määrätön)
↑ Internet Mathematics 2009 (pääsemätön linkki) . Haettu 20. marraskuuta 2009. Arkistoitu alkuperäisestä 15. marraskuuta 2009. (määrätön)
↑ Ovatko koneoppitut mallit alttiita katastrofaalisille virheille? Arkistoitu alkuperäisestä 18. syyskuuta 2010. (Englanti)
↑ Perceptrons: An Associative Learning Network arkistoitu 9. elokuuta 2011 Wayback Machinessa
↑ Hakukoneen roskapostin tunnistus. Osa 15: Keinotekoisten hermoverkkojen soveltaminen Arkistoitu 10. maaliskuuta 2013 Wayback Machinessa (venäjä)

Koneoppiminen ja tiedon louhinta
Tehtävät	Luokittelu ongelma Oppiminen ilman opettajaa Opettajan avustama oppiminen Taantumisanalyysi AutoML Yhdistyksen säännöt Ominaisuuksien erottaminen Ominaisuuksien koulutus Ranking koulutus Kieliopillinen johtaminen Verkko-oppiminen
Opettajan kanssa oppimista	k-lähimmän naapurin menetelmä Naiivi Bayesin luokitin päätöspuu Tuki vektorikonetta Lineaarinen regressio Logistinen regressio perceptron Mallien kokoonpanot Pussittaminen tehostaa satunnainen metsä Asiaankuuluva vektorimenetelmä
ryhmäanalyysi	k-keinomenetelmä Sumea klusterointimenetelmä Hierarkkinen klusterointi EM-algoritmi KOIVU PARANTAA DBSCAN OPTIIKKA Keskimääräinen siirto
Mittasuhteiden vähentäminen	Tekijäanalyysi Pääkomponenttimenetelmä CCA ICA LDA Ei-negatiivinen matriisin laajennus t-SNE
Rakenteellinen ennustaminen	Graafinen todennäköisyysmalli Bayesin verkko Piilotettu Markovin malli CRF
Anomalian havaitseminen	k-lähimmän naapurin menetelmä Paikallinen päästötaso
Piirrä todennäköisyysmallit	Bayesin verkko Markovin verkko Piilotettu Markovin malli
Neuroverkot	Rajoitettu Boltzmann-kone itseorganisoituva kartta Aktivointitoiminto Sigmoidi softmax Radiaalinen kantafunktio Takaisin lisäysmenetelmä Syväoppiminen Monikerroksinen perceptroni Toistuva neuroverkko pitkä lyhytaikainen muisti Hallittu toistuva esto Konvoluutiohermoverkko U-verkko Autoenkooderi
Vahvistusoppiminen	Markovin prosessi Bellmanin yhtälö Ahne algoritmi Q-oppiminen SARSA Aikaero (TD)
Teoria	Vapnik-Chervonenkis teoria Bias-dispersion dilemma Laskennallinen oppimisteoria Empiirinen riskin minimointi Occam oppii PAC-oppiminen Tilastollinen oppimisteoria
Lehdet ja konferenssit	NeurIPS ICML ML JMLR ArXiv:cs.LG