Ranking koulutus

Kokeneet kirjoittajat eivät ole vielä tarkistaneet sivun nykyistä versiota, ja se voi poiketa merkittävästi 2. elokuuta 2019 tarkistetusta versiosta . tarkastukset vaativat 4 muokkausta .

Learning to ranking ( learning to ranking or machine-learned ranking, MLR ) [1] on ohjattujen  koneoppimistehtävien  luokka, joka koostuu sijoittelumallin automaattisesta valinnasta koulutusjoukosta, joka koostuu luetteloista ja elementtien osittaisista tilauksista . kunkin luettelon sisällä. Osittainen järjestys määritetään yleensä määrittämällä pisteet jokaiselle tuotteelle (esim. "olennainen" tai "ei relevantti"; enemmän kuin kaksi astetta on mahdollista). Ranking-mallin tavoitteena on parhaiten (jossain mielessä) approksimoida ja yleistää koulutusjoukon sijoitusmenetelmä uuteen dataan.

Rankingoppiminen on vielä melko nuori, nopeasti kehittyvä tutkimusala, joka syntyi 2000-luvulla, kun tiedonhaun alalla heräsi kiinnostus koneoppimismenetelmien soveltamiseen rankingongelmiin.

Sovellus tiedonhaussa

Mitä tulee hakukoneisiin , jokainen luettelo on joukko asiakirjoja, jotka täyttävät jonkin hakukyselyn.

Harjoitusnäyte koostuu hakukyselyjen otoksesta, niitä vastaavien asiakirjojen osajoukosta ja arvioista kunkin asiakirjan osuvuudesta kyselyyn. Ne voidaan valmistaa sekä manuaalisesti, erityiskoulutuksen saaneiden henkilöiden toimesta (haun laadun arvioijat tai arvioijat ) tai automaattisesti, perustuen käyttäjien napsautusten analyysiin [2] tai hakukonetyökaluihin, kuten Google - hakukoneen SearchWiki -järjestelmään .

Ranking-ominaisuudet

Luokitusmallin koulutuksen ja toiminnan aikana jokainen dokumentti-pyyntö-pari muunnetaan numeeriseksi vektoriksi ranking-ominaisuuksista (kutsutaan myös rankingtekijöiksi tai -signaaleiksi), jotka kuvaavat dokumentin ominaisuuksia, kyselyä ja niiden suhdetta. Nämä merkit voidaan jakaa kolmeen ryhmään:

Seuraavassa on joitain esimerkkejä sijoitusominaisuuksista, joita on käytetty tunnetussa LETOR - tietojoukossa tällä tutkimusalalla : [5]

Ranking laatumittarit

On olemassa useita mittareita, jotka arvioivat ja vertaavat otoksen sijoitusalgoritmien suorituskykyä vertaisarviointiin. Usein sijoitusmallin parametreja pyritään säätämään siten, että jonkin näistä mittareista saadaan maksimoitua arvo.

Esimerkkejä mittareista:

Algoritmien luokittelu

Artikkelissaan "Learning to Rank for Information Retrieval" [1] ja esitelmissään temaattisissa konferensseissa Tai-Yan Liu Microsoft Research Asiasta analysoi nykyisin saatavilla olevia menetelmiä ranking-oppimisen ongelman ratkaisemiseksi ja ehdotti niiden luokittelua kolmeen lähestymistapaan riippuen. käytetystä syöttödatan esityksestä ja sakkofunktiosta:

Pointwise lähestymistapa

Pistekohtaisessa lähestymistavassa oletetaan  , että jokaiselle kysely-asiakirja-parille on annettu numeerinen pistemäärä. Luokittelun oppimisen tehtävä rajoittuu regression rakentamiseen : jokaisen yksittäisen kysely-asiakirja-parin pistemäärä on tarpeen ennustaa.

Tässä lähestymistavassa monia koneoppimisalgoritmeja voidaan soveltaa regressioongelmiin. Kun pisteet voivat ottaa vain muutaman arvon, voidaan käyttää myös ordinaalisen regression ja luokittelun algoritmeja.

Parillinen lähestymistapa

Parilähestymistavassa sijoittamisen oppiminen  tiivistyy binääriluokittajan rakentamiseen, joka vastaanottaa kaksi samaa kyselyä vastaavaa dokumenttia syötteenä, ja on määritettävä, kumpi on parempi.

Esimerkkejä algoritmeista: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.

Luettelo lähestymistapa

Listamainen lähestymistapa koostuu mallin rakentamisesta, jonka syötteenä ovat välittömästi kaikki kyselyä vastaavat asiakirjat ja tulos on niiden  permutaatio . Mallin parametrien sovitus suoritetaan, jotta yksi yllä olevista sijoitusmittareista voidaan suoraan maksimoida. Mutta tämä on usein vaikeaa, koska sijoitusmittarit eivät yleensä ole jatkuvia ja erottumattomia sijoitusmallin parametrien suhteen, joten ne turvautuvat joidenkin approksimaatioidensa tai alempien arvioiden maksimoimiseen.

Esimerkkejä algoritmeista: [1] SoftRank, SVM - kartta , AdaRank, RankGP, ListNet, ListMLE.

Käytännön sovellus

Suurissa hakukoneissa

Monien nykyaikaisten Internet-hakukoneiden hakukoneet, mukaan lukien Yandex , Yahoo [7] ja Bing , käyttävät koneoppimismenetelmillä rakennettuja rankingmalleja. Bingin haku käyttää RankNet- algoritmia . [8] Uusin Yandex -hakukoneessa kehitetty ja käytetty koneoppimisalgoritmi on nimeltään MatrixNet; [9] Yandex itse sponsoroi Internet Mathematics 2009 -kilpailua [10] rakentaakseen omaan tietosarjaansa perustuvan ranking-algoritmin.

Googlen tutkimusjohtaja Peter Norvig sanoi haastattelussa alkuvuodesta 2008, että heidän hakukoneensa ei ollut vielä valmis täysin uskomaan sijoitusta koneoppimisalgoritmeille, sillä ensinnäkin automaattisesti luodut mallit voivat käyttäytyä arvaamattomasti uusilla. kyselyluokat, jotka eivät ole samanlaisia ​​kuin koulutusnäytteen kyselyt, verrattuna ihmisasiantuntijoiden luomiin malleihin. Toiseksi nykyisen Googlen ranking-algoritmin luojat luottavat siihen, että heidän mallinsa pystyy myös ratkaisemaan ongelmia tehokkaammin kuin koneoppiminen. [11] Ensimmäinen syy kiinnostaa meitä paljon enemmän, koska se ei johda pelkästään niin tunnettuun induktiivisen logiikan ongelmaan, jonka saksalainen matemaatikko C.G. Hempel ja ristiriita intuition kanssa (väite "kaikki korpit ovat mustia" vastaa loogisesti "kaikki ei-mustat esineet eivät ole korppeja"), mutta myös saa meidät palaamaan useisiin ratkaisemattomiin kysymyksiin F. Rosenblattilta, joka loi maailman ensimmäinen hermoverkko, joka pystyy havaitsemaan ja muodostamaan vasteen havaittuun ärsykkeeseen - yksikerroksinen perceptron. [12] Rosenblatin alkeisperceptronin kritiikin perusteella voimme ymmärtää tämän luokitusmallin koko haavoittuvuuden, josta Googlen asiantuntijat kertovat: pystyvätkö keinotekoiset järjestelmät yleistämään yksilöllisen kokemuksensa moniin tilanteisiin, joihin reagoitiin. ei ole ilmoitettu heille etukäteen? Ei, yksilöllinen kokemus keinotekoisista järjestelmistä käytännössä on aina rajallinen eikä koskaan täydellinen. Tavalla tai toisella koneoppimistyökalujen avulla voit ratkaista roskapostin lähettämisen ongelman melko tehokkaasti. [13]

Muistiinpanot

  1. 1 2 3 4 Tie-Yan Liu (2009), Learning to Rank for Information Retrieval , Funds and Trends in Information Retrieval: Voi. 3: nro 3, s. 225-331, ISBN 978-1-60198-244-5 , DOI 10.1561/1500000016  . Diat saatavilla Arkistoitu 31. maaliskuuta 2010. T. Lew'n puheesta WWW 2009 -konferenssissa.
  2. Hakukoneiden optimointi napsautussuhdetietojen avulla . Haettu 18. marraskuuta 2009. Arkistoitu alkuperäisestä 29. joulukuuta 2009.
  3. Staattiset laatupisteet ja tilaus . Haettu 18. marraskuuta 2009. Arkistoitu alkuperäisestä 7. heinäkuuta 2009.
  4. Richardson, M.; Prakash, A. ja Brill, E. (2006). "Beyond PageRank: Machine Learning for Static Ranking" (PDF) . 15. kansainvälisen World Wide Web -konferenssin julkaisut . s. 707–715. Arkistoitu (PDF) alkuperäisestä 15.8.2009. Käytöstä poistettu parametri |deadlink=( ohje )
  5. LETOR 3.0. Vertailuarvokokoelma tiedonhaun sijoituksen oppimiseen . Haettu 18. marraskuuta 2009. Arkistoitu alkuperäisestä 16. helmikuuta 2012.
  6. Gulin A., Karpovich P., Raskovalov D., Segalovich I. Yandex at ROMIP'2009. Ranking-algoritmien optimointi koneoppimismenetelmillä. Arkistoitu 22. marraskuuta 2009 Wayback Machinessa
  7. Yahoo lanseeraa maailman suurimman Hadoop-tuotantosovelluksen , arkistoitu 21. joulukuuta 2009 Wayback Machinessa 
  8. Bing Search -blogi: Käyttäjien tarpeet, ominaisuudet ja tiede Bingin takana Arkistoitu 25. marraskuuta 2009 Wayback Machinessa 
  9. Roem.ru: Yandex julkaisi uuden Snezhinsk-kaavan, nyt on tuhat muuttujaa 250 sijaan. . Haettu 20. marraskuuta 2009. Arkistoitu alkuperäisestä 13. marraskuuta 2009.
  10. Internet Mathematics 2009 (pääsemätön linkki) . Haettu 20. marraskuuta 2009. Arkistoitu alkuperäisestä 15. marraskuuta 2009. 
  11. Ovatko koneoppitut mallit alttiita katastrofaalisille virheille? Arkistoitu alkuperäisestä 18. syyskuuta 2010.  (Englanti)
  12. Perceptrons: An Associative Learning Network arkistoitu 9. elokuuta 2011 Wayback Machinessa 
  13. Hakukoneen roskapostin tunnistus. Osa 15: Keinotekoisten hermoverkkojen soveltaminen Arkistoitu 10. maaliskuuta 2013 Wayback Machinessa  (venäjä)