Okapi BM25

Okapi BM25 on sijoitustoiminto  , jota hakukoneet käyttävät asiakirjojen lajitteluun niiden osuvuuden mukaan tiettyyn hakukyselyyn. Se perustuu Stephen Robertsonin , Karen Spark Jonesin ja muiden 1970- ja 1980-luvuilla kehittämään todennäköisyysmalliin.

Itse toimintoa kutsutaan nimellä BM25 (BM englanninkielisestä  best matchistä), mutta sitä kutsutaan usein nimellä "Okapi BM25" Lontoon City Universityssä 1980- ja 1990-luvuilla luodun Okapi-hakukoneen mukaan , jossa tätä funktiota käytettiin ensimmäisen kerran. .

BM25 ja sen monet myöhemmät muunnelmat (esim. BM25F) ovat nykyaikaisia ​​TF-IDF :n kaltaisia ​​rankingfunktioita, joita käytetään laajasti käytännössä hakukoneissa. Verkkohaussa nämä sijoitusfunktiot sisältyvät usein monimutkaisemman, usein koneoppitun sijoitusfunktion komponentteina.

Ranking-toiminto

BM25 on hakutoiminto järjestämättömästä termien joukosta (" pussi sanaa ") ja joukosta asiakirjoja, jotka se arvioi kunkin asiakirjan kyselysanojen esiintymisen perusteella ottamatta huomioon niiden välistä suhdetta (esim. läheisyys). Se ei ole yksittäinen funktio, vaan funktioperhe, jossa on erilaisia ​​komponentteja ja parametreja. Yksi tämän toiminnon yleinen muoto on kuvattu alla.

Kun kysely sisältää sanat , BM25-funktio antaa seuraavan arvion asiakirjan merkityksestä kyselyn kannalta :

missä on sanan tiheys ( eng. term Frequency, TF ) asiakirjassa , on asiakirjan pituus (sanojen lukumäärä siinä) ja on asiakirjan keskimääräinen pituus kokoelmassa. ja ovat vapaita kertoimia, ne valitaan yleensä muodossa ja .  

on olemassa käänteinen asiakirjataajuus ( eng.  käänteinen asiakirjataajuus, IDF ) sanat . IDF:stä on useita tulkintoja ja pieniä vaihteluita sen kaavassa. Klassisesti se määritellään seuraavasti:

missä on kokoelman asiakirjojen kokonaismäärä  ja . Mutta useammin käytetään tämän kaavan "tasoitettuja" versioita, esimerkiksi:

Yllä olevalla IDF-kaavalla on seuraava haittapuoli. Sanojen yli puolessa kokoelman asiakirjoista IDF-arvo on negatiivinen. Siten kahden lähes identtisen asiakirjan läsnä ollessa, joista toisessa on sana ja toisessa ei, toinen voi saada korkeamman pistemäärän.

Toisin sanoen usein esiintyvät sanat pilaavat asiakirjan lopputuloksen. Tämä ei ole toivottavaa, joten monissa sovelluksissa yllä olevaa kaavaa voidaan säätää seuraavilla tavoilla:

IDF:n tulkinta informaatioteoriassa

Oletetaan, että hakusana esiintyy asiakirjoissa. Sitten satunnaisesti valittu asiakirja sisältää sanan todennäköisyydellä (missä on kokoelman dokumenttijoukon kardinaliteetti). Tässä tapauksessa lauseen " sisältää " tietoarvo on seuraava:

Oletetaan nyt, että hakusanaa on kaksi ja . Jos he syöttävät asiakirjan toisistaan ​​riippumatta, todennäköisyys löytää ne satunnaisesti valitusta asiakirjasta on seuraava:

ja tämän tapahtuman sisältö

Tämä on suunnilleen se, mitä IDF-komponentti ilmaisee BM25:ssä.

Muutokset

Muistiinpanot

  1. Xapian: BM25-painotuskaavio . Käyttöpäivä: 30. tammikuuta 2010. Arkistoitu alkuperäisestä 15. maaliskuuta 2010.
  2. Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria ja Stephen Robertson. Microsoft Cambridge TREC-13:ssa: Web- ja HARD-kappaleet. Arkistoitu 26. elokuuta 2009 Wayback Machinessa In Proceedings of TREC-2004, 2004.

Kirjallisuus