Käänteinen indeksi on tietorakenne , jossa asiakirjakokoelman jokaiselle sanalle vastaava luettelo listaa kaikki asiakirjat kokoelmassa, jossa se esiintyy. Käänteistä indeksiä käytetään tekstien etsimiseen.
Käänteisestä indeksistä on kaksi muunnelmaa:
Kuvataanpa, kuinka ratkaisemme ongelman löytää asiakirjoja, jotka sisältävät kaikki hakukyselyn sanat . Yksisanaista hakukyselyä käsiteltäessä vastaus on jo käänteisessä hakemistossa - ota vain sanaa vastaava lista kyselystä. Monisanaista kyselyä käsiteltäessä otetaan kutakin kyselysanaa vastaavien luetteloiden leikkauspiste.
Yleensä hakukoneissa luettelon asiakirjat asetetaan paremmuusjärjestykseen sen jälkeen, kun on luotu luettelo asiakirjoista, jotka sisältävät kyselyn sanoja käänteisen indeksin avulla . Käänteinen indeksi on suosituin tiedonhaussa käytetty tietorakenne [ 2] .
Olkoon meillä kolmen tekstin korpus ja , niin käänteinen indeksi näyttää tältä: "it is what it is""what is it""it is a banana"
"a": {2} "banaani": {2} "on": {0, 1, 2} "se": {0, 1, 2} "mitä": {0, 1}Tässä numerot osoittavat niiden tekstien numerot, joissa vastaava sana esiintyy. Sitten "what is it"hakukyselyn käsittely antaa seuraavan tuloksen .
Sanan esiintymisluettelossa asiakirjoissa mainitaan yleensä dokumenttien id:n lisäksi tekijät ( TF-IDF , binääritekijä: " osuiko sana otsikkoon vai ei", muut tekijät), jotka ovat käytetään rankingissa. Hakemistoa ei voida rakentaa kaikkien sanamuotojen mukaan, vaan lemmien mukaan (sanojen kanonisten muotojen mukaan). Pysäytyssanat voidaan sulkea pois ja niille ei rakenneta hakemistoa olettaen, että jokainen niistä esiintyy lähes kaikissa korpuksen dokumenteissa. Leikkausten laskemisen nopeuttamiseksi käytetään ohitusosoittimien heuristiikkaa . Käsiteltäessä monia sanoja sisältäviä pyyntöjä käytetään quorum-toimintoa, joka hyppää seuraavaan järjestysvaiheeseen asiakirjan osan, josta ei löytynyt kaikkia pyynnön sanoja.