John Kleinbergin vuonna 1999 ehdottama HITS ( Hyperlink Induced Topic Search ) -algoritmi mahdollistaa käyttäjän kyselyä vastaavien Internet-sivujen löytämisen hyperlinkkien sisältämien tietojen perusteella [1] .
HITS-mittaria käytetään usein vastaamaan laajoihin aihekyselyihin ja etsimään dokumenttiyhteisöjä ( esim . Tightly-Knit Community ) Internetistä . Algoritmin idea perustuu oletukseen, että hyperlinkit koodaavat huomattavan määrän piilotettuja auktoriteettisivuja [2] .
Valtuutettu asiakirja (valtuutettu sivu, kirjoittaja) on käyttäjän pyyntöä vastaava asiakirja, jolla on suurempi osuus tämän aiheen asiakirjoista, eli suurempi määrä asiakirjoja viittaa tähän asiakirjaan [1] .
Keskusdokumentti (keskitinsivu, välittäjä) on asiakirja, joka sisältää monia linkkejä arvovaltaisiin asiakirjoihin.
Sivun, jolle monet muut kohdat linkittävät, on oltava hyvä "tekijä". Moniin muihin viittaavan sivun pitäisi puolestaan olla hyvä "välittäjä". Tämän perusteella HITS-algoritmi laskee kullekin verkkosivulle kaksi pistettä : auktoriteetin ja välipisteen. Toisin sanoen jokaiselle sivulle sen merkitys "tekijänä" ja "välittäjänä" lasketaan rekursiivisesti [3] [4] .
Ensimmäinen askel HITS- algoritmissa on saada hakukyselyn osuvimmat sivut . Tätä joukkoa kutsutaan juurijoukoksi, ja se voidaan saada ottamalla tekstihakualgoritmin palauttamat suosituimmat n sivua. Perusjoukko muodostetaan lisäämällä juurijoukkoa kaikilla siihen linkitetyillä verkkosivuilla ja joillakin siihen linkitetyillä sivuilla. Perusjoukon verkkosivut ja kaikki näiden sivujen väliset hyperlinkit muodostavat tiivistetyn alikaavion. HITS-laskelmat suoritetaan vain tälle alakaaviolle.
Auktoriteettiasiakirjan ja välittäjän pisteet määritellään toistensa suhteen keskinäisessä rekursiossa . Sivun auktoriteettipisteet lasketaan kyseiselle sivulle osoittavien välityssivujen pisteiden summana. Jälleenmyyjän pistemäärä lasketaan niiden arvovaltaisten sivujen pisteiden summana, joille se osoittaa.
Algoritmi suorittaa useita iteraatioita , joista jokainen koostuu kahdesta päävaiheesta:
Vertexin auktoriteettipisteet ja välityspisteet lasketaan seuraavalla algoritmilla:
Luokituksen aloittamiseksi , ja . Harkitse kahdenlaisia päivityksiä: auktoriteetin päivityssääntöä ja keskittimen päivitystä. Auktoriteettipäivityksen ja keskittimen päivityssääntöjen toistuvia iteraatioita sovelletaan valtuus-/välityspalvelinpisteiden laskemiseen . Algoritmin k-vaiheessa käytetään ensimmäistä auktoriteetin päivityssääntöä k kertaa ja sitten keskittimen päivityssääntöä.
, saamme = missä n on p:hen linkitettyjen sivujen kokonaismäärä ja i on p:hen linkitetty sivu. Siten sivun auktoriteettipisteet lasketaan kyseiselle sivulle osoittavien välisivujen pistearvojen summana.
, saamme = missä n on p:n osoittamien sivujen kokonaismäärä ja i on sivu, johon p osoittaa. Siten sivun välityspisteet lasketaan niiden sivujen auktoriteettipisteiden summana, joihin se linkittää.
Näistä arvoista riippuen verkkosivujen merkitys tietylle pyynnölle lasketaan ja näytetään sitten käyttäjälle. HITS Rank -moduuli laskee verkkosivun sijoituksen offline-tilassa sen jälkeen, kun ne on ladattu ja tallennettu paikalliseen tietokantaan. [5]
Lopulliset kärkipisteet määritetään algoritmin loputtoman toiston jälkeen. Keskittimen päivityksen ja auktoriteetin päivityssääntöjen suora ja johdonmukainen soveltaminen johtaa poikkeaviin arvoihin, jotka matriisin on normalisoitava jokaisen iteraation jälkeen. Siten tästä prosessista saadut arvot lopulta lähentyvät.
HITS- algoritmilla on useita tärkeitä eroja PageRank-algoritmiin verrattuna . [6]
Huolimatta eroista HITS:n ja PageRankin välillä, näille algoritmeille on yhteistä, että solmun auktoriteetti (paino) riippuu muiden solmujen painosta ja "välittäjän" taso riippuu siitä, kuinka arvovaltaisia solmut, joihin se viittaa.
Yksittäisten asiakirjojen auktoriteetin laskentaa käytetään nykyään laajalti sellaisissa sovelluksissa kuin IPS -robotin suorittaman asiakirjojen skannausjärjestyksen määrittäminen verkossa , hakutulosten luokittelu, temaattisten arvostelujen luominen jne.
Tällä hetkellä tekniikat, joilla keinotekoisesti nostetaan yksittäisten verkkodokumenttien tai niiden Web-sivustoryhmien rivejä luomalla hyperlinkkejä, jotka eivät liity niiden sisältöön, ovat yleistyneet . Nämä tekniikat, jotka ovat epäluotettava valikoima SEO-menetelmiä hakukoneoptimoinnissa ( Search Engine Optimization ), joita kutsutaan "mustahattu" SEO:ksi, perustuvat mukautumiseen olemassa oleviin algoritmeihin, joilla suosituimmat ( hakukoneet ) luokitellaan verkkoasiakirjoja.
Tällaiset tekniikat puolestaan johtavat tarpeeseen jatkuvasti parantaa hakukoneiden sijoitusalgoritmeja, keskittyen verkkodokumenttien sisältökomponenttiin niiden sijoituksia määritettäessä. [neljä]
HITS-algoritmin arvioinnissa on tehty paljon tutkimusta ja on osoitettu, että vaikka algoritmi toimii hyvin useimmissa kyselyissä, se ei toimi joillekin muille. Syitä on useita [7] :
Ei ole tarkoituksenmukaista tehdä selkeää eroa "välittäjien" ja "tekijöiden" välillä, koska monet välittäjäsivut ovat myös tekijöitä.
Joidenkin temaattisesti läheisesti liittyvien asiakirjojen hallitseva sijainti HITS-algoritmin seurauksena. Joissakin tapauksissa nämä asiakirjat eivät välttämättä liity pyyntöön . Eräässä tapauksessa, kun hakuelementti oli "Jaguar", HITS-algoritmi konvergoi jalkapallojoukkueeseen nimeltä Jaguars.
Tämän ongelman ratkaisemiseksi ehdotettiin PHITS-algoritmia [4] vakio-HITS-algoritmin jatkeeksi. Tämän algoritmin puitteissa oletetaan: — joukko viittausasiakirjoja, — joukko viittauksia, — joukko luokkia (tekijöitä). Oletetaan myös, että tapahtuma tapahtuu todennäköisyydellä . Ehdolliset todennäköisyydet ja niitä käytetään kuvaamaan linkin , piilevän tekijän ja asiakirjan välisiä riippuvuuksia .
Todennäköisyysfunktio on arvioitu :
,PHITS-algoritmin tavoitteena on sovittaa , , maksimoida .
Sen jälkeen:
– "tekijät"; – "välittäjien" arvot.Ristojen laskemiseksi sinun on määritettävä joukon tekijöiden lukumäärä , ja sitten se luonnehtii sivun laatua "tekijänä" aiheen yhteydessä. Menetelmän haittoja ovat se, että iteratiivinen prosessi ei useimmiten pysähdy absoluuttiseen, vaan todennäköisyysfunktion paikalliseen maksimiin . Kuitenkin tilanteissa, joissa kyselyn aiheella ei ole selvää määräävää asemaa löydettyjen verkkosivujen joukossa, PHITS toimii paremmin kuin HITS-algoritmi.
Osa linkeistä on tietokoneella luotuja, mutta HITS-algoritmi antaa niille silti samat arvot.
Jotkut kyselyt voivat palauttaa merkityksettömiä asiakirjoja korkealle sijoitukselle, mikä johtaa HITS-algoritmin virheellisiin tuloksiin.