Yhteistyösuodatus

Yhteiskäyttöinen suodatus , yhteiskäyttöinen suodatus on yksi menetelmistä ennusteiden  ( suositusten) muodostamiseen suositusjärjestelmissä , joka käyttää käyttäjäryhmän tunnettuja mieltymyksiä (arvioita) ennustaakseen toisen käyttäjän tuntemattomia mieltymyksiä. [1] Hänen perusoletuksensa on, että niillä, jotka arvostivat asioita samalla tavalla aiemmin, on taipumus antaa samanlaisia ​​arvoja muille asioille tulevaisuudessa. [1] Esimerkiksi yhteissuodatusta käyttämällä musiikkisovellus pystyy ennustamaan, minkälaisesta musiikista käyttäjä pitää , koska hänen mieltymyksensä (tykkäyksiä ja ei-tykkäyksiä) on epätäydellinen luettelo. [2] Ennusteet tehdään jokaiselle käyttäjälle erikseen, vaikka käytetyt tiedot kerätäänkin useilta osallistujilta. Tällä tavalla yhteistyösuodatus eroaa yksinkertaisemmasta lähestymistavasta , joka antaa kullekin kiinnostavalle kohteelle keskimääräisen pistemäärän esimerkiksi sille annettujen äänten perusteella. Tämän alueen tutkimusta tehdään nykyään aktiivisesti, mikä johtuu myös yhteistyösuodatuksen ratkaisemattomista ongelmista.

Kuvaus

Tietoräjähdyksen aikakaudella personoidut suositusmenetelmät, kuten yhteistyösuodatus, ovat erittäin hyödyllisiä, koska jopa yhdessä kategoriassa (kuten elokuvat, musiikki, kirjat, uutiset, verkkosivustot) esineiden määrä on kasvanut niin suureksi, että yksittäinen henkilö ei ole voi tarkastella niitä kaikkia valitakseen oikeat.

Yhteiskäyttöiset suodatusjärjestelmät käyttävät yleensä kaksivaiheista järjestelmää [1] :

  1. Etsi niitä, jotka jakavat "aktiivisen" (ennustetun) käyttäjän arvoarviot.
  2. Käytä ensimmäisessä vaiheessa löydettyjen samanhenkisten ihmisten pisteitä ennusteen laskemiseen.

Yllä kuvattu algoritmi on rakennettu suhteessa järjestelmän käyttäjiin.

On myös Amazonin [3] keksimä vaihtoehtoinen algoritmi, joka on rakennettu järjestelmän tuotteisiin (tuotteisiin). Tämä algoritmi sisältää seuraavat vaiheet:

  1. Rakennamme matriisin, joka määrittää objektiparien välisen suhteen samankaltaisten kohteiden löytämiseksi.
  2. Rakennetun matriisin ja käyttäjää koskevien tietojen avulla rakennamme ennusteita hänen arvioinneistaan.

Esimerkkinä voit nähdä Slope One -algoritmien perheen

On myös toinen yhteistyömuotoinen suodatus, joka perustuu käyttäjän normaalin käyttäytymisen implisiittiseen havainnointiin (toisin kuin eksplisiittinen havainnointi, joka kerää käyttäjien arvioita). Näissä järjestelmissä tarkkailet, mitä tietty käyttäjä teki ja mitä muut (mitä musiikkia he kuuntelivat, mitä videoita he katsoivat, mitä kappaleita he ostivat) ja käytät tietoja ennustaaksesi käyttäjän käyttäytymistä tulevaisuudessa tai mitä käyttäjä haluaa tehdä. Jos on tietty mahdollisuus. Nämä ennusteet on tehtävä bisneslogiikan mukaan, koska on turhaa esimerkiksi tarjota jollekin ostamaan musiikkitiedosto, joka hänellä jo on.

Yhteistyösuodatuksen tyypit

Suositusjärjestelmien luomisessa käytetään kahta päämenetelmää - yhteistyösuodatusta ja sisältöpohjaisia ​​suosituksia. Myös käytännössä käytetään hybridimenetelmää suositusten rakentamiseen, joka sisältää yhdistelmän yllä olevista menetelmistä. Yhteiskäyttöinen suodatus puolestaan ​​on jaettu kolmeen päälähestymistapaan (tyyppiin) [4] :

Naapuruuspohjainen

Tämä lähestymistapa on historiallisesti ensimmäinen yhteistyösuodatuksessa, ja sitä käytetään monissa suositusjärjestelmissä. Tässä lähestymistavassa aktiiviselle käyttäjälle valitaan hänen kaltaistensa käyttäjien alaryhmä. Painot ja alaryhmäpisteiden yhdistelmää käytetään ennustamaan aktiivisten käyttäjien pisteitä [5] . Tässä lähestymistavassa on seuraavat päävaiheet:

  1. Määritä jokaiselle käyttäjälle paino ottaen huomioon hänen arvioidensa ja aktiivisen käyttäjän samankaltaisuus.
  2. Valitse useita käyttäjiä, joilla on suurin paino, eli he ovat eniten samankaltaisia ​​kuin aktiivinen käyttäjä. Tätä käyttäjäryhmää kutsutaan naapuriksi [6] .
  3. Laske aktiivisten käyttäjien arvioiden ennuste kohteille, joita hän ei ole arvioinut, ottaen huomioon painot ja naapureiden arvosanat.

Mallipohjainen

Tämä lähestymistapa tarjoaa suosituksia mittaamalla tilastollisten mallien parametreja käyttäjäarvioille, jotka on rakennettu käyttämällä menetelmiä, kuten Bayesin verkkoja , klusterointia , piileviä semanttisia malleja , kuten singulaariarvojen hajottelu , todennäköisyyspohjainen piilevä semanttinen analyysi , piilevä Dirichlet-jakauma ja Markoviin perustuvat päätöksentekomallit . [5] Malleja kehitetään käyttämällä tiedon louhintaa, koneoppimisalgoritmeja, jotta voidaan löytää malleja koulutusdatan perusteella. Mallin parametrien määrää voidaan vähentää tyypistä riippuen pääkomponenttimenetelmällä .

Tämä lähestymistapa on monimutkaisempi ja tuottaa tarkempia ennusteita, koska se auttaa paljastamaan piileviä tekijöitä, jotka selittävät havaitut pisteet. [7]

Tällä lähestymistavalla on useita etuja. Se käsittelee harvat matriisit paremmin kuin viereisyyspohjainen lähestymistapa, mikä puolestaan ​​auttaa suurten tietojoukkojen skaalautuvuutta.

Tämän lähestymistavan haittoja ovat mallin "kallis" luominen [8] . Tarkkuuden ja mallin koon välillä on kompromissi, koska hyödyllistä tietoa voidaan menettää mallin pienentämisen vuoksi.

Hybridi

Tämä lähestymistapa yhdistää naapuruuspohjaisen ja mallipohjaisen lähestymistavan. Hybridilähestymistapa on yleisin kaupallisten kohteiden suositusjärjestelmien kehittämisessä, koska se auttaa voittamaan alkuperäisen (naapuruuspohjaisen) lähestymistavan rajoituksia ja parantamaan ennusteiden laatua. Tämä lähestymistapa ratkaisee myös tiedon niukkuuden ja tiedon menetyksen ongelman. Tämä lähestymistapa on kuitenkin monimutkainen ja kallis toteuttaa ja soveltaa. [9]

Ongelmia

Tietojen harvalukuisuus

Useimmat kaupalliset suositusjärjestelmät perustuvat yleensä suureen tietomäärään (tuotteisiin), kun taas useimmat käyttäjät eivät arvioi tuotteita. Tästä johtuen nimike-käyttäjämatriisi on erittäin suuri ja harva, mikä aiheuttaa ongelmia suositusten laskennassa. Tämä ongelma on erityisen akuutti uusissa, vasta syntymässä olevissa järjestelmissä. [4] Myös tietojen harvalukuisuus pahentaa kylmäkäynnistysongelmaa .

Skaalautuvuus

Järjestelmän käyttäjien määrän kasvaessa ilmenee skaalautuvuusongelma. Esimerkiksi 10 miljoonan asiakkaan ja miljoonan tuotteen kohdalla yhteistoiminnallinen suodatusalgoritmi, jonka monimutkaisuus on yhtä suuri, on jo liian monimutkainen laskettavaksi. Lisäksi monien järjestelmien on vastattava välittömästi kaikkien käyttäjien online-pyyntöihin heidän ostohistoriastaan ​​ja luokittelustaan ​​riippumatta, mikä edellyttää entistä suurempaa skaalautuvuutta.

Kylmäkäynnistysongelma

Uudet tuotteet tai käyttäjät ovat suuri ongelma suositusjärjestelmille. Sisältöpohjainen lähestymistapa auttaa osan ongelmasta, koska se luottaa ominaisuuksiin luokituksen sijaan uusien kohteiden sisällyttämiseksi suosituksiin käyttäjille. Uuden käyttäjän suosituksen antamista koskeva ongelma on kuitenkin vaikeampi ratkaista. [neljä]

Synonyymi

Synonyymi on taipumus, että samanlaisilla ja identtisillä esineillä on eri nimiä. Useimmat suositusjärjestelmät eivät pysty havaitsemaan näitä piilotettuja yhteyksiä ja siksi käsittelevät näitä kohteita erilaisina. Esimerkiksi "lasten elokuvat" ja "lastenelokuvat" kuuluvat samaan genreen, mutta järjestelmä näkee ne erilaisina. [5]

Petos

Suositusjärjestelmissä, joissa kuka tahansa voi arvioida, ihmiset voivat arvioida aiheensa positiivisesti ja kilpailijansa huonosti. Myös suositusjärjestelmistä on tullut suuri vaikutus myyntiin ja tulokseen, koska niitä on käytetty laajalti kaupallisissa kohteissa. Tämä johtaa siihen, että häikäilemättömät myyjät yrittävät vilpillisesti nostaa tuotteensa paremmuusjärjestykseen ja alentaa kilpailijoidensa luokitusta. [neljä]

Monimuotoisuus

Yhteiskäyttöinen suodatus oli alun perin suunniteltu lisäämään monimuotoisuutta, jotta käyttäjät voivat löytää uusia tuotteita äärettömästä määrästä. Jotkut algoritmit, erityisesti myyntiin ja luokitukseen perustuvat, luovat kuitenkin erittäin vaikeat olosuhteet uusien ja vähän tunnettujen tuotteiden edistämiselle, koska ne korvataan suosituilla tuotteilla, jotka ovat olleet markkinoilla pitkään. Tämä puolestaan ​​vain lisää "rikas rikastu" -vaikutusta ja vähentää vaihtelua. [kymmenen]

Valkoiset varikset

"Valkoiset variset" ovat käyttäjiä, joiden mielipiteet eivät aina ole yhtäpitäviä useimpien muiden kanssa. Ainutlaatuisen makunsa vuoksi heidän on mahdotonta suositella mitään. Tällaisilla ihmisillä on kuitenkin vaikeuksia saada suosituksia tosielämässä, joten ratkaisua tähän ongelmaan ei tällä hetkellä etsitä. [5]

Sovellus sosiaalisissa verkostoissa

Yhteistyösuodatusta käytetään laajalti kaupallisissa palveluissa ja sosiaalisissa verkostoissa. Ensimmäinen käyttötapaus on luoda suositus mielenkiintoiselle ja suositulle tiedolle yhteisön "äänien" perusteella. Palvelut, kuten Reddit ja Digg  , ovat tyypillisiä esimerkkejä yhteistoiminnallisia suodatusalgoritmeja käyttävistä järjestelmistä.

Toinen käyttöalue on luoda käyttäjälle henkilökohtaisia ​​suosituksia, jotka perustuvat hänen aikaisempaan toimintaansa ja muiden vastaavien käyttäjien mieltymyksiin. Tämä toteutus löytyy sivustoilta, kuten YouTube , Last.fm ja Amazon [3] , sekä geopaikannuspalveluista , kuten Gvidi ja Foursquare .

Katso myös

Muistiinpanot

  1. 1 2 3 Tutkimus yhteistyöstä suodatustekniikoista, 2009 , s. yksi.
  2. Integroitu lähestymistapa TV Geniusin TV-suosituksiin Arkistoitu 6. kesäkuuta 2012.
  3. 1 2 Amazon, 2003 , s. yksi.
  4. 1 2 3 4 Ongelmia suositusjärjestelmissä, 2010 , s. 7.
  5. 1 2 3 4 Tutkimus yhteistyöhön perustuvista suodatustekniikoista, 2009 , s. 3.
  6. K-lähimmän naapurin algoritmi
  7. Skaalautuva ja tarkka yhteistyösuodatus, 2009 .
  8. Tutkimus yhteistyöhön perustuvista suodatustekniikoista, 2009 , s. 3-4.
  9. Ongelmia suositusjärjestelmissä, 2010 , s. 6.
  10. Monimuotoisuuden ongelma, 2009 , s. 23.

Kirjallisuus