Sosiaalinen graafi on graafi , jonka solmuja edustavat sosiaaliset kohteet, kuten käyttäjäprofiilit , joilla on erilaisia määritteitä (esimerkiksi: nimi, syntymäpäivä, kotikaupunki), yhteisöt , mediasisältö ja niin edelleen, ja reunat ovat sosiaalisia linkkejä niiden välillä [ 1] [2] .
Implisiittinen sosiaalinen kaavio on kaavio, joka voidaan luoda (johtaa, laskea) perustuen käyttäjien vuorovaikutukseen heidän "ystäviensä" ja "ystäväryhmiensä" kanssa sosiaalisessa verkostossa. Tässä kaaviossa, toisin kuin tavallisessa sosiaalisessa kaaviossa, ei ole nimenomaista merkintää "ystävistä", eli siinä ei ole ilmeisiä sosiaalisia yhteyksiä [3] .
Sosiaalisen graafin ominaisuuksia luonnehtivat sellaiset mittarit kuin: suhdemetriikka , yhteysmetriikka ja segmentointimetriikka . Sosiaalisen graafin ongelmien ratkaisemiseen käytetään erikoismalleja, joilla voidaan korvata "oikeita" kaavioita . Sosiaalisten graafien avulla ne ratkaisevat sellaisia ongelmia kuin: käyttäjän tunnistaminen ; sosiaalinen haku ; suositusten luominen "ystävien", mediasisällön, uutisten ja vastaavien valinnasta ; "oikeiden" yhteyksien paljastaminen tai avoimen tiedon kerääminen graafimallinnusta varten. Sosiaalisen graafin datan käsittelyyn liittyy useita ongelmia , kuten erot sosiaalisissa verkostoissa , sosiaalisen datan läheisyys .
Sosiaalisen graafin tehtävissä käytetään metriikan käsitettä - indikaattoreita, jotka näyttävät numeerisesti sosiaalisten objektien, segmenttien, objektiryhmien ja niiden suhteiden ominaisuudet. Näitä mittareita käytetään sosiaalisen verkoston analysoinnissa .
Suhdemittarit heijastavat yhden sosiaalisen objektin ja muiden sosiaalisten objektien suhteen luonnetta.
Homofilia [4] tarkoittaa sitä, missä määrin käyttäjä muodostaa linkkejä samankaltaisiin ihmisiin. Samankaltaisuus voidaan määrittää sukupuolen, iän, sosiaalisen aseman, koulutustason ja niin edelleen [5] .
Multiplicity - "useiden" suhteiden määrä, joissa käyttäjät ovat [6] . Esimerkiksi kahdella käyttäjällä, jotka ovat ystäviä ja työskentelevät yhdessä, on "kerroin" 2 [7] . "Useita" liittyy "yhteyden vahvuuteen".
Vastavuoroisuus - aste, jossa käyttäjät ovat vuorovaikutuksessa toistensa kanssa, vastaavat toistensa toimista [8] . Verkon yksityisyys tarkoittaa sitä, missä määrin käyttäjän ystävät ovat ystäviä keskenään. Sitä kutsutaan myös " relaatiokolmioiden täydellisyyden mittaksi ". Oletusta, että käyttäjä on verkon sulkeutuessa, kutsutaan transitiivisuudeksi . [9] . Naapuruus - käyttäjien taipumus muodostaa suuri määrä yhteyksiä maantieteellisesti lähellä olevien käyttäjien kanssa [8] .
Linkkimittarit heijastavat linkkien ominaisuuksia sekä yksittäisten sosiaalisten objektien että koko kaavion osalta.
Silta on käyttäjä, jonka heikot linkit täyttävät "rakenteellisia aukkoja" tarjoten yhden yhteyden muiden käyttäjien tai klustereiden (käyttäjäryhmien) välille. Myös lyhin reitti kulkee sen läpi [10] .
Keskitettävyys - aste, joka osoittaa tietyn käyttäjän (käyttäjäryhmän) "tärkeyden" tai "vaikutuksen" kaaviossa [11] [12] . Vakiomenetelmät keskeisyyden mittaamiseen ovat mediaatiokeskeisyys , läheisyyskeskeisyys , ominaisvektorikeskeisyys , alfakeskeisyys ja astekeskeisyys [13] .
Tiheys on verkon suorien yhteyksien suhde mahdollisten kokonaismäärään [14] [15] . Etäisyys on linkkien vähimmäismäärä, joka tarvitaan kahden erillisen käyttäjän välisen suhteen luomiseen. Rakenteelliset reiät ovat yhteyksien puutetta verkon kahden osan välillä.
Yhteyden vahvuus määräytyy ajan, läheisyyden ja vastavuoroisuuden lineaarisella yhdistelmällä [10] , mitä suurempi yhteyden vahvuuden arvo on, sitä vahvempi se on. Vahvat siteet määritellään "homofiilialla", "viereisyydellä" tai "transitiivisuudella", kun taas heikot siteet määritellään "silloilla".
Segmentointimittarit heijastavat sosiaalisen kaavion ominaisuuksia, jotka on jaettu segmentteihin, joilla on erityispiirteitä.
Klikki on ryhmä, jossa kaikilla käyttäjillä on "suorat" yhteydet (pisteet on yhdistetty (yhdistetty) reunalla) toisiinsa [16] . Sosiaalinen piiri on ryhmä, jossa ei vaadita "suoria" yhteyksiä käyttäjien välillä [17] .
Klusterointikerroin on todennäköisyysaste, että kaksi eri käyttäjää, jotka liittyvät tiettyyn yksilöön, on myös yhdistetty. Korkea klusterointikerroin osoittaa suurta ryhmän sulkeutumista, toisin sanoen ryhmä voi olla "klikki".
Koheesiolla tarkoitetaan sitä, missä määrin käyttäjiä yhdistää yhteinen side, joka muodostaa sosiaalisen yhteenkuuluvuuden . Rakenteellinen koheesio - ilmaisee ryhmän sellaisen yksittäisen rakenteen, että pienen käyttäjien määrän poistaminen johtaa ryhmän katkaisuun [16] .
Jotkut tunnetut graafimallit voivat korvata "todelliset" sosiaaliset graafit [18] .
Funktionaalisesti ohjattujen mallien tavoitteena on toistaa graafin tilastolliset ominaisuudet, kuten potenssilain jakauma ja graafisen tiheyden dynaamiset muutokset, kuten Barabasi-Albert- malli ja palavan metsän malli .
Tarkoituksenmukaisesti ohjatut mallit keskittyvät jäljittelemään alkuperäisen kaavion luomisprosessia, tähän malliluokkaan kuuluu satunnainen läpikulku ja satunnaiset kävelyt, lähimmän naapurin malli.
Rakenteeseen perustuvat mallit keräävät tilastotietoja graafin rakenteesta, jolloin vastaava generaattori voi toistaa satunnaisia kaavioita samoilla rakenteellisilla rajoituksilla. Tällaisia malleja ovat Kronecker-kaaviot , dK-kaaviot .
Käyttäjän tunnistaminen - yhdelle henkilölle kuuluvien profiilien havaitseminen useissa sosiaalisissa verkostoissa [19] . Tämän ongelman ratkaiseminen mahdollistaa täydellisemmän sosiaalisen graafin saamisen, joka voi olla hyödyllinen monissa tehtävissä, kuten sosiaalisissa hauissa ja suositusten luomisessa .
Etsi sosiaalisia objekteja (käyttäjät, heidän tiedot, heidän tietueensa ja niin edelleen) halutut objektit sisältävän linkkijoukon analyysin perusteella [20] .
Tärkeä tehtävä on löytää tarkat algoritmit suositusten ja tarjousten luomiseen käyttäjille, joita käytetään myös sosiaaliseen graafiin perustuvan kiinnostuksen kohteiden graafin luomiseen. Nämä voivat olla ystävien suosituksia (käyttäjät jakavat kontaktejaan harvoin sosiaalisiin ryhmiin, mutta silti he jakavat nämä kontaktit klustereihin sosiaalisen verkoston sisällä [21] ), sisältösuosituksia (suosituksia mediasisällöstä, yhteisöistä, uutisista jne. .). edelleen [22] [ määritä linkki ] ). Suositusjärjestelmissä on perinteisiä lähestymistapoja [23] [ määritä linkki ] :
Erillinen haaste on soveltaa " avoimen lähdekoodin älykkyyttä " todellisten yhteyksien tunnistamiseen käyttäjien välillä, eli todellisten ystävien, sukulaisten ja niin edelleen [25] .
Sosiaalisen graafin rakentaminen sosiaalisten verkostojen tarjoajien verkkopalveluiden jäsennystuloksesta saatujen tietojen perusteella .
Tehtävän arvioimiseksi asetetaan seuraavat kriteerit [26] :
Solmujen valinnalla on tärkeä rooli läpikäymisessä: solmut ovat läpikäynnin lähtökohta, on tärkeää valita oikeat solmut ja läpikulkujonojärjestys sivun huonon laadun välttämiseksi. Solmun valintaalgoritmit päättävät, mikä solmu valitaan seuraavaksi. Käytettyjen algoritmien joukossa on leveyshaku , joukko ahneita algoritmeja .
Sosiaalisen datan läheisyyden vuoksi voit ohittaa suurimman osan sosiaalisesta kaaviosta, eri ohitusalgoritmit vaikuttavat tällaisiin käyttäjiin eri tavoin. Lisäksi eri sosiaalisilla verkostoilla on erilaisia ainutlaatuisia ominaisuuksia, vaikka ne tarjoaisivat samanlaisia palveluita, mikä myös vaikeuttaa tiedonkeruuta.
Käyttäjän tunnistamisen ongelmana suurin ongelma ovat erot sosiaalisissa verkostoissa. Sosiaalisten objektien ja eri topologioiden sosiaalisten graafien välisten suhteiden semantiikalla [27] [ määritä linkki ] on pääosin rooli .
Suurin ongelma suositusten luomisessa on kylmäkäynnistyksen ongelma - suositusten laskeminen uusille sosiaalisille objekteille (käyttäjät, viestit, mediasisältö ja niin edelleen) [28] [ määritä linkki ] .
Suurin ongelma sosiaalisen graafin tietojen keräämisessä on sosiaalisten verkostojen läheisyys [29] . Ensinnäkin on vaikeaa saada sosiaalista kuvaajaa "toimittajilta" [30] sosiaalisten tietojen arvon ja oikeudellisen suojan vuoksi . Toiseksi suurin vaikeus on miljoonien yhteystietoluetteloiden, profiilien, valokuvien, videoiden ja vastaavan sisällön kerääminen kaapimilla . Monet sosiaalisen median "palveluntarjoajat" käyttävät yhtä sivumallia tai monia dynaamisia sivuja , jotka sisältävät Ajaxia ja DHTML :ää , mikä myös aiheuttaa paljon ongelmia joustavan jäsentimen luomisessa.