Linkkianalyysi tai linkkianalyysi (englannin sanasta "link analysis") on data-analyysimenetelmä, jota käytetään verkkoanalyysin puitteissa solmujen (objektien/toimijoiden) välisten suhteiden (linkkien) arvioimiseen. . Suhteet voidaan määritellä erityyppisille solmuille: ihmisille, organisaatioille, toiminnoille jne. Termi "linkkianalyysi" (yksi käännösvaihtoehdoista: "suhdeanalyysi") viittaa prosessiin, jossa analysoidaan eri verkkoobjektien välisten suhteiden kokonaisuutta. tunnistaakseen sen ominaisuudet .
Aluksi tätä menetelmää käytettiin rikollisuuden, ensisijaisesti petosten ja terrorismin torjuntaan vastatiedustelutarkoituksiin ja tietoturvatyökalujen optimointiin . Myöhemmin tätä menetelmää sovellettiin markkinoinnissa ja lääketieteellisessä tutkimuksessa sekä hakukonealgoritmien optimoinnissa .
Tämä menetelmä kuuluu tiedonlouhintamenetelmien ryhmään . Tämä on ryhmä iteratiivisia ja interaktiivisia algoritmeja datan erilaisten kuvioiden havaitsemiseen, analysoimiseen ja visualisoimiseen. Linkkianalyysi kuuluu tähän algoritmiryhmään, ja, kuten useimmat tämän ryhmän menetelmät, se toteutetaan seuraavissa vaiheissa[ style ] [1] : Tiedonkeruu, Tiedonkäsittely , Tietojen analysointi ja Tietojen visualisointi .
Klerks erotti linkkianalyysin toteuttamiseen tarvittavien työkalujen kehittämisessä kolme [2] ajanjaksoa. Harper ja Harris esittelivät ensimmäisen sukupolven vuonna 1975 Anacpapa-kaaviona [3] . Menetelmä toteutetaan seuraavasti: Tutkija käsittelee saatavilla olevaa dataa ja kuvaa toimijoiden välisiä suhteita vuorovaikutusmatriisin muodossa. Sitten tutkija rakentaa sopivan kaavion datan visualisoimiseksi ja lopulta analysoi tuloksena olevan verkoston määrittäen keskeisyyden indikaattorit (Patterns of interest). Tämä menetelmä on erittäin aikaa vievä, kun otetaan huomioon suuria tietomääriä.
Toisen sukupolven työkalut tarjosivat mahdollisuuden automatisoida graafien rakentaminen vastaaville vuorovaikutusmatriiseille, mutta tietojen syöttäminen piti silti tehdä manuaalisesti. Tietojen analysointimenettelyt vaativat myös tutkijan aktiivista osallistumista, jolla on tarvittava tietopohja.
Kolmannen sukupolven työkalut tarjoavat myös mahdollisuuden automaattisesti visualisoida toimijoiden välisiä suhteita. Lisäksi on tulossa työkaluja , jotka mahdollistavat suurten tietomäärien visuaalisen pakkaamisen kompakteiksi nipuiksi, mikä yksinkertaistaa monimutkaisten mallien visuaalista data-analyysiä. Myös keskeisyyden pääindikaattoreiden laskenta tehtiin automaattisesti.
Verkkotietojen keräämisessä eli sosiaalisten siteiden olemassaoloa tai puuttumista korjattaessa käytetään useimmiten vastaajien raportteja. Yleensä tällaiset tiedot saadaan pyytämällä vastaajaa listaamaan ne edustajat, joihin hänellä tai organisaatiolla, johon hän kuuluu, on suoria yhteyksiä. Näiden yhteyksien tyyppi (tai tyyppi) määritellään etukäteen ja riippuu tutkimuksen tavoitteista. Kun väestö on rajallinen (toimijoiden määrä - tulevan verkoston elementtejä on pieni), vastaajia voidaan pyytää vain listaamaan yhteystietonsa, mutta muita menetelmiä käytetään useammin. Holland ja Lenhardt [4] käyttivät:
Systemaattisemmin verkkotietojen keruutekniikka on esitetty Burtin menettelyssä [5] , jossa ensin tunnistettiin vastaajaverkoston jäsenyys yhdellä tai useammalla parametrilla ja sitten datasta riippuen saatiin lisätuloksia, jotka selittivät järjestely. Seuraavia verkkojen ominaisuuksia tutkittiin:
Organisaatioiden välistä vuorovaikutusta tutkittaessa ei suositella rajoittumaan vain yhden informantin lausuntoihin, vaan vastaajien valintaongelma kasvaa suoraan suhteessa organisaation erikoistumisen laajuuteen. Pienelle tutkimukselle riittää laadukas verkkoraportti yhdeltä organisaation agentilta, mutta tällaisia raportteja tulisi käyttää sellaisten vuorovaikutusten tutkimiseen, jotka heijastavat vain yhtä puolta informantin toiminnasta. Mutta organisaatioita analysoitaessa on parempi analysoida tietoja, jotka on saatu useiden agenttien raporteista sekä organisaation asiakirjoista (kirjeet, muistiot, raportit, kokouspöytäkirjat).
Laadukkaan verkkodatan keräämiseen tarvitaan huomattavia resursseja. Arkistolähteet ovat paljon halvempia, ja yksi niiden eduista on se, että ne mahdollistavat retrospektiivisen tutkimuksen ja seuraavat tutkittujen verkostojen kehitystä. Tässä linkkianalyysi tiedonlouhintatyökaluna liittyy läheisesti toiseen tietoanalyysin osa-alueeseen Tekstinlouhinta .
Empiirisen tiedon keruun ja käsittelyn tulos on formalisoituja vuorovaikutusmatriiseja tutkittavan verkoston toimijoiden välillä.
Vuorovaikutusmatriisin muodossa vastaanotetun tiedon perusteella muodostetaan vastaava graafi, joka havainnollistaa verkon toimijoiden suhteita.
Jotkut tutkijat [6] huomauttavat, että sen lisäksi, että on suuri riski saada informanttien subjektiivisia arvioita verkostosta, on olemassa riski, että tutkijan vastaanottama data kokee subjektiivisesti, ja näin ollen jopa saman tiedon analysointi voi johtaa erilaisia johtopäätöksiä.
Verkon ominaisuuksien ja sen toimijoiden välisten yhteyksien arvioimiseksi on kuitenkin olemassa useita yleisesti hyväksyttyjä tekniikoita.
Verkon kokoVerkon kokoa kuvaava pääindikaattori on yksittäisiin liitoksiin sisältyvien suorien linkkien määrä. Verkon koko voi vaihdella minimiarvosta 1 (2 pistettä kaaviossa) suurimpaan mahdolliseen arvoon (g-1) , jossa g on graafin kärkien lukumäärä.
Verkon tiheysYleensä se ymmärretään merkittäväksi vahvuudeksi verkon assosiaatioiden välillä tai (dikotomisissa mittauksissa) olemassa olevien ja mahdollisten yhteyksien suhdetta.
Suuntaamattoman graafin yhteystiheys voidaan laskea kaavalla:
, jossa L on havaittujen linkkien määrä tietyssä kaaviossa tai alikaaviossa.
Suunnatun graafin yhteyksien tiheys lasketaan kaavalla:
.
Tiheyden avulla on kuitenkin melko ongelmallista paljastaa rakenteellisia linkkejä, jos verkossa on alaryhmiä, ja tiheysmuunnos voi tapahtua verkon koon muuttuessa.
Keskittäminen ja keskittäminen [7] Keskeisyysasteen mittaaminenTässä lähestymistavassa on tärkeää, kuinka monta toimijaa tämä toimija liittyy. Yksinkertaisimmassa tapauksessa tämä on yksinkertaisesti toimijayhteyksien lukumäärän laskeminen seuraavan kaavan avulla:
.
Jotta toimijan keskeisyysastetta voidaan verrata ei vain saman verkon sisällä, vaan myös eri rakenteiden verkostojen välillä, on tarpeen laskea standardoitu estimaatti keskeisyydestä seuraavalla kaavalla:
.
Voit myös laskea keskitetysti koko verkon:
.
Usein on tarpeen vertailla eri rakenteita ja selvittää, mikä tarjoaa parhaan toimijoiden keskittämisen. Tätä varten on kaava koko verkon normalisoidun keskitetystiasteen laskemiseksi:
.
Keskeisyyden tiheysTämä lähestymistapa mittaa keskitetystiheyttä – kuinka lähellä toimija on muita toimijoita. Toisin sanoen tällä lähestymistavalla keskeinen on asema, josta on tarpeen ottaa vähimmäismäärä askeleita kaikkiin muihin ryhmän paikkoihin.
Toimijoiden keskimääräinen tiheys mitataan seuraavasti:
.
Tässä on yhteyksien lukumäärä näyttelijöiden ja . Indeksin enimmäisarvo on . Näin ollen normalisoitu toimijan keskeisyyskerroin lasketaan seuraavalla kaavalla:
Normalisoitu verkon keskitetystiheys lasketaan kaavalla:
Keskeisyys sovitteluna
Tämän lähestymistavan puitteissa keskeisyys nähdään tiettyjen asemien välisten suhteiden hallinnana. Näin ollen, jos lyhin etäisyys näyttelijöiden n2 ja n3 välillä on n2 , n1 , n4 ja n3 , niin paikat n1 ja n4 ovat ohjaavia näyttelijäparin n2 ja n3 suhteen .
Toimijan välityskeskeisyys voidaan laskea kaavalla:
Tässä on näyttelijän läpi kulkevien lyhimpien polkujen määrä . Koska linkkien maksimimäärä graafin kaikkien kärkien välillä on yhtä suuri kuin
.
Standardoitu verkon keskeisyyspisteet voidaan laskea seuraavalla kaavalla:
.
EkvivalenssiUsein verkoston rakenteellisia ominaisuuksia kuvattaessa turvaudutaan yksittäisten toimijoiden rakenteellisen samankaltaisuuden käsitteisiin. Rakenteellisesti samankaltaisten asemien tunnistaminen mahdollistaa graafin yksinkertaistamisen yhdistämällä rakenteellisilta ominaisuuksiltaan samankaltaisia toimijoita uusiksi yritystoimijoiksi. Vastaavasti kahden aseman välisen vastaavuuden tunnistamiseksi käytetään yleensä seuraavaa Burtin [8] ehdottamaa kaavaa :