Differentiaalinen yksityisyys on joukko menetelmiä, jotka tarjoavat tarkimmat kyselyt tilastotietokantaan minimoiden samalla mahdollisuuden tunnistaa yksittäisiä tietueita siinä.
Differentiaalinen yksityisyys on matemaattinen määritelmä yksilöiden arkaluonteisten tietojen menettämisestä, kun heidän henkilökohtaisia tietojaan käytetään tuotteen luomiseen. Termin loi Cynthia Dwork vuonna 2006 [1] , mutta sitä käytetään myös Dworkin, Frank McSherryn , Kobe Nissim ja Adam D. Smithin 2] aikaisemmassa julkaisussa . Työ perustuu erityisesti Nissim ja Irit Dinur [3] [4] tutkimukseen, joka osoitti, että yksityisestä staattisesta tietokannasta on mahdotonta julkaista tietoja paljastamatta joitakin yksityisiä tietoja ja että koko tietokanta voidaan paljastaa. julkaisemalla tulokset melko pienestä määrästä pyyntöjä [4] .
Selvityksen jälkeen kävi selväksi, että tilastotietokantojen luottamuksellisuuden varmistaminen olemassa olevilla menetelmillä oli mahdotonta, minkä seurauksena tarvitaan uusia, jotka rajoittaisivat tilastotietoihin sisältyvien yksityisten tietojen katoamiseen liittyviä riskejä. tietokanta. Tämän seurauksena on luotu uusia menetelmiä, joiden avulla voidaan useimmissa tapauksissa tuottaa tarkkoja tilastoja tietokannasta samalla kun ne tarjoavat korkean luottamuksellisuuden tason [5] [6] .
Differentiaalinen yksityisyys perustuu satunnaisuuden tuomiseen tietoihin.
Yksinkertainen yhteiskuntatieteissä kehitetty esimerkki [7] on pyytää henkilöä vastaamaan kysymykseen "Onko sinulla attribuutti A?" seuraavan menettelyn mukaisesti:
Luottamuksellisuus syntyy, koska vastauksesta on mahdotonta tietää varmasti, onko henkilöllä tietty ominaisuus. Nämä tiedot ovat kuitenkin merkittäviä, sillä myönteisiä vastauksia antaa neljäsosa ihmisistä, joilla ei ole tätä ominaisuutta, ja kolme neljäsosaa niistä, joilla se todella on. Jos p on A:n omaavien ihmisten todellinen osuus, odotamme saavamme (1/4) (1- p) + (3/4) p = (1/4) + p / 2 positiivista vastausta. Siksi voidaan arvioida R.
Olkoon ε positiivinen reaaliluku ja A todennäköisyyspohjainen algoritmi , joka ottaa syötteeksi joukon dataa (edustaa luotettavan osapuolen toimia, jolla on tiedot). Merkitse A:n kuvaa im A : lla . Algoritmi A on ε - differentiaalisesti yksityinen , jos kaikille tietojoukoille ja jotka eroavat yhdellä elementillä (eli yhden henkilön tiedoilla), samoin kuin kaikki joukon im A osajoukot S :
missä P on todennäköisyys.
Tämän määritelmän mukaan differentiaalinen yksityisyys on tiedon julkaisumekanismin ehto (eli sen määrittää tietojoukosta tietoa luovuttava luotettava osapuoli), ei itse tietojoukko. Intuitiivisesti tämä tarkoittaa, että kahdelle samanlaiselle tietojoukolle differentiaalinen yksityinen algoritmi käyttäytyy suunnilleen samalla tavalla molemmissa tietojoukoissa. Määritelmä antaa myös vahvan takuun siitä, että yksilön läsnäolo tai poissaolo ei vaikuta algoritmin lopulliseen tuottoon.
Oletetaan esimerkiksi, että meillä on potilastietojen tietokanta, jossa jokainen tietue on pari ( Nimi , X ), jossa on nolla tai yksi , joka ilmaisee, onko henkilöllä gastriitti vai ei:
Nimi | Gastriitti (X) |
---|---|
Ivan | yksi |
Peter | 0 |
Vasilisa | yksi |
Michael | yksi |
Maria | 0 |
Oletetaan nyt, että pahantahtoinen käyttäjä (jota kutsutaan usein hyökkääjäksi) haluaa selvittää, onko Mikhaililla gastriitti vai ei. Oletetaan myös, että hän tietää, millä rivillä on tietoa Mikhailista tietokannassa. Oletetaan nyt, että hyökkääjä saa käyttää vain tiettyä kyselymuotoa , joka palauttaa osittaisen summan tietokannan sarakkeen ensimmäisistä riveistä . Selvittääkseen, onko Mikhaililla gastriitti, hyökkääjä suorittaa kyselyt: ja ja laskee sitten niiden eron. Tässä esimerkissä , ja , joten niiden ero on . Tämä tarkoittaa, että "Gastriitin esiintyminen" -kentän Mihailin rivillä tulee olla yhtä suuri kuin . Tämä esimerkki osoittaa, kuinka yksittäisiä tietoja voidaan vaarantaa jopa ilman nimenomaista pyyntöä tietyn henkilön tiedoista.
Jatkamme tätä esimerkkiä, jos luomme tietojoukon korvaamalla (Mihail, 1) arvolla (Mihail, 0), hyökkääjä pystyy erottamaan tiedot laskemalla jokaiselle tietojoukolle. Jos hyökkääjä hankkisi arvoja ε-differentiaalisen yksityisen algoritmin avulla riittävän pienelle ε:lle, hän ei pystyisi erottamaan kahta tietojoukkoa.
Yllä kuvattu kolikon esimerkki on -differentiaalisesti yksityinen [8] .
Tapaus, jossa ε = 0 on ihanteellinen luottamuksellisuuden säilyttämiseen, koska tietokannassa olevien henkilöiden tietojen läsnäolo tai puuttuminen ei vaikuta algoritmin tulokseen, mutta tällainen algoritmi on hyödyllisen tiedon kannalta merkityksetön, koska jopa nollalla ihmismäärällä se antaa saman tai samanlaisen tuloksen.
Jos ε pyrkii äärettömyyteen, niin mikä tahansa todennäköisyysalgoritmi sopii määritelmään, koska epäyhtälö täyttyy aina.
Antaa olla positiivinen kokonaisluku, tietojoukko ja funktio. Funktion herkkyys [9] , jota merkitään , määritetään kaavalla
kaikissa tietojoukkopareissa ja in , jotka eroavat enintään yhdellä elementillä ja missä tarkoittaa normia .
Yllä olevassa esimerkissä lääketieteellisestä tietokannasta, jos otamme huomioon funktion herkkyyden , se on yhtä suuri kuin , koska minkä tahansa tietokannan tietueen muuttaminen johtaa johonkin, joka joko muuttuu tai ei muutu.
Koska differentiaalinen yksityisyys on todennäköisyyskäsite, kaikilla sen menetelmillä on välttämättä satunnainen komponentti. Jotkut niistä, kuten Laplacen menetelmä, käyttävät ohjatun kohinan lisäystä laskettavaan funktioon.
Laplace-menetelmä lisää Laplace-kohinaa eli Laplace-jakauman kohinan , joka voidaan ilmaista todennäköisyystiheysfunktiona ja jolla on nollakeskiarvo ja keskihajonta . Määritellään tulosfunktio reaaliarvoiseksi funktioksi muodossa , jossa , ja on kysely, jonka suunnittelimme suorittavamme tietokannassa. Siten sitä voidaan pitää jatkuvana satunnaismuuttujana , missä
joka on enintään (pdf - todennäköisyystiheysfunktio tai todennäköisyystiheysfunktio). Tässä tapauksessa voimme merkitä yksityisyystekijää ε. Siten määritelmän mukaan ε-differentiaalisesti yksityinen. Jos yritämme käyttää tätä käsitettä yllä olevassa esimerkissä gastriitin esiintymisestä, niin, jotta se olisi ε-differentiaalinen yksityinen funktio, sen on oltava , koska ).
Laplace-kohinan lisäksi voidaan käyttää myös muun tyyppistä melua (esim. Gaussia), mutta ne saattavat vaatia hieman lievennettyä differentiaalisen yksityisyyden määritelmää [10] .
Jos suoritamme kyselyn ε-differentiaalisesti suojattuja aikoja ja tuotettu satunnainen kohina on riippumaton jokaiselle kyselylle, niin kokonaistietosuoja on (εt)-differentiaali. Yleisemmin sanottuna, jos on olemassa itsenäisiä mekanismeja: , joiden yksityisyyden takuut ovat vastaavasti samat, mikä tahansa toiminto on -differentiaalisesti yksityinen [11] .
Lisäksi, jos kyselyt suoritetaan ei-päällekkäisille tietokannan osajoukoille, funktio olisi -differentiaalisesti yksityinen [11] .
Differentiaalinen yksityisyys yleensä on suunniteltu suojaamaan yksityisyyttä tietokantojen välillä, jotka eroavat vain yhdellä rivillä. Tämä tarkoittaa, että yksikään vastustaja, jolla on mielivaltaisia aputietoja, ei voi tietää, onko joku yksittäinen osallistuja antanut tietonsa. Tämä käsite voidaan kuitenkin laajentaa ryhmään, jos haluamme suojata riveittäin erilaisia tietokantoja siten, että mielivaltaisen tukitiedon omaava hyökkääjä ei voi tietää, ovatko yksittäiset jäsenet toimittaneet tietonsa. Tämä voidaan saavuttaa, jos määritelmän kaava korvataan [ 12] :lla , jolloin D 1 ja D 2 eroavat riveillä
Siten käyttämällä parametria (ε/c) ε:n sijasta voit saavuttaa halutun tuloksen ja suojata merkkijonoja. Toisin sanoen, sen sijaan, että jokainen elementti olisi ε-differentiaalisesti yksityinen, nyt jokainen elementtiryhmä on ε-differentiaalisesti yksityinen ja jokainen elementti on (ε/c)-differentiaalisesti yksityinen.
Toistaiseksi erilaiselle yksityisyydelle on useita käyttötapoja: