Ropogós

Nincsenek friss tartalmak.

» A teljes listához

Új hozzászólások

» 2017.02.16. 15:38:22, Noel @ Nem minden privacy tipp "tuti"

» 2016.11.13. 13:14:07, Illés bence jános @ Hogyan válasszunk erős jelszót?

» 2016.09.24. 07:22:07, Bola Online @ Alkalmazott kriptográfia – TrueCrypt

» 2015.12.25. 21:18:36, MobilKém @ Lehallgatható kikapcsolt állapotban a mobiltelefon?

» 2015.11.26. 21:38:36, [anonymous] @ Titokban összesúg a tévé és az okostelefon

Anonimizált(?) adathalmazok

| | 2011.06.01. 19:40:19  Boda Károly  

Vissza

Nemrégiben megjelent egy bejegyzés a Bits blogon, amely az online díjazott versenyek adatvédelmi kihívásait tárgyalja (az eredeti cikk angol nyelven itt olvasható). Bejegyzésem első fele ennek bemutatása, második felében pedig saját kutatásom során nyert tapasztalataimat osztom meg.

Legelőször, 2009-ben a Netflix nevű online filmkölcsönző szolgáltatás indított két új versenyt, 1 millió dolláros nyereménnyel. A versenyfeladat a filmajánló módszerek és algoritmusok fejlesztése volt, a nyertes pedig egy globális adatszakértő csapat lett, aki kiszorította a többi csapatot azzal, hogy a lehető legjobb fejlesztéssel állt elő. Hatalmas előrelépésként ünnepelték a versenyt, hiszen jelentős fejlődést értek el az adatelemzés technológiájában. Azonban 2010-ben adatvédelmi aggályok miatt törölniük kellett a tervezett második díjat. Két kutató kimutatta, hogy az állítólagosan névtelen adatok az első versenyből felhasználhatók az ügyfelek azonosítására, ennek következtében a Federal Trade Commission (Szövetségi Kereskedelmi Bizottság) vizsgálatot, majd pert indított.

Május elején az Overstock.com online kiskereskedő szintén 1 millió dolláros nyereményt tűzött ki hasonló feladatra, a cél online termékajánló módszerek fejlesztése. Néhány héttel korábban a Heritage Provider Network kaliforniai orvoscsoport megjelentette 3 millió dolláros versenyének részleteit és adatait. Az a csapat kapja ezt az összeget, amely technikája a lehető legjobban megbecsüli, hogy mely betegek kerülnek kórházba a következő évben.

Mindkét verseny a Netflixhez hasonlóan azt várja a versenyzőktől, hogy prediktív algoritmusokat dolgozzanak ki, anonimizált személyes adatok felhasználásával. A kérdés tehát, hogy hogyan lehet elkerülni a Netflixhez hasonló adatvédelmi katasztrófát?

A Rich Relevance az Overstockkal meghirdette az 1 millió dolláros RecLab díjat Darren Vengroff stratégiája alapján. A stratégia a következő: a verseny elején a résztvevők hipotetikus adathalmazt kapnak, majd a verseny elődöntőjén és döntőjén az algoritmusok valós ügyféladatokon fognak futni, név és egyéb azonosító adatok nélkül. Fontos viszont megemlíteni, hogy az ügyfelek adatai a Rich Relevance számítógépein fognak tartózkodni, egy speciális felhőalapú környezetben. Ez egy biztonságosabb megközelítés, mint a Netflix által használt modell, ami kibocsátotta az anonim adatokat a versenyzőknek.

A 3 millió dolláros Heritage Health Prize szervezői számítanak Arvind Narayananra, aki egyike volt a Netflix adatait deanonimizáló kutatóknak. Narayanan adott pár tanácsot vállalatok és intézmények számára, amik anonimizált személyes adatokat akarnak használni kutatási célokból; „Légy őszinte és kérj szépen”, mondta. Személyes adatok kezelése az interneten, még személyes azonosításra alkalmas adatok nélkül is – név, hitelkártya szám – egy kockázatkezelési játék. „Vannak adatvédelmi kockázatok, még akkor is, ha kicsik.”

Narayanan megemlíti, hogy a 23andMe (genetikai vizsgálatok szolgáltatója) által használt hozzájárulás-kérő „modell” kiváló ebből a szempontból.

A kutató szerint ilyen érzékeny adatok esetén, mint a személyes egészségügyi információk, talán könnyebb az adatok védelme, mint pl. a Netflix esetében volt. Minden anonimizált felhasználónak a Netflix adatbázisban átlagosan több mint 200 film értékelése vagy véleményezése van. „Ez nagyon sok viselkedési információ”, nyomokban gazdag az azonosításhoz, mondta Narayanan.

„Sok apró eltérés van a különböző fajta személyes információkban.” Ez az utolsó idézet pedig bejegyzésem kulcsmondata, hiszen kutatásom során ugyanerre a következtetésre jutottam.
Ezek az apró eltérések könnyen egyedivé tehetik az adatot, és ezáltal annak tulajdonosát is. Ez persze csak az egyik összetevő, a másik összetevő maga a kombináció, azaz, hogy több különböző fajta adatunk van, más-más tulajdonsággal. Egyszerű példaként gondoljunk a születésnapunk és teljes nevünk kombinációjára. Minden bizonnyal született még aznap jó néhány ember a Földön, de ezen a halmazon belül nevünk alapján már nagy valószínűséggel egyediek vagyunk. Ha megfigyeljük ezen adatok jellemzőit, könnyen előállíthatunk egy kombinációs sémát, amelynek segítségével rendkívül hatékony egyedi azonosítót hozhatunk létre.

A kutatást Gulyás Gábor kollégám segítségével végeztem, a PET Portál és Blog Ujjlenyomatprojektje által létrehozott adatbázison. Az adatbázis nem a tipikus személyes adatokból épül fel, hanem az internetes böngészőprogramok által elküldött információkból. Ezt nyugodtan tekinthetjük egy anonimizált adathalmaznak, hiszen nem tároltunk azonosításra alkalmas személyes információt, az IP-címet leszámítva, ami titkosított (hash-elt) formában került mentésre.

Az adatbázis analizálása során kiderült, hogy a betűtípuskészlet (telepített betűtípusok listája) az egyik legegyedibb azonosító, de az egyedi User Agent stringek száma is kimondottan magas. A legfőbb azonosító az általunk generált felhasználó azonosító lett, egy kombinációs azonosító, amibe a statikus, ritkán változó attribútumok kerültek bele. Az elemzés során anonimitási halmazokat kerestünk, és kimutattuk, hogy jelen pillanatban nagyon kicsi ezeknek a mérete. Szinte minden felhasználó egyedi, és visszatéréskor azonosítható. A követés is megoldható, hiszen nem könnyű olyan esetet előidézni, hogy minden egyes alkotóelem egyszerre megváltozik. Ezalatt azt kell érteni, hogy ha mondjuk a felhasználó frissíti a böngészőjét, akkor megváltozik a User Agent string, viszont az IP-cím és a betűtípuslista ettől függetlenül marad a régi, ezáltal meg tudjuk mondani, hogy ugyanarról a felhasználóról van szó, követni tudjuk a változásait. Ugyanez természetesen más kombinációkban is megtehető.

Jelenleg nagy árat kell fizetni a teljes anonimitásért. Ha JavaScript és cookie nélkül böngészünk, elveszik a látogatott oldal funkcionalitásának jelentős része, ha pedig IP-címünket is szeretnénk elfedni, mindenképp harmadik félen keresztül kell kapcsolódnunk, ami hatalmas biztonsági kockázat.

A megoldás a böngészőprogramokon keresztül elérhető adatok egységesítésében vagy véletlenszerűsítésében rejlik, hiszen ezáltal félrevezetjük a profilozó rendszert, és egyben hozzájutunk a látogatott oldal teljes funkcionalitásához. Meg kell jegyezni, hogy pusztán IP-cím alapján profilozni nem elég hatékony módszer, könnyen előfordulhat, hogy egy nagyobb területhez ugyanaz az egy profil tartozik – ez persze jelentősen függ a tartózkodási helyünkön kiépített hálózati struktúrától.

A kutatás részletes konkrét eredményeinek publikálása folyamatban van.

Címkék: anonimitás, adatbiztonság, adatvédelem, de-anonimizálás, adatbányászat

Permalink: https://pet-portal.eu/blog/read/384/2011-06-01-Anonimizalt-adathalmazok.php

Forrás: The Privacy Challenge in Online Prize Contests

Vissza


Hozzászólások

Összesen 0 hozzászólás látható.

Nincsenek hozzászólások.


Új hozzászólás beküldése

Bárki hozzászólhat, nem regisztrált beküldő esetén egyik adat megadása sem kötelező - a hozzászólás akár névtelen is lehet.

Név:
E-mail:
Blog:
Megerősítési kód (Új kép generálása a megerősítési kódról)

A BBCode egy egyszerű jelölő nyelv, amellyel a hozzászólásokat lehet formázni. Érvényes parancsok:

bold: [b]Maecenas at nisl.[/b]
italics: [i]Maecenas at nisl.[/i]
underline: [u]Maecenas at nisl.[/u]
url: [url]http://www.mysite.com[/url], [url=http://www.mysite.com]Maecenas at nisl.[/url]
image: [img]http://www.mysite.com/mypic.png[/img]
quote: [quote]Maecenas at nisl.[/quote]
code: [code]Maecenas at nisl.[/code]
size: [size=12]Maecenas at nisl.[/size]
color: [color=#FF0000]Maecenas at nisl.[/color]

Hozzászólok!





© International PET Portal, 2010 | Impresszum | Felhasználási feltételek | Adatvédelmi Nyilatkozat