Ropogós

Nincsenek friss tartalmak.

» A teljes listához

Új hozzászólások

» 2017.02.16. 15:38:22, Noel @ Nem minden privacy tipp "tuti"

» 2016.11.13. 13:14:07, Illés bence jános @ Hogyan válasszunk erős jelszót?

» 2016.09.24. 07:22:07, Bola Online @ Alkalmazott kriptográfia – TrueCrypt

» 2015.12.25. 21:18:36, MobilKém @ Lehallgatható kikapcsolt állapotban a mobiltelefon?

» 2015.11.26. 21:38:36, [anonymous] @ Titokban összesúg a tévé és az okostelefon

Kiút az adatvédelmi káoszból: kétlépcsős anonimizálási folyamat és differenciális adatvédelem

| | 2011.07.27. 05:51:00  Boda Károly  

Vissza

Arvind Narayanan újabb bejegyzéséből megismerhetünk egy kétlépcsős adatvédelmi struktúrát és annak előnyeit, valamint ennek kapcsán Eleanor Rieffel matematikus magyarázata alapján ismertetem a differenciális adatvédelem lényegét.

Az adatvédelem csodaszerének tartott „anonimizálás” a fogyasztói adatbázisokban alapvetően alkalmatlannak bizonyult több kutatás alapján. Az online adatbányászati versenyek problémájáról bővebben az Anonimizált(?) adathalmazok című bejegyzésben lehet olvasni. Az egyik legjobb védekezés az adatkibocsátás vezérlése: erős felhasználási megállapodások, beleértve a deanonimizálás tilalmát és az adatmegőrzési limitet. Ezek az intézkedések jól működnek, hogyha egy másik társaságnak vagy kisebb szervezeteknek adjuk át adatainkat. De mi a helyzet a tudományos kutatással és az adatbányászati versenyek személyes adataival? A jogi megkötések értelmesek és végrehajthatók ebben a kontextusban?

Arvind szerint, ha a résztvevők aláírnak és elfaxolnak egy adatkezelői megállapodást, az sokkal jobb adatvédelmi szempontból, mintha szabadon letölthetik az adatokat pár kattintással. A versenyek szervezői azt állítják, hogy minden további lépés eredménye egy újabb visszaesést jelent a részvételi arányban, ami pozitív hatással lehet a versenyre.

Arvind egy két lépésből álló folyamatot javasol a probléma megoldására, ami a következőképp fog működni.

Az első szakaszban a versenyzők nem töltik le a teljes adatbázist, helyette két lehetőség van:

  1. Csak a felhasználók egy részhalmazának adatait bocsátjuk ki, minimalizálva a mennyiségi kockázatot.
  2. Mesterségesen létrehozott adathalmazt bocsátunk ki, ami a valós adatok jellemzőit utánozza.

A második szakaszban több lehetőségünk van, amelyek nem zárják ki egymást:

  1. Megköveteljük a versenyzőktől, hogy írjanak alá egy adatfelhasználói szerződést.
  2. Korlátozzuk a versenyt azon versenyzőkre, akik a legjobban teljesítettek az első szakaszban.
  3. Átváltunk egy „online számítási modellre”, ahol a résztvevők feltöltik kódjukat a szerverre (vagy adatbázis lekérdezéseket intéznek hálózaton keresztül) és megkapják az eredményeket, ahelyett, hogy letöltenék az adatokat.

Az Overstock.com nemrég bejelentett egy versenyt, amely megfelelt ennek a struktúrának – mesterséges adatok kibocsátása, amit egy elődöntő majd egy döntő követ, amelyben a kiválasztott versenyzők feltöltik kódjukat a valós adatokon való futtatásra. Ennek a struktúrának az oka részben az adatvédelem, részben pedig az a tény, hogy próbálják javítani az „éles” rendszerük teljesítményét, és a teljesítmény megítélésének valós felhasználókon alkalmazott műveletek tekintetében kell történnie.

Az adatvédelmi előnyök jelentősek: a technikai megoldások, mint a differential privacy (differenciális adatvédelem), jobban működnek ebben a felállásban. De még ha nem is alkalmazunk ilyen technikákat (habár az elméleti lehetősége fennáll, hogy a versenyzők megszerzik az összes adatot rosszindulatú lekérdezések által), az a tény, hogy a lekérdezéseket naplózzák és ellenőrizhetők, erős elrettentésként szolgálhat az efféle csalások ellen.

Az „online” előnyök túlmutatnak az adatvédelmen. Arvind a Heritage Health Prize kuratóriumán javaslatot tett a versenyzőknek megengedett számítási mennyiséget korlátozó határ megszabására. A motiváció az volt, hogy kizárják azokat az algoritmusokat, amiknek annyi hardver erőforrásra van szükségük, hogy nem lehetne alkalmazni a gyakorlatban, de a kikötést vissza kellett utasítani, mert nem érvényesíthető. Egy online modellben ennek érvényesítése nem lenne probléma. Egy másik potenciális előny annak lehetősége, hogy a versenyzők együtt tudnak működni kód szinten, majdnem úgy, mint egy nyílt forráskódú projektben.

Differenciális adatvédelem

Biztosítja, hogy az adataink hozzáadása egy adatbázishoz csak elhanyagolható mértékben befolyásolja a privátszféránkat, azaz csak kis valószínűséggel lesz képes egy támadó – különféle furfangos lekérdezések futtatásával – kikövetkeztetni a mi adatunkat. A differenciális adatvédelem fogalmának megalkotása Cynthia Dwork nevéhez fűződik, aki a Microsoft Research munkatársa.

Tudományosabb megközelítésben, formálisabban:

Tegyük fel, hogy K egy randomizált algoritmus, amit információk megjelenítésére használunk. Más szóval, K egy randomizált funkció, ami egy D adatbázisból kiválasztott részhalmazok egy csoportjához az információk megjelenítésének S halmazát rendeli. Például D olyan adatbázis, ami az emberek súly információját tartalmazza, és K pedig meghatározza az átlagát a D adatbázis összes d adathalmazában lévő súlynak, zajt ad hozzá, majd megjeleníti a zajos átlagot.

K mechanizmus „differenciálisan privát”, hogyha S minden s részhalmazára annak a valószínűsége, hogy K funkció d adathalmaz bemenettel s egy elemét adja vissza, közel áll annak a valószínűségéhez, hogy K funkció bármilyen d' adathalmaz bemenettel s egy elemét adja vissza, ahol d’ a d-től egyetlen sorban (bejegyzésben) tér el. Konkrétan S minden s részhalmazára és minden d és d' adathalmazra, amik egy sorban térnek el, P(K(d) ∈ s) és P(K(d') ∈ s) valószínűségek aránya e^ε által határolt, ahol ε egy adatvédelmi paraméter. A kisebb ε (azaz kisebb eltérés) nagyobb differenciális adatvédelmet biztosít.

Tehát a differenciális adatvédelem definíciója szerint, hogy ha a kiinduló adatbázison (amiben saját adataink még nincsenek benne) futtatjuk a K mechanizmust, megközelítőleg ugyanazt az eredményt kapjuk, mint amikor (saját adataink beszúrása után, ami egy új sort jelent) a módosított adatbázison futtatjuk.

Ennek a definíciónak fontos szempontja, hogy egyszerűen az adatvédelem fogalmát határozza meg, és nem pedig a módszereket annak elérésére. Már ismertek különböző mechanizmusok a differenciális adatvédelem elérésére, és további módszerek fejlesztése jelenleg aktív kutatási terület. Másik jelentős tulajdonsága ennek a meghatározásnak, hogy egyáltalán nem mondja ki, hogy a személyiségi jog vajon megsérül-e a megjelenítés által. Csak azt garantálja, hogy a személyiségi jog nem sérül meg sokkal jobban a részvétel által, mint az adatkezeléshez való hozzájárulás megtagadása által.

Címkék: webes megfigyelés, adatbiztonság, de-anonimizálás, adatgyűjtés, anonimizálás

Permalink: https://pet-portal.eu/blog/read/395/2011-07-27-Kiut-az-adatvedelmi-kaoszbol-ketlepcsos-anonimizalasi...

Forrás: Data-mining Contests and the Deanonymization Dilemma: a Two-stage Process Could Be the Way Out

Vissza


Hozzászólások

Összesen 0 hozzászólás látható.

Nincsenek hozzászólások.


Új hozzászólás beküldése

Bárki hozzászólhat, nem regisztrált beküldő esetén egyik adat megadása sem kötelező - a hozzászólás akár névtelen is lehet.

Név:
E-mail:
Blog:
Megerősítési kód (Új kép generálása a megerősítési kódról)

A BBCode egy egyszerű jelölő nyelv, amellyel a hozzászólásokat lehet formázni. Érvényes parancsok:

bold: [b]Maecenas at nisl.[/b]
italics: [i]Maecenas at nisl.[/i]
underline: [u]Maecenas at nisl.[/u]
url: [url]http://www.mysite.com[/url], [url=http://www.mysite.com]Maecenas at nisl.[/url]
image: [img]http://www.mysite.com/mypic.png[/img]
quote: [quote]Maecenas at nisl.[/quote]
code: [code]Maecenas at nisl.[/code]
size: [size=12]Maecenas at nisl.[/size]
color: [color=#FF0000]Maecenas at nisl.[/color]

Hozzászólok!





© International PET Portal, 2010 | Impresszum | Felhasználási feltételek | Adatvédelmi Nyilatkozat