Arvind Narayanan újabb bejegyzéséből megismerhetünk egy kétlépcsős adatvédelmi struktúrát és annak előnyeit, valamint ennek kapcsán Eleanor Rieffel matematikus magyarázata alapján ismertetem a differenciális adatvédelem lényegét.
Az adatvédelem csodaszerének tartott „anonimizálás” a fogyasztói adatbázisokban alapvetően alkalmatlannak bizonyult több kutatás alapján. Az online adatbányászati versenyek problémájáról bővebben az Anonimizált(?) adathalmazok című bejegyzésben lehet olvasni. Az egyik legjobb védekezés az adatkibocsátás vezérlése: erős felhasználási megállapodások, beleértve a deanonimizálás tilalmát és az adatmegőrzési limitet. Ezek az intézkedések jól működnek, hogyha egy másik társaságnak vagy kisebb szervezeteknek adjuk át adatainkat. De mi a helyzet a tudományos kutatással és az adatbányászati versenyek személyes adataival? A jogi megkötések értelmesek és végrehajthatók ebben a kontextusban?
Arvind szerint, ha a résztvevők aláírnak és elfaxolnak egy adatkezelői megállapodást, az sokkal jobb adatvédelmi szempontból, mintha szabadon letölthetik az adatokat pár kattintással. A versenyek szervezői azt állítják, hogy minden további lépés eredménye egy újabb visszaesést jelent a részvételi arányban, ami pozitív hatással lehet a versenyre.
Arvind egy két lépésből álló folyamatot javasol a probléma megoldására, ami a következőképp fog működni.
Az első szakaszban a versenyzők nem töltik le a teljes adatbázist, helyette két lehetőség van:
A második szakaszban több lehetőségünk van, amelyek nem zárják ki egymást:
Az Overstock.com nemrég bejelentett egy versenyt, amely megfelelt ennek a struktúrának – mesterséges adatok kibocsátása, amit egy elődöntő majd egy döntő követ, amelyben a kiválasztott versenyzők feltöltik kódjukat a valós adatokon való futtatásra. Ennek a struktúrának az oka részben az adatvédelem, részben pedig az a tény, hogy próbálják javítani az „éles” rendszerük teljesítményét, és a teljesítmény megítélésének valós felhasználókon alkalmazott műveletek tekintetében kell történnie.
Az adatvédelmi előnyök jelentősek: a technikai megoldások, mint a differential privacy (differenciális adatvédelem), jobban működnek ebben a felállásban. De még ha nem is alkalmazunk ilyen technikákat (habár az elméleti lehetősége fennáll, hogy a versenyzők megszerzik az összes adatot rosszindulatú lekérdezések által), az a tény, hogy a lekérdezéseket naplózzák és ellenőrizhetők, erős elrettentésként szolgálhat az efféle csalások ellen.
Az „online” előnyök túlmutatnak az adatvédelmen. Arvind a Heritage Health Prize kuratóriumán javaslatot tett a versenyzőknek megengedett számítási mennyiséget korlátozó határ megszabására. A motiváció az volt, hogy kizárják azokat az algoritmusokat, amiknek annyi hardver erőforrásra van szükségük, hogy nem lehetne alkalmazni a gyakorlatban, de a kikötést vissza kellett utasítani, mert nem érvényesíthető. Egy online modellben ennek érvényesítése nem lenne probléma. Egy másik potenciális előny annak lehetősége, hogy a versenyzők együtt tudnak működni kód szinten, majdnem úgy, mint egy nyílt forráskódú projektben.
Biztosítja, hogy az adataink hozzáadása egy adatbázishoz csak elhanyagolható mértékben befolyásolja a privátszféránkat, azaz csak kis valószínűséggel lesz képes egy támadó – különféle furfangos lekérdezések futtatásával – kikövetkeztetni a mi adatunkat. A differenciális adatvédelem fogalmának megalkotása Cynthia Dwork nevéhez fűződik, aki a Microsoft Research munkatársa.
Tudományosabb megközelítésben, formálisabban:
Tegyük fel, hogy K egy randomizált algoritmus, amit információk megjelenítésére használunk. Más szóval, K egy randomizált funkció, ami egy D adatbázisból kiválasztott részhalmazok egy csoportjához az információk megjelenítésének S halmazát rendeli. Például D olyan adatbázis, ami az emberek súly információját tartalmazza, és K pedig meghatározza az átlagát a D adatbázis összes d adathalmazában lévő súlynak, zajt ad hozzá, majd megjeleníti a zajos átlagot.
K mechanizmus „differenciálisan privát”, hogyha S minden s részhalmazára annak a valószínűsége, hogy K funkció d adathalmaz bemenettel s egy elemét adja vissza, közel áll annak a valószínűségéhez, hogy K funkció bármilyen d' adathalmaz bemenettel s egy elemét adja vissza, ahol d’ a d-től egyetlen sorban (bejegyzésben) tér el. Konkrétan S minden s részhalmazára és minden d és d' adathalmazra, amik egy sorban térnek el, P(K(d) ∈ s) és P(K(d') ∈ s) valószínűségek aránya e^ε által határolt, ahol ε egy adatvédelmi paraméter. A kisebb ε (azaz kisebb eltérés) nagyobb differenciális adatvédelmet biztosít.
Tehát a differenciális adatvédelem definíciója szerint, hogy ha a kiinduló adatbázison (amiben saját adataink még nincsenek benne) futtatjuk a K mechanizmust, megközelítőleg ugyanazt az eredményt kapjuk, mint amikor (saját adataink beszúrása után, ami egy új sort jelent) a módosított adatbázison futtatjuk.
Ennek a definíciónak fontos szempontja, hogy egyszerűen az adatvédelem fogalmát határozza meg, és nem pedig a módszereket annak elérésére. Már ismertek különböző mechanizmusok a differenciális adatvédelem elérésére, és további módszerek fejlesztése jelenleg aktív kutatási terület. Másik jelentős tulajdonsága ennek a meghatározásnak, hogy egyáltalán nem mondja ki, hogy a személyiségi jog vajon megsérül-e a megjelenítés által. Csak azt garantálja, hogy a személyiségi jog nem sérül meg sokkal jobban a részvétel által, mint az adatkezeléshez való hozzájárulás megtagadása által.
Összesen 0 hozzászólás látható.
Nincsenek hozzászólások.
Bárki hozzászólhat, nem regisztrált beküldő esetén egyik adat megadása sem kötelező - a hozzászólás akár névtelen is lehet.