Amerikai kutatók nemrég publikált munkájukban megmutatták, hogy csak a nyelvhasználati stílust górcső alá vetve hatékonyan felfedhető egy anonim módon publikált írás szerzőjének kiléte. Algoritmusuk a tanuló fázisban először megvizsgálja a beadott bejegyzéseket (egy kb. 100 ezer blog bejegyzésből álló adatbázissal dolgoztak), és egyedi nyelvhasználati sajátosságokat keres (például felcserélhető szavak relatív gyakoriságát számolja), majd ez alapján létrehoz egy a szerzőre jellemző stílus-ujjlenyomatot, és legközelebb már ez alapján próbálja meg azonosítani. Általánosságban véve az eredmények nem tűnnek áttörőnek, hiszen az esetek kb. 20%-ában sikerül csak helyesen megtippelni a szerzőt, de a pontosság tovább növelhető egészen 80%-ig, ha nem kényszerítjük az algoritmust tippelni, amikor nem biztos a dolgában (vagyis ez a precision-recall optimalizálása).
Az eredmények ezen felül tovább erősíthetőek pl. a téma figyelembe vételével*, a legjobb tippek szemrevételezésével, stb. is. Vajon lehet ez ellen védekezni? Ha nem is PET technológiával, de lehet, és állítólag nem is olyan nehéz: elegendő, ha tudatosan törekszünk valaki más, például egy ismertebb személy stílusát utánozni fogalmazás közben. Akit bővebben érdekel a téma, de esetleg nem olyan mély részletességgel mint a korábbi linken, ajánlom figyelmébe az egyik szerzővel készült négyperces interjú hanganyagát (a szöveges kivonat itt megtekinthető).
* Azért témafüggetlen a vizsgálatuk, mert előfordulhat, hogy egy adott témában csak álnéven ír valaki, és az identitás kompromittációja csak egy másik témabeli írások vizsgálatával tehető meg.
Összesen 0 hozzászólás látható.
Nincsenek hozzászólások.
Bárki hozzászólhat, nem regisztrált beküldő esetén egyik adat megadása sem kötelező - a hozzászólás akár névtelen is lehet.