Sintetiniai tinklai gali padidinti kai kurių duomenų prieinamumą, tuo pat metu apsaugodami individualų ar institucinį privatumą, pagal Penn State statistiką.
„Mano pagrindinis susidomėjimas yra sukurti metodiką, kuri leistų plačiau keistis konfidencialiais duomenimis tokiu būdu, kuris galėtų padėti moksliniam atradimui“, - sakė statistikos profesorius Aleksandra Slavkovičius, asocijuotasis dekanas, baigęs aukštąjį mokslą, Eberly mokslų kolegija, Penn State. „Galimybė dalintis konfidencialiais duomenimis su minimalia kiekybine rizika, kad būtų galima aptikti slaptą informaciją ir vis dar užtikrinti statistinį tikslumą ir vientisumą.“
„Slavkovic“, spręsdama tarpdisciplininį bendradarbiavimą, ypač su kompiuteriais ir socialiniais mokslininkais, rado šios duomenų privatumo problemos sprendimus. Jos tyrimuose daugiausia dėmesio skiriama įvairiems duomenims, įskaitant tinklo duomenis, kurie užfiksuoja ryšius tarp tokių subjektų kaip asmenys ar institucijos. Ji pranešė apie savo požiūrį teikti sintetinius tinklus, kurie šiandien atitinka 16-osios JAV visuomenės mokslų pažangos asociacijos (Vašingtone) 2019 m. Metinį susitikimą.
Skirtingas privatumas suteikia matematiniu būdu įrodomą privatumo praradimo asmenims lygį.
Mokslininkai nori gauti prieigą prie duomenų, kuriuos kiti surinko savo tyrimams, tačiau tokia prieiga taip pat gali pakenkti asmeniniam privatumui, net ir po to, kai pašalinami vadinamieji asmeniškai identifikuojami duomenys.
„Pagalbinių duomenų gausa yra pagrindinis kaltininkas“, - sakė Slavkovičius. „Su metodologinėmis ir technologinėmis duomenų rinkimo ir registravimo sąsajų pažanga, lengviau naudotis įvairiais duomenų šaltiniais, kurie galėtų būti susieti su duomenų rinkiniu, ir finansavimo agentūrų reikalavimais keistis duomenimis, didėja pavojus duomenų privatumui. privatumo praradimo valdymo sprendimai yra labai svarbūs norint užtikrinti patikimą mokslinį atradimą. "
Pavyzdžiui, viešai prieinama informacija apie vaistų tyrimą dėl ŽIV vaisto parodytų, kas buvo gydymo grupėje ir kas buvo kontrolinėje grupėje. Gydymo grupėje būtų tik ŽIV diagnozuoti žmonės ir, nors duomenų savininkai nesulaikė asmeninių duomenų iš šio duomenų rinkinio, tam tikra identifikacinė informacija išliktų. Kadangi šiandien socialinėje žiniasklaidoje ir kituose duomenų rinkiniuose yra tiek daug informacijos, galima prijungti taškus ir identifikuoti žmones, galbūt atskleidžiant jų ŽIV statusą.
„Dviejų duomenų rinkinių susiejimo metodai, ty rinkėjų įrašai ir sveikatos draudimo duomenys, labai pagerėjo“, - sakė Slavkovičius. „Vienoje iš pirmųjų išvadų„ Latanya Sweeny “(dabar Harvardo mieste) parodė, kad susiejant šiuos duomenų tipus, galite nustatyti 87 procentus JAV gyventojų surašymo nuo 1990 m., Remiantis jų gimimo data, lytimi ir 5 skaitmenų Pastaruoju metu mokslininkai naudojo „tweets“ ir susietus „Twitter“ metaduomenis, kad parodytų, jog vartotojai gali identifikuoti 96,7 proc. tikslumą. “
Slavkovicas pažymi, kad duomenų bazėse yra ne tik žmonių ar institucijų duomenys, bet ir asmenys, esantys ne duomenų bazėje, gali patirti tiesioginę ar asociaciją dėl privatumo. Ryšys tarp duomenų rinkinyje esančios informacijos ir socialinės žiniasklaidos informacijos gali sukelti rimtą privatumą - kažkas panašaus į ŽIV statusą ar seksualinę orientaciją gali turėti rimtų pasekmių, jei paaiškės.
Nors privatumas yra svarbus, rinkti duomenų rinkiniai sudaro esminį informacijos šaltinį tyrėjams. Šiuo metu kai kuriais atvejais, kai duomenys yra ypatingai jautrūs, mokslininkai turi fiziškai eiti į duomenų saugyklas, kad atliktų savo tyrimus, todėl moksliniai tyrimai yra sudėtingesni ir brangesni.
Slavkovičius domisi tinklo duomenimis. Informacija, rodanti žmonių ar institucijų tarpusavio ryšį - mazgus - ir ryšius tarp mazgų. Jos požiūris yra sukurti šiek tiek pakeistus, veidrodžius tinklo duomenų rinkinius, kai kurie iš judančių mazgų, perjungtos jungtys arba kraštai pakeisti.
„Tikslas yra sukurti naujus tinklus, kurie atitiktų griežtus skirtingus privatumo reikalavimus, ir tuo pačiu metu užfiksuotų daugumą statistinių funkcijų iš pradinio tinklo“, - sakė Slavkovičius.
Šie sintetiniai duomenų rinkiniai gali būti pakankami, kad kai kurie mokslininkai galėtų patenkinti savo mokslinių tyrimų poreikius. Kitų atveju pakaktų išbandyti jų metodus ir hipotezes prieš einant į duomenų saugyklą. Mokslininkai galėtų išbandyti kodą, tiriamąjį tyrimą ir galbūt pagrindinę analizę, laukdami leidimo naudoti originalius duomenis savo saugykloje.
"Mes negalime patenkinti visų statistinės analizės poreikių, naudojant tos pačios rūšies pakeistus duomenis", - sakė Slavkovičius. „Kai kuriems žmonėms reikės originalių duomenų, tačiau kiti gali eiti ilgą kelią su sintetiniais duomenimis, pvz., Sintetiniais tinklais.“
