
10 اکتبر 2022 – توسط راب میچام، دانشگاه شیکاگو-اعتبار: متیو آنسلی از طریق Unsplash
هنگامی که مجموعه دادههای حاوی اطلاعات شخصی برای تحقیق به اشتراک گذاشته میشوند یا توسط شرکتها استفاده میشوند، محققان سعی میکنند دادهها را پنهان کنند – برای مثال، یک یا دو رقم نهایی یک کد پستی را حذف میکنند – در حالی که همچنان کاربرد آن را برای بینش حفظ میکنند.
اما در حالی که شناسایی هویت اغلب برای برآوردن الزامات قانونی برای حفظ حریم خصوصی داده ها در نظر گرفته شده است، متداول ترین روش های مورد استفاده در زمینه فنی متزلزل هستند.
آلونی کوهن، دانشمند کامپیوتر دانشگاه شیکاگو، در مقاله ای جدید، آخرین ضربه قاطع را علیه محبوب ترین تکنیک های شناسایی هویت زدایی وارد می کند.
کوهن با توصیف نوع جدیدی از حمله به نام «downcoding» و نشان دادن آسیبپذیری مجموعه دادههای شناساییشده از یک پلتفرم آموزش آنلاین، هشدار میدهد که این تغییر دادهها نباید برای محافظت از حریم خصوصی افراد کافی در نظر گرفته شود.
کوهن، استادیار علوم کامپیوتر می گوید: «حتی بر اساس استانداردهای نظارتی، مشکلی در اینجا وجود دارد.
به صدا درآوردن زنگ خطر
برای سالها، محققان امنیت و حریم خصوصی علوم کامپیوتر زنگ خطر را در مورد روشهایی که اغلب برای شناسایی دادهها استفاده میشوند به صدا درآوردهاند، حملات جدیدی را پیدا کردهاند که میتوانند نقاط داده به ظاهر ناشناس را شناسایی کنند و راهحلهایی را پیشنهاد کنند. با این حال، این روشها همچنان مورد استفاده رایج هستند و از نظر قانونی برای اجرای مقررات حفاظت از حریم خصوصی مانند HIPAA و GDPR کافی هستند.
کوهن گفت: «سیاستگذاران به جای ریسکهای فرضی، به خطرات دنیای واقعی اهمیت میدهند. “بنابراین مردم استدلال کرده اند که خطراتی که محققان امنیت و حریم خصوصی به آنها اشاره کردند فرضی یا بسیار ساختگی بوده است.”
در حین تحصیل در مقطع دکتری در MIT، کوهن تصمیم گرفت این استدلال را رد کند. متداولترین روشهای شناسایی هویت از رویکردی به نام k-anonymity سرچشمه میگیرند، که دادهها را به اندازهای تبدیل میکند که هر فرد را از تعداد معینی از افراد دیگر در مجموعه داده غیرقابل تشخیص میکند. ایده کوهن این بود که خود هدف این روش شناسایی هویت، آن را برای حمله باز گذاشته است.
کوهن گفت: “هدف زمانی که شما این نوع تکنیک را انجام می دهید این است که به همان اندازه که نیاز دارید ویرایش کنید تا سطح هدفی از ناشناس بودن را تضمین کنید. اما اگر به این هدف دست یابید که به همان اندازه که نیاز دارید ویرایش کنید، این واقعیت که این حداقل است ممکن است چیزی در مورد آنچه ویرایش شده است به شما بگوید.
هویتزدایی با ویرایش شبه شناسهها کار میکند – اطلاعاتی که میتوان آنها را با دادههای منبع دوم کنار هم قرار داد تا یک موضوع داده را بینام کند. عدم در نظر گرفتن همه شبه شناسه های ممکن می تواند منجر به افشا شود. در یکی از نمونههای معروف، محققان دادههای مشاهدهشده نتفلیکس شناساییشده را برداشتند و آنها را با دادههای سایت نقد آنلاین فیلم IMDB ترکیب کردند، و کاربران را در اولین مجموعه دادهها از زمانی که نظرات فیلمهایی را که اخیرا تماشا کرده بودند ثبت کردند، شناسایی کردند.
از زمان این اکتشافات در دهه 2000، سیاستگذاران برای تعیین اینکه کدام جنبه از یک مجموعه داده شبه شناسه هستند یا نه، به متخصصان تکیه کرده اند تا نوار ناشناس ماندن را ایجاد کنند. کوهن موردی را آزمایش کرد – اگر هر ویژگی یک شبه شناسه در نظر گرفته شود، آیا k-anonymity و تکنیک های مشتق شده آن هنوز کار می کنند؟
کوهن میگوید: «اگر هویتزدایی اصلاً کارساز باشد، باید زمانی کار کند که همه چیز شبه هویتبخش باشد». “این بخشی از چیزی است که این اثر را قدرتمند می کند. همچنین به این معنی است که حملات به جای هر یک به طور خاص، بر ضد تقریباً تمام تکنیک های مربوط به ناشناس بودن k عمل می کنند. حمله نتفلیکس نشان داد که گفتن اینکه چه چیزی شبه است و چه چیزی نیست دشوار است. -identifier. حملات downcoding نشان می دهد که در تنظیمات خاص، اهمیت زیادی ندارد.”
“عصای جادویی نیست”
این مقاله دو حمله نظری و یک مثال واقعی را توصیف میکند که استدلال این حفاظتها را تضعیف میکند. اولین مورد، کدگذاری، تغییر شکلهای انجام شده روی دادهها را مهندسی معکوس میکند، مانند مثال کد پستی که قبلاً ذکر شد. حمله دوم از داونکد برای یک حمله انفرادی محمول (PSO) استفاده میکند، نوع خاصی از حمله علیه استانداردهای ناشناسسازی دادهها تحت قانون حفظ حریم خصوصی GDPR اتحادیه اروپا. کوهن گفت که این اثبات برای نشان دادن سیاستگذاران مهم بود که ناشناس بودن k برای ناشناس سازی «انتشار و فراموش کردن» تحت GDPR کافی نیست.
کوهن میگوید: «استدلالی که ما مطرح میکنیم مخالف این ایده است که هر یک از این تکنیکها برای برآورده کردن نوار قانونی ناشناسسازی کافی است. ما مستقیماً از این ادعا عقب نشینی می کنیم. حتی با توجه به استانداردهای نظارتی، مشکلی در اینجا وجود دارد.”
کوهن این نارسایی را با یک نمایش در دنیای واقعی جداگانه بر روی داده های شناسایی شده از edX، پلتفرم محبوب دوره های آنلاین بسیار باز (MOOC) نشان داد. کوهن با ترکیب مجموعه داده با دادههای جمعآوریشده از رزومههای ارسالشده به لینکدین – اطلاعاتی که بهطور بیاهمیت در دسترس کارفرمایان بالقوه است – میتواند افرادی را که شروع کردهاند اما نتوانستهاند دورههای edX را تکمیل کنند، شناسایی کند، که نقض بالقوه FERPA، قانون حقوق آموزشی خانواده و حریم خصوصی است edX. نسبت به این نقص هشدار داده شد و حفاظت از داده های خود را تغییر داده است.
کوهن گفت، پیام اولیه این است که این روشهای شناسایی، عصای جادویی برای کنار گذاشتن نگرانیهای مربوط به حریم خصوصی در هنگام اشتراکگذاری دادههای بالقوه حساس نیستند. او امیدوار است که تنظیمکنندهها متوجه شوند که رویکرد لایهای برای دستیابی به اهداف آنها بسیار مؤثرتر خواهد بود.
گر کاری که میخواهید انجام دهید این است که دادهها را بگیرید، آنها را پاکسازی کنید و سپس فراموش کنید – آن را در وب قرار دهید یا به برخی از محققان خارجی بدهید و تصمیم بگیرید که تمام تعهدات حفظ حریم خصوصی شما انجام شده است – نمیتوانید با استفاده از اینها این کار را انجام دهید. کوهن گفت: تکنیک ها. آنها نباید شما را از تعهدات خود در مورد فکر کردن و محافظت از حریم خصوصی آن داده ها آزاد کنند.