نوآوری در مدیریت برای توسعه پایدار

Kolnegar Private Media (Management Innovation for Sustainable Development)

31 فروردین 1403 3:05 ب.ظ

نوع جدیدی از حمله به نام “downcoding” نقص هایی را در ناشناس کردن داده ها نشان می دهد

        10 اکتبر 2022 – توسط راب میچام، دانشگاه شیکاگو-اعتبار: متیو آنسلی از طریق Unsplash

هنگامی که مجموعه داده‌های حاوی اطلاعات شخصی برای تحقیق به اشتراک گذاشته می‌شوند یا توسط شرکت‌ها استفاده می‌شوند، محققان سعی می‌کنند داده‌ها را پنهان کنند – برای مثال، یک یا دو رقم نهایی یک کد پستی را حذف می‌کنند – در حالی که همچنان کاربرد آن را برای بینش حفظ می‌کنند.

اما در حالی که شناسایی هویت اغلب برای برآوردن الزامات قانونی برای حفظ حریم خصوصی داده ها در نظر گرفته شده است، متداول ترین روش های مورد استفاده در زمینه فنی متزلزل هستند.

آلونی کوهن، دانشمند کامپیوتر دانشگاه شیکاگو، در مقاله ای جدید، آخرین ضربه قاطع را علیه محبوب ترین تکنیک های شناسایی هویت زدایی وارد می کند.

کوهن با توصیف نوع جدیدی از حمله به نام «downcoding» و نشان دادن آسیب‌پذیری مجموعه داده‌های شناسایی‌شده از یک پلت‌فرم آموزش آنلاین، هشدار می‌دهد که این تغییر داده‌ها نباید برای محافظت از حریم خصوصی افراد کافی در نظر گرفته شود.

کوهن، استادیار علوم کامپیوتر می گوید: «حتی بر اساس استانداردهای نظارتی، مشکلی در اینجا وجود دارد.

به صدا درآوردن زنگ خطر

برای سال‌ها، محققان امنیت و حریم خصوصی علوم کامپیوتر زنگ خطر را در مورد روش‌هایی که اغلب برای شناسایی داده‌ها استفاده می‌شوند به صدا درآورده‌اند، حملات جدیدی را پیدا کرده‌اند که می‌توانند نقاط داده به ظاهر ناشناس را شناسایی کنند و راه‌حل‌هایی را پیشنهاد کنند. با این حال، این روش‌ها همچنان مورد استفاده رایج هستند و از نظر قانونی برای اجرای مقررات حفاظت از حریم خصوصی مانند HIPAA و GDPR کافی هستند.

کوهن گفت: «سیاست‌گذاران به جای ریسک‌های فرضی، به خطرات دنیای واقعی اهمیت می‌دهند. “بنابراین مردم استدلال کرده اند که خطراتی که محققان امنیت و حریم خصوصی به آنها اشاره کردند فرضی یا بسیار ساختگی بوده است.”

در حین تحصیل در مقطع دکتری در MIT، کوهن تصمیم گرفت این استدلال را رد کند. متداول‌ترین روش‌های شناسایی هویت از رویکردی به نام k-anonymity سرچشمه می‌گیرند، که داده‌ها را به اندازه‌ای تبدیل می‌کند که هر فرد را از تعداد معینی از افراد دیگر در مجموعه داده غیرقابل تشخیص می‌کند. ایده کوهن این بود که خود هدف این روش شناسایی هویت، آن را برای حمله باز گذاشته است.

کوهن گفت: “هدف زمانی که شما این نوع تکنیک را انجام می دهید این است که به همان اندازه که نیاز دارید ویرایش کنید تا سطح هدفی از ناشناس بودن را تضمین کنید. اما اگر به این هدف دست یابید که به همان اندازه که نیاز دارید ویرایش کنید، این واقعیت که این حداقل است ممکن است چیزی در مورد آنچه ویرایش شده است به شما بگوید.

هویت‌زدایی با ویرایش شبه شناسه‌ها کار می‌کند – اطلاعاتی که می‌توان آنها را با داده‌های منبع دوم کنار هم قرار داد تا یک موضوع داده را بی‌نام کند. عدم در نظر گرفتن همه شبه شناسه های ممکن می تواند منجر به افشا شود. در یکی از نمونه‌های معروف، محققان داده‌های مشاهده‌شده نتفلیکس شناسایی‌شده را برداشتند و آن‌ها را با داده‌های سایت نقد آنلاین فیلم IMDB ترکیب کردند، و کاربران را در اولین مجموعه داده‌ها از زمانی که نظرات فیلم‌هایی را که اخیرا تماشا کرده بودند ثبت کردند، شناسایی کردند.

از زمان این اکتشافات در دهه 2000، سیاستگذاران برای تعیین اینکه کدام جنبه از یک مجموعه داده شبه شناسه هستند یا نه، به متخصصان تکیه کرده اند تا نوار ناشناس ماندن را ایجاد کنند. کوهن موردی را آزمایش کرد – اگر هر ویژگی یک شبه شناسه در نظر گرفته شود، آیا k-anonymity و تکنیک های مشتق شده آن هنوز کار می کنند؟

کوهن می‌گوید: «اگر هویت‌زدایی اصلاً کارساز باشد، باید زمانی کار کند که همه چیز شبه هویت‌بخش باشد». “این بخشی از چیزی است که این اثر را قدرتمند می کند. همچنین به این معنی است که حملات به جای هر یک به طور خاص، بر ضد تقریباً تمام تکنیک های مربوط به ناشناس بودن k عمل می کنند. حمله نتفلیکس نشان داد که گفتن اینکه چه چیزی شبه است و چه چیزی نیست دشوار است. -identifier. حملات downcoding نشان می دهد که در تنظیمات خاص، اهمیت زیادی ندارد.”

“عصای جادویی نیست”

این مقاله دو حمله نظری و یک مثال واقعی را توصیف می‌کند که استدلال این حفاظت‌ها را تضعیف می‌کند. اولین مورد، کدگذاری، تغییر شکل‌های انجام شده روی داده‌ها را مهندسی معکوس می‌کند، مانند مثال کد پستی که قبلاً ذکر شد. حمله دوم از داون‌کد برای یک حمله انفرادی محمول (PSO) استفاده می‌کند، نوع خاصی از حمله علیه استانداردهای ناشناس‌سازی داده‌ها تحت قانون حفظ حریم خصوصی GDPR اتحادیه اروپا. کوهن گفت که این اثبات برای نشان دادن سیاستگذاران مهم بود که ناشناس بودن k برای ناشناس سازی «انتشار و فراموش کردن» تحت GDPR کافی نیست.

کوهن می‌گوید: «استدلالی که ما مطرح می‌کنیم مخالف این ایده است که هر یک از این تکنیک‌ها برای برآورده کردن نوار قانونی ناشناس‌سازی کافی است. ما مستقیماً از این ادعا عقب نشینی می کنیم. حتی با توجه به استانداردهای نظارتی، مشکلی در اینجا وجود دارد.”

کوهن این نارسایی را با یک نمایش در دنیای واقعی جداگانه بر روی داده های شناسایی شده از edX، پلتفرم محبوب دوره های آنلاین بسیار باز (MOOC) نشان داد. کوهن با ترکیب مجموعه داده با داده‌های جمع‌آوری‌شده از رزومه‌های ارسال‌شده به لینکدین – اطلاعاتی که به‌طور بی‌اهمیت در دسترس کارفرمایان بالقوه است – می‌تواند افرادی را که شروع کرده‌اند اما نتوانسته‌اند دوره‌های edX را تکمیل کنند، شناسایی کند، که نقض بالقوه FERPA، قانون حقوق آموزشی خانواده و حریم خصوصی است edX. نسبت به این نقص هشدار داده شد و حفاظت از داده های خود را تغییر داده است.

کوهن گفت، پیام اولیه این است که این روش‌های شناسایی، عصای جادویی برای کنار گذاشتن نگرانی‌های مربوط به حریم خصوصی در هنگام اشتراک‌گذاری داده‌های بالقوه حساس نیستند. او امیدوار است که تنظیم‌کننده‌ها متوجه شوند که رویکرد لایه‌ای برای دستیابی به اهداف آنها بسیار مؤثرتر خواهد بود.

گر کاری که می‌خواهید انجام دهید این است که داده‌ها را بگیرید، آن‌ها را پاکسازی کنید و سپس فراموش کنید – آن را در وب قرار دهید یا به برخی از محققان خارجی بدهید و تصمیم بگیرید که تمام تعهدات حفظ حریم خصوصی شما انجام شده است – نمی‌توانید با استفاده از اینها این کار را انجام دهید. کوهن گفت: تکنیک ها. آنها نباید شما را از تعهدات خود در مورد فکر کردن و محافظت از حریم خصوصی آن داده ها آزاد کنند.

https://techxplore.com/news/2022-10-kind-downcoding-flaws-anonymizing.html?utm_source=nwletter&utm_medium=email&utm_campaign=daily-nwletter

آیا این نوشته برایتان مفید بود؟

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *