امروزه شرکت ها و سازمان ها داده های خود را که شامل اطلاعات حساس و غیر حساس مشتریان می باشند، به منظور تحلیل و کشف الگوهای پنهان به گروه های متخصص یا محققان دیگرتحویل می دهند. این شرکت ها یا مالکان پایگاه های داده باید از حفظ حریم خصوصی مشتریان خود اطمینان حاصل کنند.
حفظ حریم خصوصی می تواند به چند طریق و در چند زمان و باید از جهات مختلف انجام شود. اگر اهمیت امنیت از کارایی داده کاوی بیشتر باشد، باید امر حفظ حریم خصوصی قبل از تحویل برای داده کاوی صورت بگیرد که شامل روش هایی از قبیل دستکاری داده ها، randomization و گمنامی می باشد. اما اگر کارایی داده کاوی از اهمیت بیشتری برخوردار باشد، سیاست های امنیتی در جهت حفظ حریم خصوصی باید به همراه داده کاوی انجام شود که شامل دستکاری در الگوریتم های داده کاوی برای محدود سازی داده کاوی و همچنین جلوگیری از خرابکاری از طریق query auditing می باشد.
روش های ابتدایی برای حفظ حریم خصوصی در مرحله انتشار داده ها، حذف کردن یا تغییر دادن داده های حساس بود. پس از این کار مالک داده، داده های خود را با اطمینان خاطر به متخصصان جهت داده کاوی، تحویل می داد. ]1[ با توجه به تحقیقات انجام شده اکثر مردم در ایالات متحده توسط {zip 5 رقمی، جنسیت، تاریخ تولد} بصورت کاملا یکتا قابل شناسایی هستند. با توجه به این امر، افراد توسط مشخصه های دیگر جمعیت شناسی نیز قابل شناسایی هستند. پس ما نباید تنها به حذف کردن و تغییر دادن مشخصه های نام و نام خانوادگی یا شماره های شناسایی یکتای کاربران اکتفا کنیم و باید نمایش این گونه از مشخصه ها را نیز محدود کنیم.
در این موضوع هدف ما محدود کردن دسترسی افراد به داده ها نمی باشد و هدف، کنترل دسترسی کاربران مختلف به داده ها نیست بلکه به وجود آوردن مکانیزم هایی است که بتوان با اسفاده از آن فقط از فاش شدن داده های حساس اشخاص در فرآیند داده کاوی جلوگیری به عمل آورد.
k-anonymity مدلی است که به منظور گمنامی افراد در پایگاه داده ها به کار می رود. در این مدل attribute ها یا همان سرآیند فیلد ها به 3 مجموعه تقسیم می شوند:
1. Quasi-identifier یا QID: مجموعه ای از attribute های غیر حساس که به کمک ترکیبی از این مجموعه می توان به صورت یکتا به داده های حساس افراد دست پیدا کرد.
2. Sensitive attributes: مجموعه ی داده های حساس که فاش شدن این داده ها به منزله ی نقض حریم خصوصی افراد می باشد.
3. Non-sensitive attributes: مجموعه ی داده هایی که در مجموعه های شماره یک و دو قرار نمی گیرند.
مثال 1: برای مثال مجموعه {zip، جنسیت، تاریخ تولد} QID می باشند. باید توجه داشت که اتصال دو جدول نیز ممکن است منجر به پدید آمدن QIDهای جدید شوند. یکی از مهمترین و حیاتی ترین مراحل در فرآیند متد k-anonymize انتخاب صحیح مجموعه QID است.
تعریف 1: جدولی k-anonymity را ارضا می کند اگر و فقط اگر هر ترتیبی در ترکیب مجموعه QID، حداقل k بار در جدول رخ دهد.
در واقع جدولی که در آن تلاش برای یافتن رکورد هر فردی، به حداقل k-1 رکورد دیگر منجر شود. در نتیجه در جدول اطلاعات مربوط به یک فرد (بدون استفاده از دانش قبلی) قابل تشخیص نخواهد بود و با رکوردهای دیگر متشابه خواهد بود. (با استفاده از تکنیک های generalization و suppression).
به منظور برآورده کردن شرط k-anonymity، مقادیر فیلد های مجموعه quasi-identifier باید عمومی شوند. در واقع عملیاتی انجام می شود تا kرکورد جدول غیر قابل تمایز شوند. به این فرآیند generalization گویند.
SHAPE \* MERGEFORMAT
توجه به این نکته حائز اهمیت است که هر چه رکوردهای جدول بیشترAnonymize شوند، حفظ حریم خصوصی افراد افزایش می یابد، ولی کارایی داده کاوی کاهش می یابد. و باید در مقدار K و همینطور generalization به نسبت به کارایی در داده کاوی،tradeoff برقرار شود. و باید تا حد امکان، تا میزان مورد نیاز ، عمومی سازی صورت گیرد.
SHAPE \* MERGEFORMAT
همانطور که در جدول بالا می بینید، مجموعه {race, birth, gender, zip} مجموعه qid میباشد و این مجموعه حداقل دو بار تکرار می شود و این امر سبب می شود تا شناسایی افراد را دشوار سازد.
SHAPE \* MERGEFORMAT
در جدول بالا به دلیل عدم تنوع در فیلد حساس یا همان condition، حریم خصوصی افراد در سطرهای 9 الی 12 در معرض خطر است زیرا اطلاعات حساس همه ی این افراد یک مقدار است. برای مقابله با این وضعیت مدل l-diversity پیشنهاد شد.
منابع:
[1]. L. Sweeney. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002
نظرات شما عزیزان:
ادامه مطلب