१. डेटा मास्किंगची संकल्पना
डेटा मास्किंगला डेटा मास्किंग असेही म्हणतात. जेव्हा आपण मास्किंगचे नियम आणि धोरणे दिलेली असतात, तेव्हा मोबाईल फोन नंबर, बँक कार्ड नंबर आणि इतर माहिती यांसारखा संवेदनशील डेटा रूपांतरित करण्यासाठी, सुधारण्यासाठी किंवा झाकण्यासाठी ही एक तांत्रिक पद्धत आहे. हे तंत्र प्रामुख्याने संवेदनशील डेटाचा अविश्वसनीय वातावरणात थेट वापर होण्यापासून रोखण्यासाठी वापरले जाते.
डेटा मास्किंगचे तत्त्व: डेटा मास्किंगमुळे मूळ डेटाची वैशिष्ट्ये, व्यावसायिक नियम आणि डेटाची प्रासंगिकता कायम राखली पाहिजे, जेणेकरून त्यानंतरच्या विकास, चाचणी आणि डेटा विश्लेषणावर कोणताही परिणाम होणार नाही. मास्किंगच्या आधी आणि नंतर डेटाची सुसंगतता आणि वैधता सुनिश्चित करा.
२. डेटा मास्किंग वर्गीकरण
डेटा मास्किंगचे स्थिर डेटा मास्किंग (SDM) आणि गतिशील डेटा मास्किंग (DDM) असे वर्गीकरण केले जाऊ शकते.
स्थिर डेटा मास्किंग (एसडीएम)स्टॅटिक डेटा मास्किंगसाठी प्रोडक्शन एन्व्हायर्नमेंटपासून वेगळे ठेवण्याकरिता एका नवीन नॉन-प्रोडक्शन एन्व्हायर्नमेंट डेटाबेसची स्थापना करणे आवश्यक असते. संवेदनशील डेटा प्रोडक्शन डेटाबेसमधून काढून नॉन-प्रोडक्शन डेटाबेसमध्ये साठवला जातो. अशा प्रकारे, असंवेदनशील केलेला डेटा प्रोडक्शन एन्व्हायर्नमेंटपासून वेगळा ठेवला जातो, ज्यामुळे व्यवसायाच्या गरजा पूर्ण होतात आणि प्रोडक्शन डेटाची सुरक्षा सुनिश्चित होते.
डायनॅमिक डेटा मास्किंग (डीडीएम)सामान्यतः, प्रोडक्शन एनव्हायरमेंटमध्ये संवेदनशील डेटाला रिअल-टाइममध्ये असंवेदनशील करण्यासाठी याचा वापर केला जातो. कधीकधी, वेगवेगळ्या परिस्थितींमध्ये तोच संवेदनशील डेटा वाचण्यासाठी मास्किंगच्या वेगवेगळ्या स्तरांची आवश्यकता असते. उदाहरणार्थ, वेगवेगळ्या भूमिका आणि परवानग्या वेगवेगळ्या मास्किंग योजना लागू करू शकतात.
डेटा रिपोर्टिंग आणि डेटा उत्पादने मास्किंग ॲप्लिकेशन
अशा परिस्थितींमध्ये प्रामुख्याने अंतर्गत डेटा मॉनिटरिंग उत्पादने किंवा बिलबोर्ड, बाह्य सेवा डेटा उत्पादने आणि डेटा विश्लेषणावर आधारित अहवाल, जसे की व्यवसाय अहवाल आणि प्रकल्प आढावा, यांचा समावेश होतो.
३. डेटा मास्किंग सोल्यूशन
सामान्य डेटा मास्किंग योजनांमध्ये यांचा समावेश होतो: अवैधीकरण, यादृच्छिक मूल्य, डेटा प्रतिस्थापन, सममित एन्क्रिप्शन, सरासरी मूल्य, ऑफसेट आणि राउंडिंग, इत्यादी.
अमान्यताअमान्यीकरण म्हणजे संवेदनशील डेटाचे एन्क्रिप्शन, ट्रंकेशन किंवा लपवणे होय. या योजनेत सामान्यतः मूळ डेटाच्या जागी विशेष चिन्हे (जसे की *) वापरली जातात. ही प्रक्रिया सोपी आहे, परंतु वापरकर्त्यांना मूळ डेटाचे स्वरूप कळू शकत नाही, ज्यामुळे डेटाच्या पुढील वापरावर परिणाम होऊ शकतो.
यादृच्छिक मूल्ययादृच्छिक मूल्य म्हणजे संवेदनशील डेटाची यादृच्छिकपणे केलेली पुनर्स्थापना (अंकांच्या जागी संख्या, अक्षरांच्या जागी अक्षरे आणि चिन्हांच्या जागी चिन्हे). ही मास्किंग पद्धत संवेदनशील डेटाचे स्वरूप काही प्रमाणात सुनिश्चित करेल आणि त्यानंतरच्या डेटाच्या वापरास सुलभ करेल. व्यक्ती आणि ठिकाणांच्या नावांसारख्या काही अर्थपूर्ण शब्दांसाठी मास्किंग डिक्शनरीची आवश्यकता असू शकते.
डेटा बदलणेडेटा रिप्लेसमेंट हे नल आणि रँडम व्हॅल्यूजच्या मास्किंगसारखेच आहे, फरक इतकाच की यात विशेष वर्ण किंवा रँडम व्हॅल्यूज वापरण्याऐवजी, मास्किंग डेटा एका विशिष्ट व्हॅल्यूने बदलला जातो.
सममित एन्क्रिप्शनसममित एनक्रिप्शन ही एक विशेष, उलटवता येण्याजोगी मास्किंग पद्धत आहे. यामध्ये एनक्रिप्शन की आणि अल्गोरिदमच्या माध्यमातून संवेदनशील डेटा एनक्रिप्ट केला जातो. सायफरटेक्स्टचे स्वरूप तार्किक नियमांनुसार मूळ डेटाशी सुसंगत असते.
सरासरीसरासरी पद्धत अनेकदा सांख्यिकीय परिस्थितीत वापरली जाते. संख्यात्मक माहितीसाठी, आपण प्रथम त्यांची सरासरी काढतो आणि नंतर असंवेदनशील मूल्ये सरासरीच्या भोवती यादृच्छिकपणे वितरीत करतो, ज्यामुळे माहितीची बेरीज स्थिर राहते.
ऑफसेट आणि राउंडिंगही पद्धत यादृच्छिक शिफ्टद्वारे डिजिटल डेटा बदलते. ऑफसेट राउंडिंगमुळे डेटाची सुरक्षा कायम राखताना रेंजची अंदाजे सत्यता सुनिश्चित होते, जी पूर्वीच्या योजनांपेक्षा वास्तविक डेटाच्या अधिक जवळ असते आणि बिग डेटा विश्लेषणाच्या क्षेत्रात तिला मोठे महत्त्व आहे.
शिफारस मॉडेलएमएल-एनपीबी-५६६०डेटा मास्किंगसाठी
४. सामान्यतः वापरल्या जाणाऱ्या डेटा मास्किंग तंत्रे
(1). सांख्यिकीय तंत्रे
डेटा नमुना आणि डेटा एकत्रीकरण
डेटा सॅम्पलिंग: डी-आयडेंटिफिकेशन तंत्रांची परिणामकारकता सुधारण्यासाठी, डेटा सेटमधील प्रातिनिधिक उपसंच निवडून मूळ डेटा सेटचे विश्लेषण आणि मूल्यांकन करणे ही एक महत्त्वाची पद्धत आहे.
डेटा एकत्रीकरण: मायक्रोडेटामधील गुणधर्मांवर लागू केलेल्या सांख्यिकीय तंत्रांचा (जसे की बेरीज, मोजणी, सरासरी, कमाल आणि किमान) संग्रह म्हणून, मिळणारा परिणाम मूळ डेटा सेटमधील सर्व रेकॉर्डचे प्रतिनिधित्व करतो.
(२). क्रिप्टोग्राफी
असंवेदनशीलता कमी करण्यासाठी किंवा असंवेदनशीलतेची परिणामकारकता वाढवण्यासाठी क्रिप्टोग्राफी ही एक सामान्य पद्धत आहे. वेगवेगळ्या प्रकारच्या एन्क्रिप्शन अल्गोरिदमद्वारे वेगवेगळे असंवेदनशीलतेचे परिणाम साधता येतात.
- डिटरमिनिस्टिक एन्क्रिप्शन: एक नॉन-रँडम सिमेट्रिक एन्क्रिप्शन. हे सहसा आयडी डेटावर प्रक्रिया करते आणि आवश्यकतेनुसार सायफरटेक्स्ट डिक्रिप्ट करून मूळ आयडीमध्ये परत आणू शकते, परंतु की योग्यरित्या संरक्षित करणे आवश्यक आहे.
- अपरिवर्तनीय एनक्रिप्शन: हॅश फंक्शनचा वापर डेटावर प्रक्रिया करण्यासाठी केला जातो, जो सामान्यतः आयडी डेटासाठी वापरला जातो. तो थेट डिक्रिप्ट केला जाऊ शकत नाही आणि मॅपिंग संबंध जतन करणे आवश्यक आहे. याव्यतिरिक्त, हॅश फंक्शनच्या वैशिष्ट्यामुळे, डेटा कोलिजन (data collision) होऊ शकते.
होमोमॉर्फिक एन्क्रिप्शन: यामध्ये सायफरटेक्स्ट होमोमॉर्फिक अल्गोरिदम वापरला जातो. याचे वैशिष्ट्य म्हणजे, डिक्रिप्शननंतर सायफरटेक्स्ट ऑपरेशनचा निकाल हा प्लेनटेक्स्ट ऑपरेशनच्या निकालासारखाच असतो. त्यामुळे, याचा वापर सामान्यतः संख्यात्मक क्षेत्रांवर प्रक्रिया करण्यासाठी केला जातो, परंतु कार्यक्षमतेच्या कारणांमुळे याचा वापर व्यापकपणे केला जात नाही.
(3). प्रणाली तंत्रज्ञान
दमन तंत्रज्ञान हे गोपनीयतेच्या संरक्षणाची पूर्तता न करणाऱ्या डेटा आयटम्सना हटवते किंवा संरक्षित करते, परंतु त्यांना प्रकाशित करत नाही.
- मास्किंग: ही गुणधर्माचे मूल्य लपवण्यासाठी वापरली जाणारी सर्वात सामान्य संवेदनशीलता कमी करण्याची पद्धत आहे, जसे की प्रतिस्पर्ध्याचा क्रमांक, ओळखपत्रावर तारकाचिन्ह लावणे किंवा पत्ता संक्षिप्त करणे.
- स्थानिक दमन: म्हणजे विशिष्ट गुणधर्म मूल्ये (स्तंभ) हटवण्याची, अनावश्यक डेटा फील्ड काढून टाकण्याची प्रक्रिया;
- रेकॉर्ड सप्रेशन: म्हणजे विशिष्ट रेकॉर्ड (ओळी) हटवण्याची, म्हणजेच अनावश्यक डेटा रेकॉर्ड हटवण्याची प्रक्रिया.
(4). टोपणनाव तंत्रज्ञान
छद्मनामिकीकरण हे ओळख लपवण्याचे एक तंत्र आहे, ज्यामध्ये थेट ओळखपत्र (किंवा इतर संवेदनशील ओळखपत्र) बदलण्यासाठी छद्मनावाचा वापर केला जातो. छद्मनामिक तंत्रे थेट किंवा संवेदनशील ओळखपत्रांऐवजी, प्रत्येक माहिती धारकासाठी एक अद्वितीय ओळखपत्र तयार करतात.
ते मूळ आयडीशी जुळण्यासाठी स्वतंत्रपणे यादृच्छिक मूल्ये तयार करू शकते, मॅपिंग टेबल जतन करू शकते आणि मॅपिंग टेबलवरील प्रवेशावर कठोर नियंत्रण ठेवू शकते.
तुम्ही टोपणनावे तयार करण्यासाठी एनक्रिप्शनचा वापर देखील करू शकता, परंतु डिक्रिप्शन की योग्य रीतीने जपून ठेवणे आवश्यक आहे;
हे तंत्रज्ञान मोठ्या संख्येने स्वतंत्र डेटा वापरकर्त्यांच्या बाबतीत मोठ्या प्रमाणावर वापरले जाते, जसे की ओपन प्लॅटफॉर्मच्या परिस्थितीत ओपनआयडी (OpenID), जिथे वेगवेगळे डेव्हलपर एकाच वापरकर्त्यासाठी वेगवेगळे ओपनआयडी मिळवतात.
(5). सामान्यीकरण तंत्रे
सामान्यीकरण तंत्र म्हणजे एक असे ओळख लपवण्याचे तंत्र आहे, जे डेटा सेटमधील निवडक गुणधर्मांची सूक्ष्मता कमी करते आणि डेटाचे अधिक सामान्य व अमूर्त वर्णन प्रदान करते. सामान्यीकरण तंत्रज्ञान अंमलात आणायला सोपे आहे आणि ते रेकॉर्ड-स्तरीय डेटाची सत्यता जपू शकते. याचा वापर सामान्यतः डेटा उत्पादनांमध्ये किंवा डेटा अहवालांमध्ये केला जातो.
- पूर्णांकीकरण: यामध्ये निवडलेल्या गुणधर्मासाठी पूर्णांकीकरणाचा आधार निवडला जातो, जसे की वरच्या दिशेने किंवा खालच्या दिशेने, ज्यामुळे 100, 500, 1K, आणि 10K असे निकाल मिळतात.
- टॉप आणि बॉटम कोडिंग तंत्र: थ्रेशोल्डच्या वर (किंवा खाली) असलेल्या व्हॅल्यूजला, सर्वात वरची (किंवा खालची) पातळी दर्शवणाऱ्या थ्रेशोल्डने बदला, ज्यामुळे "X च्या वर" किंवा "X च्या खाली" असा निकाल मिळतो.
(6). यादृच्छिकीकरण तंत्रे
डी-आयडेंटिफिकेशन तंत्राचा एक प्रकार म्हणून, रँडमायझेशन तंत्रज्ञान म्हणजे रँडमायझेशनद्वारे एखाद्या ॲट्रिब्यूटच्या मूल्यात बदल करणे, जेणेकरून रँडमायझेशननंतरचे मूल्य मूळ वास्तविक मूल्यापेक्षा वेगळे असेल. ही प्रक्रिया हल्लेखोराची त्याच डेटा रेकॉर्डमधील इतर ॲट्रिब्यूट मूल्यांवरून एखाद्या ॲट्रिब्यूटचे मूल्य मिळवण्याची क्षमता कमी करते, परंतु परिणामी डेटाच्या सत्यतेवर परिणाम करते, जे प्रोडक्शन टेस्ट डेटामध्ये सामान्य आहे.
पोस्ट करण्याची वेळ: २७ सप्टेंबर २०२२



