1. डेटा मास्किंगची संकल्पना
डेटा मास्किंगला डेटा मास्किंग असेही म्हणतात. आम्ही मास्किंग नियम आणि धोरणे दिली असताना मोबाइल फोन नंबर, बँक कार्ड नंबर आणि इतर माहिती यांसारख्या संवेदनशील डेटाचे रूपांतर, बदल किंवा कव्हर करण्याची ही एक तांत्रिक पद्धत आहे. हे तंत्र प्रामुख्याने संवेदनशील डेटाचा वापर थेट अविश्वसनीय वातावरणात होण्यापासून रोखण्यासाठी केला जातो.
डेटा मास्किंग तत्त्व: डेटा मास्किंगने मूळ डेटा वैशिष्ट्ये, व्यवसाय नियम आणि डेटा प्रासंगिकता राखली पाहिजे जेणेकरून त्यानंतरच्या विकास, चाचणी आणि डेटा विश्लेषणावर मास्किंगचा परिणाम होणार नाही. मास्किंग करण्यापूर्वी आणि नंतर डेटाची सातत्य आणि वैधता सुनिश्चित करा.
2. डेटा मास्किंग वर्गीकरण
डेटा मास्किंग स्टॅटिक डेटा मास्किंग (SDM) आणि डायनॅमिक डेटा मास्किंग (DDM) मध्ये विभागले जाऊ शकते.
स्टॅटिक डेटा मास्किंग (SDM): स्टॅटिक डेटा मास्किंगसाठी उत्पादन वातावरणापासून अलग ठेवण्यासाठी नवीन गैर-उत्पादन पर्यावरण डेटाबेसची स्थापना करणे आवश्यक आहे. संवेदनशील डेटा उत्पादन डेटाबेसमधून काढला जातो आणि नंतर गैर-उत्पादन डेटाबेसमध्ये संग्रहित केला जातो. अशा प्रकारे, असंवेदनशील डेटा उत्पादन वातावरणापासून वेगळा केला जातो, जो व्यावसायिक गरजा पूर्ण करतो आणि उत्पादन डेटाची सुरक्षितता सुनिश्चित करतो.
डायनॅमिक डेटा मास्किंग (DDM): रिअल टाइममध्ये संवेदनशील डेटाचे संवेदनाक्षम करण्यासाठी हे सामान्यतः उत्पादन वातावरणात वापरले जाते. काहीवेळा, वेगवेगळ्या परिस्थितींमध्ये समान संवेदनशील डेटा वाचण्यासाठी मास्किंगचे विविध स्तर आवश्यक असतात. उदाहरणार्थ, भिन्न भूमिका आणि परवानग्या भिन्न मास्किंग योजना लागू करू शकतात.
डेटा अहवाल आणि डेटा उत्पादने मास्किंग अनुप्रयोग
अशा परिस्थितींमध्ये प्रामुख्याने अंतर्गत डेटा मॉनिटरिंग उत्पादने किंवा बिलबोर्ड, बाह्य सेवा डेटा उत्पादने आणि डेटा विश्लेषणावर आधारित अहवाल, जसे की व्यवसाय अहवाल आणि प्रकल्प पुनरावलोकन यांचा समावेश होतो.
3. डेटा मास्किंग सोल्यूशन
सामान्य डेटा मास्किंग योजनांमध्ये हे समाविष्ट आहे: अवैध करणे, यादृच्छिक मूल्य, डेटा बदलणे, सममितीय एन्क्रिप्शन, सरासरी मूल्य, ऑफसेट आणि राउंडिंग इ.
अवैधीकरण: अवैधता म्हणजे संवेदनशील डेटाचे एन्क्रिप्शन, ट्रंकेशन किंवा लपवणे. ही योजना सामान्यतः वास्तविक डेटाला विशेष चिन्हांसह बदलते (जसे की *). ऑपरेशन सोपे आहे, परंतु वापरकर्त्यांना मूळ डेटाचे स्वरूप माहित नाही, जे नंतरच्या डेटा अनुप्रयोगांवर परिणाम करू शकते.
यादृच्छिक मूल्य: यादृच्छिक मूल्याचा संदर्भ संवेदनशील डेटाच्या यादृच्छिक प्रतिस्थापनाचा आहे (संख्या अंकांची जागा घेतात, अक्षरे अक्षरे बदलतात आणि वर्ण वर्णांची जागा घेतात). ही मास्किंग पद्धत विशिष्ट मर्यादेपर्यंत संवेदनशील डेटाचे स्वरूप सुनिश्चित करेल आणि त्यानंतरच्या डेटा अनुप्रयोगास सुलभ करेल. काही अर्थपूर्ण शब्दांसाठी मास्किंग डिक्शनरी आवश्यक असू शकते, जसे की लोक आणि ठिकाणांची नावे.
डेटा रिप्लेसमेंट: डेटा बदलणे हे शून्य आणि यादृच्छिक मूल्यांच्या मास्किंगसारखेच आहे, विशेष वर्ण किंवा यादृच्छिक मूल्ये वापरण्याऐवजी, मास्किंग डेटा विशिष्ट मूल्यासह बदलला जातो.
सममितीय एन्क्रिप्शन: सिमेट्रिक एन्क्रिप्शन ही एक विशेष उलट करता येणारी मास्किंग पद्धत आहे. हे एन्क्रिप्शन की आणि अल्गोरिदमद्वारे संवेदनशील डेटा एन्क्रिप्ट करते. सायफरटेक्स्ट फॉरमॅट तार्किक नियमांमधील मूळ डेटाशी सुसंगत आहे.
सरासरी: सरासरी योजना सहसा सांख्यिकीय परिस्थितींमध्ये वापरली जाते. संख्यात्मक डेटासाठी, आम्ही प्रथम त्यांच्या सरासरीची गणना करतो आणि नंतर यादृच्छिकपणे मध्याभोवती असंवेदनशील मूल्ये वितरित करतो, अशा प्रकारे डेटाची बेरीज स्थिर ठेवतो.
ऑफसेट आणि गोलाकार: ही पद्धत यादृच्छिक शिफ्टने डिजिटल डेटा बदलते. ऑफसेट राऊंडिंग डेटाची सुरक्षितता राखताना रेंजची अंदाजे सत्यता सुनिश्चित करते, जी मागील योजनांच्या तुलनेत वास्तविक डेटाच्या जवळ असते आणि मोठ्या डेटा विश्लेषणाच्या परिस्थितीमध्ये खूप महत्त्व असते.
शिफारस केलेले मॉडेल "ML-NPB-5660"डेटा मास्किंगसाठी
4. सामान्यतः वापरले जाणारे डेटा मास्किंग तंत्र
(1). सांख्यिकी तंत्र
डेटा सॅम्पलिंग आणि डेटा एकत्रीकरण
- डेटा सॅम्पलिंग: डेटा सेटचा प्रतिनिधी उपसंच निवडून मूळ डेटा सेटचे विश्लेषण आणि मूल्यमापन ही डी-आयडेंटिफिकेशन तंत्राची प्रभावीता सुधारण्यासाठी एक महत्त्वाची पद्धत आहे.
- डेटा एकत्रीकरण: सांख्यिकीय तंत्रांचा संग्रह (जसे की बेरीज, मोजणी, सरासरी, कमाल आणि किमान) मायक्रोडेटामधील विशेषतांवर लागू केले जाते, परिणाम मूळ डेटा सेटमधील सर्व रेकॉर्डचे प्रतिनिधी आहे.
(2). क्रिप्टोग्राफी
क्रिप्टोग्राफी ही डिसेन्सिटायझेशनची प्रभावीता कमी करण्यासाठी किंवा वाढविण्यासाठी एक सामान्य पद्धत आहे. विविध प्रकारचे एन्क्रिप्शन अल्गोरिदम वेगवेगळे डिसेन्सिटायझेशन प्रभाव प्राप्त करू शकतात.
- निर्धारक एनक्रिप्शन: एक नॉन-यादृच्छिक सममितीय एन्क्रिप्शन. हे सहसा आयडी डेटावर प्रक्रिया करते आणि आवश्यकतेनुसार मूळ आयडीवर सिफर टेक्स्ट डिक्रिप्ट आणि पुनर्संचयित करू शकते, परंतु की योग्यरित्या संरक्षित करणे आवश्यक आहे.
- अपरिवर्तनीय एन्क्रिप्शन: हॅश फंक्शन डेटावर प्रक्रिया करण्यासाठी वापरले जाते, जे सहसा आयडी डेटासाठी वापरले जाते. ते थेट डिक्रिप्ट केले जाऊ शकत नाही आणि मॅपिंग संबंध जतन करणे आवश्यक आहे. याव्यतिरिक्त, हॅश फंक्शनच्या वैशिष्ट्यामुळे, डेटा टक्कर होऊ शकते.
- होमोमॉर्फिक एन्क्रिप्शन: सिफरटेक्स्ट होमोमॉर्फिक अल्गोरिदम वापरला जातो. त्याचे वैशिष्ट्य म्हणजे सिफरटेक्स्ट ऑपरेशनचा परिणाम डिक्रिप्शन नंतर प्लेनटेक्स्ट ऑपरेशन सारखाच असतो. म्हणून, हे सामान्यतः संख्यात्मक फील्डवर प्रक्रिया करण्यासाठी वापरले जाते, परंतु कार्यप्रदर्शन कारणांसाठी ते मोठ्या प्रमाणावर वापरले जात नाही.
(3). सिस्टम तंत्रज्ञान
दडपशाही तंत्रज्ञान गोपनीयतेच्या संरक्षणाची पूर्तता न करणाऱ्या डेटा आयटम हटवते किंवा संरक्षित करते, परंतु त्यांना प्रकाशित करत नाही.
- मास्किंग: हे गुणधर्म मूल्य मास्क करण्यासाठी सर्वात सामान्य डिसेन्सिटायझेशन पद्धतीचा संदर्भ देते, जसे की प्रतिस्पर्ध्याचा क्रमांक, आयडी कार्ड तारकाने चिन्हांकित केले आहे किंवा पत्ता कापला आहे.
- स्थानिक दडपशाही: विशिष्ट विशेषता मूल्ये (स्तंभ) हटविण्याच्या प्रक्रियेस संदर्भित करते, अनावश्यक डेटा फील्ड काढून टाकते;
- रेकॉर्ड सप्रेशन: विशिष्ट रेकॉर्ड (पंक्ती) हटविण्याच्या प्रक्रियेचा संदर्भ देते, अनावश्यक डेटा रेकॉर्ड हटवते.
(4). टोपणनाव तंत्रज्ञान
स्यूडोमॅनिंग हे डी-आयडेंटिफिकेशन तंत्र आहे जे डायरेक्ट आयडेंटिफायर (किंवा इतर संवेदनशील अभिज्ञापक) बदलण्यासाठी टोपणनाव वापरते. टोपणनाव तंत्रे प्रत्येक वैयक्तिक माहिती विषयासाठी थेट किंवा संवेदनशील अभिज्ञापकांऐवजी अद्वितीय अभिज्ञापक तयार करतात.
- मूळ आयडीशी जुळण्यासाठी, मॅपिंग टेबल सेव्ह करण्यासाठी आणि मॅपिंग टेबलवरील प्रवेशावर काटेकोरपणे नियंत्रण ठेवण्यासाठी ते स्वतंत्रपणे यादृच्छिक मूल्ये व्युत्पन्न करू शकते.
- तुम्ही छद्म नाव तयार करण्यासाठी एन्क्रिप्शन देखील वापरू शकता, परंतु डिक्रिप्शन की योग्यरित्या ठेवणे आवश्यक आहे;
या तंत्रज्ञानाचा मोठ्या प्रमाणात स्वतंत्र डेटा वापरकर्त्यांच्या बाबतीत मोठ्या प्रमाणावर वापर केला जातो, जसे की ओपन प्लॅटफॉर्म परिस्थितीमध्ये OpenID, जेथे भिन्न विकासक एकाच वापरकर्त्यासाठी भिन्न Openids प्राप्त करतात.
(5). सामान्यीकरण तंत्र
सामान्यीकरण तंत्र एक डी-आयडेंटिफिकेशन तंत्राचा संदर्भ देते जे डेटा सेटमधील निवडलेल्या गुणधर्मांची ग्रॅन्युलॅरिटी कमी करते आणि डेटाचे अधिक सामान्य आणि अमूर्त वर्णन प्रदान करते. सामान्यीकरण तंत्रज्ञान लागू करणे सोपे आहे आणि रेकॉर्ड-स्तरीय डेटाच्या सत्यतेचे संरक्षण करू शकते. हे सामान्यतः डेटा उत्पादनांमध्ये किंवा डेटा अहवालांमध्ये वापरले जाते.
- राउंडिंग: निवडलेल्या विशेषतेसाठी राउंडिंग बेस निवडणे समाविष्ट आहे, जसे की वरच्या दिशेने किंवा खाली जाणारे फॉरेन्सिक्स, परिणाम 100, 500, 1K आणि 10K.
- वरचे आणि खालचे कोडिंग तंत्र: थ्रेशोल्डच्या वरील (किंवा खाली) मूल्ये वरच्या (किंवा खालच्या) पातळीचे प्रतिनिधित्व करणाऱ्या थ्रेशोल्डसह बदला, "X वर" किंवा "X खाली" असे परिणाम मिळवून द्या.
(6). यादृच्छिकरण तंत्र
एक प्रकारचे डी-आयडेंटिफिकेशन तंत्र म्हणून, यादृच्छिकीकरण तंत्रज्ञानाचा संदर्भ यादृच्छिकीकरणाद्वारे एखाद्या गुणधर्माचे मूल्य बदलणे आहे, जेणेकरून यादृच्छिकीकरणानंतरचे मूल्य मूळ वास्तविक मूल्यापेक्षा वेगळे असेल. ही प्रक्रिया आक्रमणकर्त्याची समान डेटा रेकॉर्डमधील इतर विशेषता मूल्यांमधून विशेषता मूल्य मिळविण्याची क्षमता कमी करते, परंतु परिणामी डेटाच्या सत्यतेवर परिणाम करते, जे उत्पादन चाचणी डेटासह सामान्य आहे.
पोस्ट वेळ: सप्टेंबर-27-2022