डेटा क्यूए: आपको इसकी आवश्यकता क्यों है और इसे कैसे करना है

अनुभवी डेटा पेशेवर (डेटा वैज्ञानिक, डेटा विश्लेषक, डेटा इंजीनियर, आदि) "कचरा बाहर, कचरा बाहर" कहावत से परिचित होंगे। सीधे शब्दों में कहें, खराब डेटा पर शोध को आधार बनाकर बुरा निष्कर्ष निकाला जाएगा। इससे बचने के लिए, यह महत्वपूर्ण है कि, कुछ और करने से पहले, डेटा वैज्ञानिकों को पहले उस डेटा को जानना चाहिए जो वे देख रहे हैं।

एक डाटासेट के साथ गहरी परिचितता प्राप्त करना इस समझ के साथ शुरू होता है कि, उन तक पहुंचने से पहले, डाटासेट पहले से ही एक विस्तृत यात्रा से गुजरता है। इस प्रकार, अपना शोध शुरू करने से पहले, डेटा पेशेवरों को उस यात्रा के हर पहलू को समझना चाहिए।

डेटा QA का पहला चरण डेटा एकत्रित करने की प्रक्रिया को समझना है। यह अंत करने के लिए, कुछ डेटा डेटा वैज्ञानिकों को पहले पूछने की आवश्यकता होगी:

● यह डेटा कैसे इकट्ठा या बनाया गया था?

क्या यह एक प्रणाली द्वारा बनाया गया था जो डेटा, या एक सर्वेक्षण में प्रवेश करता है? क्या इसकी रचना किसी निश्चित उपकरण द्वारा की गई थी? यदि ऐसा है, तो डिवाइस स्वचालित रूप से या मैन्युअल रूप से चलता है? क्या डेटा संग्रहण अवधि के दौरान सिस्टम बगआउट जैसे किसी भी कीड़े या अन्य मुद्दे थे?

● इस बिंदु तक डेटा को किसने संभाला?

क्या अब तक किसी भी फ़िल्टर को लागू करने तक लोगों ने डेटा का प्रबंधन किया था? क्या उन्होंने प्रासंगिक उपलब्ध स्रोतों के एक हिस्से से केवल डेटा एकत्र करके या प्रासंगिक होने वाले डेटा को समाप्त करके किसी भी पूर्वाग्रह का परिचय दिया? क्या कोई डेटा है जो मैं नहीं देख रहा हूं?

● क्या डेटा में कोई फ़िल्टर है?

डेटा संग्रह प्रक्रिया में अनजाने में कुछ फ़िल्टर हो सकते हैं यदि, उदाहरण के लिए, सभी डेटा संग्रह विधियों या उपकरणों को समान रूप से नियोजित नहीं किया गया था।

आपके द्वारा प्राप्त किया गया डेटा संग्रह के पहले चरण में फ़िल्टर किया जा सकता है।

इससे पहले कि वे अपना शोध शुरू करें, डेटा वैज्ञानिकों को दो चीजों के बारे में निश्चित होना चाहिए: क्या कोई ऐसा डेटा है जो वे गायब हैं, और क्या वे जिस डेटा का निरीक्षण कर रहे हैं, उसमें कोई बदलाव आया है या नहीं।

जब वे यात्रा के बारे में स्पष्ट हो जाते हैं, तो डेटासेट और किसी भी फ़िल्टर या पूर्वाग्रह को उजागर कर दिया जाता है, डेटा पेशेवर डेटा QA करना शुरू कर सकते हैं। यह आलेख डेटा QA: Apriori डेटा सत्यापन और सांख्यिकीय डेटा सत्यापन के दो चरणों को निष्पादित करने के लिए सामान्य दिशानिर्देश प्रदान करता है। अनुसंधान शुरू करने से पहले इन डेटा क्यूए चरणों को निष्पादित करना महत्वपूर्ण है। एक ठोस डेटा QA प्रक्रिया के माध्यम से, डेटा वैज्ञानिक यह सुनिश्चित कर सकते हैं कि वे जिस आधार पर अपने शोध को आधार बनाते हैं वह ध्वनि है।

एप्रीओरी डेटा वैलिडेशन

एप्रीओरी डेटा वैलिडेशन डेटा में सभी क्षेत्रों की समीक्षा करने और उन नियमों और शर्तों को तैयार करने की प्रक्रिया का वर्णन करता है जो एक डेटासेट में मौजूद नहीं हो सकते हैं जिन पर आप भरोसा कर सकते हैं।

उदाहरण के लिए, एक विज्ञापन से रूपांतरण दर्शाने वाला डेटासेट, जहाँ रूपांतरण होने के लिए एक क्लिक आवश्यक है। यह स्थिति रूपांतरण कॉलम और क्लिक कॉलम के बीच संबंध को परिभाषित करती है। चूँकि रूपांतरण क्लिक के बिना मौजूद नहीं हो सकता है, रूपांतरण के लिए TRUE एक ही पंक्ति में एक क्लिक के लिए FALSE मान के साथ दिखाई नहीं दे सकता है।

डेटा पेशेवरों को एक डेटासेट की जांच करने और बहुत विस्तृत तरीके से वर्णन करने में सक्षम होना चाहिए, विभिन्न स्तंभों और पंक्तियों के बीच के रिश्ते। उन्हें उन नियमों की सख्त पहचान करनी चाहिए, जो इन आंकड़ों को भरोसेमंद समझा जाना चाहिए।

एक अन्य उदाहरण के रूप में, शहर के लिए एक क्षेत्र और राज्य के लिए एक क्षेत्र के साथ एक डेटासेट पर विचार करें। यदि डेटासेट में LA और NY हैं, तो इसका कोई मतलब नहीं है। राज्य क्षेत्र में एक राज्य होना चाहिए, और संबंधित शहर के क्षेत्र के भीतर इंगित शहर वास्तव में उस राज्य के भीतर मौजूद होना चाहिए। एक नियम इसलिए तदनुसार परिभाषित किया जाना चाहिए।

अतार्किक आंकड़ों के उदाहरण।

उनके सामने निर्धारित जानकारी की सावधानीपूर्वक जांच के माध्यम से, डेटा पेशेवरों को यह सुनिश्चित करने के लिए आवश्यक प्रश्न और उत्तर तैयार करने में सक्षम होना चाहिए कि वे जिस डेटा को देख रहे हैं, उसे अनुसंधान के लिए भरोसा किया जा सकता है। लेकिन एक डेटा वैज्ञानिक को कैसे पता चलेगा कि कौन से प्रश्न पूछने हैं? जवाब आसान है: उनका होमवर्क करो!

शुरू करने के लिए एक अच्छी जगह है कॉलम द्वारा डेटा कॉलम को देखना और उनमें से प्रत्येक के बीच के रिश्तों पर विचार करना। डेटा वैज्ञानिकों को यह विचार करना चाहिए कि एक कॉलम को एक इकाई के रूप में देखा जा सकता है - डेटा का एक टुकड़ा जो साथी कॉलम के एक समुदाय में रहता है। एक पंक्ति, एक इकाई के रूप में, उसके स्तंभों की जानकारी का योग है और उनके बीच संबंध भी है। डेटा पेशेवरों को यह सुनिश्चित करने की आवश्यकता है कि वे इन समुदायों में सबसे छोटे घटक के साथ शुरू करते हैं, एकल मूल्य, और धीरे-धीरे ज़ूम आउट करें और दूसरे "परमाणुओं" के लिए अपने रिश्ते को मैप करें - अन्य कॉलमों में मान, जो सभी मिलकर एक "अणु बनाते हैं।" “यह पंक्ति ही है।

Apriori Data Validation करते समय विचार करने के लिए यहाँ कुछ नियम दिए गए हैं:

● एक कॉलम में केवल अपरकेस या लोअरकेस अक्षर होने चाहिए

● किसी कॉलम का मान ए में मूल्य से अधिक या छोटा होना चाहिए। संबद्ध स्तंभ

● एक कॉलम में कुछ मान या वर्ण नहीं हो सकते हैं

● एक कॉलम में एक विशिष्ट लंबाई का मान होना चाहिए

Apriori Data Validation के दौरान पूछे जाने वाले प्रश्न भी शामिल हैं:

● क्या कोई ऐसे लापता मूल्य हैं जहां लापता मूल्य नहीं होना चाहिए?

● क्या डेटा में वे सभी फ़ील्ड्स शामिल हैं जिनकी हम अपेक्षा करेंगे?

● क्या समय पर विभिन्न बिंदुओं पर समान मात्रा में डेटा प्रदान करने वाले डेटा पर टाइमस्टैम्प मान्य हैं? यदि नहीं, तो क्या उस व्यवहार को समझाया जा सकता है?

● क्या मूल्यों का पैमाना समझ में आता है? उदाहरण के लिए, यदि एक कॉलम को शून्य और तीस के बीच केवल मान दिखाना चाहिए, तो क्या उस सीमा के बाहर कोई मान हैं?

● क्या किसी क्षेत्र में डुप्लिकेट होते हैं जहां कोई डुप्लिकेट मौजूद नहीं होना चाहिए?

यदि संभव हो तो, डेटा पेशेवरों को उन आंकड़ों की भी तुलना करनी चाहिए जो उनके पास जमीनी सच्चाई के साथ हैं - प्रत्यक्ष अवलोकन द्वारा प्रदान की गई जानकारी। उदाहरण के लिए, यदि किसी कंपनी के पास किसी उपयोगकर्ता के डिवाइस के जीपीएस तक सीधी पहुंच है, तो कंपनी को यह सत्यापित करने में सक्षम होना चाहिए कि उपयोगकर्ता ने उपयोगकर्ता के भीतर संकेत के रूप में एक निश्चित स्थान का दौरा किया है या नहीं।

यदि, Apriori डेटा सत्यापन के दौरान, डेटा किसी भी परीक्षण में विफल रहता है, तो डेटा पेशेवर को डेटा स्वामी को सूचित करना चाहिए और अपने शोध के लिए इस डेटा पर भरोसा करने से पहले समस्या को हल करना चाहिए। हालांकि यह परिस्थिति अच्छी खबर और बुरी खबर दोनों है (डेटा पर भरोसा नहीं किया जा सकता है, लेकिन बग का पता चला है), यह समझकर कि डेटा परीक्षण में विफल क्यों हुआ है, आगे की समस्याओं को हल करने में मदद करेगा, जो अन्यथा पता नहीं लग सका है। ।

सांख्यिकीय डेटा सत्यापन

डेटा क्यूए, सांख्यिकीय डेटा सत्यापन के दूसरे चरण में, डेटा पेशेवरों को यह सत्यापित करना होगा कि वे जो डेटा देखते हैं, वे मैच के लिए वे क्या देखने की उम्मीद करेंगे। इस सूक्ष्म प्रक्रिया में हर चीज पर सवाल उठाना शामिल है। डेटा वैज्ञानिकों को कुछ भी नहीं लेना चाहिए जैसा कि वे हैं - उन्हें विचार करना चाहिए, उदाहरण के लिए, क्या वे जिस डेटा को देख रहे हैं वह उनके अंतर्ज्ञान और विशेषज्ञता के अनुरूप है, और क्या यह अन्य डेटासेट के साथ-साथ उनके हाथ में समझ में आता है।

सांख्यिकीय डेटा सत्यापन में, डेटा वैज्ञानिक अपने डोमेन ज्ञान और सिस्टम के अपने ज्ञान का उपयोग डेटा को वास्तव में अलग करने के लिए करते हैं और इसके पीछे "क्यों" समझते हैं। हम सलाह देते हैं कि वे जिन स्थितियों को खोजने की उम्मीद करेंगे, उन्हें लिखकर शुरू करें। उदाहरण के लिए, यदि आपका सिस्टम प्रतिदिन एक मिलियन उपयोगकर्ताओं की सेवा करता है, तो आप उस राशि के पड़ोस में होने वाले डेटा में परिलक्षित दैनिक गणना की अपेक्षा करेंगे। यदि डेटा किसी दिए गए महीने में केवल 100,000 उपयोगकर्ताओं को इंगित करता है, तो यह एक समस्या का संकेत देगा जो सांख्यिकीय डेटा सत्यापन के दौरान उजागर किया जाएगा लेकिन Apriori डेटा सत्यापन के दौरान नहीं।

सांख्यिकीय डेटा सत्यापन के दौरान खोजी जाने वाली स्थितियों के अतिरिक्त उदाहरणों में शामिल हैं:

● टाइमस्टैम्प: क्या डेटा उस समय सीमा को दर्शाता है जिसे आप देखना चाहते हैं? उदाहरण के लिए, यदि आप आइसक्रीम की खपत को माप रहे हैं और आपका डेटा सर्दियों के महीनों के दौरान पूर्वी तट से जानकारी दिखाता है, तो यह आपके परिणामों को कम कर सकता है। आखिरकार, ज्यादातर लोग -10 डिग्री के मौसम में वास्तव में आइसक्रीम कोन के लिए जाएंगे?

● बाहरी मूल्य: क्या वे वास्तविक हैं? वे डेटा में क्यों मौजूद हैं? उदाहरण के लिए, मान लें कि आपके पास पांच मशीनें हैं जो तापमान रिकॉर्ड करती हैं, जहां सेल्सियस में चार रिकॉर्ड तापमान जबकि फारेनहाइट में पांचवीं मशीन रिकॉर्ड करती है। आपका डेटा तब "32, 32, 104, 33, 32" दिखा सकता है। बाह्य मान बताता है कि इस डेटासेट में कुछ को संबोधित करने की आवश्यकता है। ध्यान दें कि 99% समय, एक डेटासेट में कुछ बाह्य मूल्य शामिल होंगे। यदि आपका नहीं है, तो आपको खेलने में किसी प्रकार के मुद्दे पर संदेह करना चाहिए।

● डेटा की मात्रा: क्या इसका कोई मतलब है? क्या पंक्तियों की संख्या, अद्वितीय उपयोगकर्ता, शहर आदि मेल खाते हैं जो आप खोजने की उम्मीद करेंगे? दूसरे शब्दों में, विभिन्न शहरों के लिए देखे गए डेटा का अनुपात उन शहरों में अलग-अलग आबादी को दर्शाता है। यदि कोई शहर खत्म हो गया है या कम प्रतिनिधित्व है, तो क्या आप उसके लिए जिम्मेदार हो सकते हैं?

शिकागो में उपयोगकर्ताओं की संख्या उनके आकार के सापेक्ष अन्य शहरों की तुलना में बहुत बड़ी है।

जैसा कि उल्लेख किया गया है, सांख्यिकीय डेटा सत्यापन के लिए डोमेन ज्ञान के साथ-साथ सिस्टम का ज्ञान भी आवश्यक है। डोमेन ज्ञान प्रकट कर सकता है, उदाहरण के लिए, कि क्या उपयोगकर्ता के डेटासेट की एक विशिष्ट समय सीमा के लिए डेटासेट में संकेत दिया जा रहा है, जो वास्तव में सामान्य या अपेक्षित सीमा के भीतर है। एक अन्य उदाहरण के रूप में, यदि आप एक विज्ञापन कंपनी हैं, तो आपने कितने विज्ञापन दिखाए हैं, इसके लिए आपको बॉलपार्क का पता होना चाहिए। यदि आप केवल एक हजार अलग-अलग प्रकाशकों के डेटा देखते हैं, लेकिन आप जानते हैं कि आपको सैकड़ों लाखों लोगों के डेटा को देखना चाहिए, तो डेटा में कुछ गड़बड़ है।

आपको सत्यापन परीक्षण के परिणामों का इलाज कैसे करना चाहिए?

सांख्यिकीय डेटा सत्यापन के लिए जो अपेक्षित है उसकी समझ महत्वपूर्ण है। किसी कॉलम के वर्णनात्मक आंकड़ों की गणना पहले बिना कुछ अंतर्ज्ञान के जो आप खोजने की उम्मीद करेंगे, वह आपको जो कुछ भी मिलेगा उसे उचित ठहराने के ज्ञात पूर्वाग्रह तक ले जा सकता है। यह सही दृष्टिकोण नहीं है। आदर्श रूप से, डेटा पेशेवर को इस बात का अंदाजा होगा कि वे क्या खोजने की उम्मीद करते हैं, और डेटासेट को उस उम्मीद के साथ संरेखित करना चाहिए। यदि ऐसा नहीं होता है, तो आपको विपरीत के बारे में उत्सुक होना चाहिए; क्या यह मौजूद है क्योंकि आपकी उम्मीदें बंद थीं, या आपने डेटा में कुछ दोषपूर्ण खुलासा किया है?

यह समझना भी महत्वपूर्ण है कि कितनी पंक्तियों में समस्याग्रस्त डेटा है। यदि ऐसी कुछ पंक्तियाँ हैं, तो यह इन त्रुटियों पर विचार करने और उन्हें सही करने के लायक नहीं हो सकती है, क्योंकि यह अपेक्षाकृत कम मात्रा में डेटा है। डेटा के साथ समस्याओं का पता लगाना आम है; कोई भी खोज लगभग असंभव है।

विशेष रूप से, यदि डेटा सही दिखता है, तो किसी प्रकार के मुद्दे पर संदेह करना बुद्धिमानी होगी। यदि कोई डेटा आउटलेर और / या नल नहीं हैं, तो आपको यह देखना चाहिए कि डेटा को पहले चरण में साफ किया गया है या नहीं। इस तरह की सफाई प्रक्रिया में डेटा में शोर और अवांछित पक्षपात शामिल हो सकते हैं।

निष्कर्ष

जब आप हमारे द्वारा उल्लिखित डेटा QA प्रक्रिया को कार्यान्वित करते हैं, तो आप डेटा लेखन प्रक्रिया में मौजूद बगों की संख्या से चकित हो जाएंगे जिन्हें आपने कभी देखा भी नहीं है। इन बगों के कारण कई लोग परिणाम देने में विफल होते हैं; यह खराब मॉडल चयन या खराब सुविधा इंजीनियरिंग के कारण नहीं है। ऐसा इसलिए है क्योंकि डेटा QAing की महत्वपूर्ण प्रक्रिया को अनदेखा कर दिया गया था।

लेकिन मामले का तथ्य यह है, जबकि डेटा क्यूए बहुत महत्वपूर्ण है, यह थकाऊ, समय लेने वाली और त्रुटि-प्रवण भी है। प्रासंगिक प्रश्न पूछना और संबंधित विवरणों को याद रखना आसान है।

यहां तक ​​कि ऐसे मामलों में जहां आप पाते हैं कि आपका डेटा पक्षपाती है और इसमें त्रुटियां हैं, इसका मतलब यह नहीं है कि इसका उपयोग नहीं किया जा सकता है। इसका मतलब है कि डेटा पेशेवर को पूर्वाग्रहों और त्रुटियों के बारे में पता होना चाहिए और यह समझना चाहिए कि शोध के परिणाम केवल उस संदर्भ के लिए प्रासंगिक हैं जिसमें शोध किया गया था। उदाहरण के लिए, यदि एक प्रारंभिक फ़िल्टर किया जाता है और शेष डेटा किसी विशेष देश का है, तो अध्ययन के परिणाम केवल उस देश के लिए प्रासंगिक होंगे और अन्य देशों में जो सत्य है, उसे समर्पित करते हुए दिए गए डेटासेट के साथ यह संभव नहीं है।

किसी एक देश के डेटा पर आधारित एक अध्ययन के निष्कर्ष केवल उस देश के लिए प्रासंगिक होंगे।

डेटा QAing में शामिल सभी काम और अज्ञात के प्रकाश में, हमने एक उपकरण विकसित किया है जो आपके लिए बहुत से काम को स्वचालित करता है। हम डेटा को बहुत गंभीरता से लेते हैं, और हमारा टूल इस संभावना को समाप्त कर देता है कि कोई भी शोध खराब डेटा पर आधारित होगा। हमारा डेटा QA टूल प्रत्येक डेटासेट को स्कैन करता है और सभी त्रुटियों की रिपोर्ट करता है जो इसे खोलती है। इसके साथ, हम यह सुनिश्चित करने में सक्षम हैं कि हम ठोस, भरोसेमंद डेटा पर आधारित अनुसंधान और निष्कर्षों के साथ "कचरा में कचरा," से बचें।

उपयोगी कड़ियाँ

पांडा-प्रोफाइलिंग - पांडा डेटा प्रोफाइल वस्तुओं से प्रोफाइलिंग रिपोर्ट

स्पार्क-डीएफ-प्रोफाइलिंग - अपाचे स्पार्क डेटाफ्रेम से प्रोफाइलिंग रिपोर्ट

यह ब्लॉग पोस्ट मूल रूप से Bigabid ब्लॉग के लिए लिखा गया था और यहाँ उपलब्ध है

यह सभी देखें

मैं अपनी वेबसाइट www.khonapana.com को भारत में कैसे लोकप्रिय बना सकता हूं? मैं अपनी मौजूदा वेबसाइट को अपडेट करने के लिए कैसे मदद करूं जो एक अन्य वेब फर्म ने बनाई है? एफिलिएट मार्केटिंग में बिना वेबसाइट के मैं हर महीने $ 5000 कैसे कमा सकता हूँ? मैं Quora और YouTube से सबसे आसान तरीका पैसे कैसे कमाऊँ? मैं अपनी स्टार्ट-अप कंपनी के लिए वेब डिजाइनिंग प्रोजेक्ट्स के लिए वास्तविक लीड कैसे प्राप्त करूं? एक टिकट के लिए भुगतान कैसे करें यदि आप इसे खो देते हैंआपने प्रोग्रामिंग कैसे सीखी और एक मजबूत सॉफ्टवेयर इंजीनियर बनने में किस एक गतिविधि ने आपकी मदद की? मैं 6 महीने में $ 500 को $ 10,000 में कैसे बदल सकता हूं?