ग्राहक मंथन: उन्हें रखने के लिए कैसे पहचानें

पनपने के लिए हर कंपनी को अपने ग्राहकों को रखने की जरूरत होती है। अभी भी वहाँ हमेशा ग्राहकों को छोड़ने के लिए तैयार हैं। ग्राहक के जोखिम प्रोफ़ाइल के आधार पर यह कम या ज्यादा गंभीर हो सकता है। फिर भी कोई अपने सभी ग्राहकों को उन्हें देखने के बजाय रखेगा। लेकिन इन ग्राहकों को बनाए रखने में सक्षम होने से पहले, किसी को उनकी पहचान करने में सक्षम होना चाहिए। और यहाँ पर एनालिटिक्स आता है।

आज की दुनिया में आपके पास एक सेवा के साथ होने वाली प्रत्येक बातचीत दर्ज की जाती है - चाहे आप किसी वेबसाइट पर लॉग इन करें या आपने एक गीत और आगे सुना। यह डेटा की एक बड़ी मात्रा का प्रतिनिधित्व करता है - जो इसे स्टोर करने के तरीके की समस्या को उठाता है। हालाँकि, एक बार यह समस्या हल हो जाने के बाद, यह कंपनी के लिए कुछ वास्तविक मूल्य का भी प्रतिनिधित्व कर सकता है क्योंकि इसमें ग्राहक के व्यवहार के बारे में बहुत सारी जानकारी होती है। इस ब्लॉग पोस्ट में, हम ग्राहकों को छोड़ने की भविष्यवाणी करने के लिए इस जानकारी का उपयोग करने के कई तरीकों में से एक को प्रस्तुत करेंगे।

ग्राहक मंथन को समझना

ग्राहक मंथन वही है जो हमने ऊपर पैराग्राफ में पेश किया है। ग्राहक मंथन तथ्य यह है कि ग्राहक एक सेवा छोड़ देते हैं। कुछ एक प्रतियोगी की ओर मुड़ सकते हैं, कुछ को अब सेवा में कोई दिलचस्पी नहीं हो सकती है।

इन ग्राहकों के जोखिम प्रोफाइल के आधार पर यह शुरुआत में बहुत गंभीर नहीं हो सकता है। हालांकि यह लंबी अवधि में खतरनाक साबित हो सकता है अगर उनकी संख्या बढ़ जाती है। यही कारण है कि हम - एक संगीत स्ट्रीमिंग सेवा प्रदाता में निर्णय लेने वाले के रूप में - उन्हें छोड़ने से रोकने की कोशिश करने के लिए शोध संभावित संभावितों की पहचान करना चाहते हैं।

ऐसा करने के लिए, हम पहले देखते हैं कि हमें क्या मिला है, हमारे पास कौन सा डेटा है और यह हमें इस समस्या को हल करने में कैसे मदद कर सकता है। अगला भाग हमारे सवालों के जवाब देने के लिए सबसे अच्छा मॉडल चुनने के लिए है - और ऐसा करने के लिए हमें "बेस्ट" मॉडल द्वारा परिभाषित करने की आवश्यकता है। एक बार हमारे पास अपना मॉडल होने के बाद, हम महत्वपूर्ण परिणामों के लिए इसे बड़े पैमाने पर तैनात करेंगे। इन परिणामों के साथ हम अंत में अपने ग्राहकों की मंथन दर को कम करने के लिए कार्रवाई करने में सक्षम होंगे।

हमारे पास कौन सा डेटा स्टोर है

आइए सबसे पहले हमारे पास मौजूद डेटा का विश्लेषण करना शुरू करें।

पूर्ण डेटासेट एक 12Gb json फ़ाइल है - जिसे केवल स्पार्क जैसे विशिष्ट उपकरण द्वारा नियंत्रित किया जा सकता है और एक क्लस्टर में वितरित कंप्यूटिंग। हमारे डेटा को पूरी तरह से समझने के लिए, हम सबसे पहले इस डेटासेट के एक सबसेट को देखेंगे - एक 128 एमबीबी डेटासेट - जिसे कई सामान्य टूल द्वारा नियंत्रित किया जा सकता है। हम कुछ खोजपूर्ण विश्लेषण करेंगे और ग्राहकों को सेवा छोड़ने के बारे में भविष्यवाणी करने के लिए प्रासंगिक चर की पहचान करने का प्रयास करेंगे।

सबसे पहले हमें अपने डेटासेट को लोड करना होगा।

तब हम अपने डेटासेट में संग्रहीत डेटा के त्वरित अवलोकन का उपयोग कर सकते हैं।

जबकि कुछ चर नाम बहुत स्पष्ट हैं - जैसे कलाकार या लिंग - ये सभी नहीं हैं। उदाहरण के लिए "पेज" कॉलम सेवा के साथ उपयोगकर्ता की बातचीत का प्रतिनिधित्व करता है - चाहे उपयोगकर्ता को कोई गीत पसंद हो या नापसंद हो या वह सेवा को उदाहरण के लिए छोड़ता हो। यह कॉलम सबसे अधिक उपयोगी होगा क्योंकि यह हमें मंथन करने वाले ग्राहकों की पहचान करने की अनुमति देता है और क्योंकि यह हमें उपयोगकर्ता और सेवा के बीच आवृत्ति और बातचीत के प्रकार के बारे में संकेत देता है - वास्तव में हम यह मान सकते हैं कि बहुत अधिक इंटरैक्शन वाला उपयोगकर्ता बल्कि है संतुष्ट और छोड़ने की संभावना नहीं है।

आइए अब डेटा के विवरण में अधिक देखें।

पहले हमें उन उपयोगकर्ताओं की पहचान करने की आवश्यकता है जो सेवा छोड़ चुके हैं - जो "पृष्ठ" कॉलम के "रद्दीकरण पुष्टि" मूल्य के माध्यम से किया जा सकता है।

अब हम इन मंथन के लिए स्पष्टीकरण की तलाश कर सकते हैं और हम उन्हें कैसे समझा सकते हैं। हमने 7 विशेषताओं की पहचान की है जो हमें विश्वास है कि यह समझा सकता है कि ग्राहक सेवा क्यों छोड़ते हैं। हमने ग्राहकों को 2 समूहों में अलग किया - एक जिन्होंने सेवा और अन्य को छोड़ दिया - उन मतभेदों को खोजने के लिए जो मंथन की व्याख्या कर सकते थे।

1. सेवा के साथ बातचीत

पहला चर जो हम देखते हैं, वह उपयोगकर्ताओं और उनकी सेवा के बीच की बातचीत के बारे में था - "पृष्ठ" चर। हमने प्रत्येक सहभागिता के लिए ग्राहकों के व्यवहार का प्रतिनिधित्व करने के लिए बॉक्सप्लेट्स का उपयोग किया। हमने बॉक्सप्लेट का उपयोग किया क्योंकि यह किसी दिए गए वितरण के लिए न्यूनतम, चतुर्थक और अधिकतम की कल्पना करने में मदद करता है।

इन बॉक्सप्लॉट्स से, हम निम्नलिखित बातचीत में दो समूहों के बीच महत्वपूर्ण अंतर देख सकते हैं:

- दोस्त जोड़ें

- प्लेलिस्ट में जोड़ें

- मदद

- घर

- लॉग आउट

- अगला गीत

- थम्स अप

वास्तव में ये इंटरैक्शन - लॉगआउट इंटरैक्शन को छोड़कर - उन ग्राहकों से जुड़े हो सकते हैं जो अपनी प्रोफ़ाइल को बढ़ाते हैं ताकि हम यह मान सकें कि वे सेवा से खुश हैं।

2. ग्राहकों का लिंग

यह पुरुषों की तुलना में महिलाओं की तुलना में थोड़ा अधिक संभावना है।

3. औसत संगीत खेलने का समय

कुल संगीत प्ले समय के बीच का अनुपात अनुमानित रूप से 5.3 है जबकि लोगों की संख्या का अनुपात ग्राहक के पक्ष में 3.3 है जो सेवा में रहे। वास्तव में यह स्पष्ट है कि जब भी कोई उपयोगकर्ता बहुत अधिक संगीत सुनता है, तो इसका मतलब है कि वह इस सेवा से संतुष्ट है और इस प्रकार उसे छोड़ने की संभावना नहीं है।

4. पेड अकाउंट बनाम फ्री अकाउंट

यह अंतिम ज्ञात स्तर का प्रतिनिधित्व है - जिसका अर्थ है कि या तो अंतिम बार उन्होंने सेवा के साथ बातचीत की या जब भी उन्होंने सेवा को छोड़ा।

ऐसा लगता है कि भुगतान किए गए उपयोगकर्ता मुक्त उपयोगकर्ताओं की तुलना में अधिक होने की संभावना है - क्योंकि उन्हें उदाहरण के लिए एक सस्ता प्रतियोगी मिल सकता है। हालाँकि हमें इस संख्या से सावधान रहना चाहिए। वास्तव में यह संभव है कि एक नाखुश भुगतान वाला ग्राहक इसे रद्द करने से पहले अपनी सेवा को डाउनग्रेड करने के लिए पहले चुने - जिसका अर्थ होगा कि नि: शुल्क खातों का अनुमान है। फिर भी यह एक सूचना है जिसे हमारे मॉडल में रखा जाना चाहिए। अपनी सेवा को डाउनग्रेड करने वाले ग्राहक की पहचान करना भी एक अन्य अध्ययन का विषय हो सकता है और हमारे मॉडल को बेहतर बनाने का एक तरीका हो सकता है।

5. समय चर: पंजीकरण के बाद से दिनों की संख्या, मुफ्त या भुगतान किए गए ग्राहक के रूप में दिनों की संख्या

अंत में हम समय चर ts में देखें। इसके साथ हम 3 और चर निकालने में सक्षम हो गए हैं: पंजीकरण के बाद के दिनों की संख्या, मुफ्त ग्राहक के रूप में दिनों की संख्या और भुगतान किए गए ग्राहक के रूप में दिनों की संख्या। इन चरों के बॉक्सप्लॉट हमें दिखाते हैं कि वे वास्तव में हमारे मॉडल के लिए प्रासंगिक हैं।

पंजीकरण के बाद से दिनों की संख्या:

जाहिर है, आप जितने लंबे समय तक रहेंगे, आप सेवा से जितने खुश रहेंगे और उतनी ही कम संभावना रहेगी।

भुगतान किए गए उपयोगकर्ता के रूप में दिनों की संख्या:

एक बार फिर से यदि आप सेवा के लिए भुगतान करते रहते हैं, तो इसका मतलब है कि आप इससे खुश हैं और आपको पद छोड़ने की संभावना नहीं है।

मुफ्त उपयोगकर्ता के रूप में दिनों की संख्या:

इस बार दोनों समूहों के बीच अंतर कम महत्वपूर्ण है। फिर भी अगर कोई अधिक समय तक रहता है तो इसका मतलब है कि कोई खुश है और छोड़ने की संभावना नहीं है।

अब जब हमें अपने व्याख्यात्मक चर मिल गए हैं, तो हम देख सकते हैं कि हमें किस मॉडल का उपयोग करना चाहिए।

कौन सा मॉडल सबसे अच्छा है

मॉडलिंग प्रक्रिया के विवरण में गोता लगाने से पहले, हमें पहले खुद से पूछना चाहिए कि हम अपने मॉडल की अच्छाई का मूल्यांकन कैसे कर सकते हैं।

हमारे अध्ययन का लक्ष्य मंथन किए जाने वाले ग्राहक की पहचान करने में सक्षम होना है। पहला कदम उन ग्राहकों की पहचान करने में सक्षम होगा जिन्होंने हमारे डेटासेट में मंथन किया था - इसलिए सटीक मीट्रिक एक अच्छे उम्मीदवार की तरह दिखता है।

फिर भी हम सभी ग्राहकों को मंथन करने वाले ग्राहक के रूप में पहचान सकते हैं ताकि कोई छूट न जाए - लेकिन क्या हम वास्तव में ऐसा चाहते हैं?

आइए याद रखें कि हम मंथन किए गए उपयोगकर्ताओं की पहचान करना चाहते हैं ताकि हम कार्रवाई कर सकें - जैसे उन्हें छोड़ने से रोकने के लिए प्रोत्साहन या छूट देना। यदि हम हर उपयोगकर्ता को संभावित मंथन करने वाले उपयोगकर्ता के रूप में पहचानते हैं, तो हम जो कार्य कर सकते हैं, उसकी कीमत बहुत अधिक होगी। इस प्रकार मुझे याद करने की परवाह करनी चाहिए - जो वफादार ग्राहकों को संभावित मंथन किए गए ग्राहकों के रूप में पहचानना नहीं है।

यही कारण है कि हमने एफ 1 स्कोर को अपनी अच्छाई मीट्रिक के रूप में उपयोग करने के लिए चुना - क्योंकि यह सटीकता और रिकॉल स्कोर के बीच संतुलन है।

अब हम मॉडलिंग प्रक्रिया के लिए आगे बढ़ सकते हैं।

हमने 3 अलग-अलग मॉडलों की तुलना करना चुना: एक लॉजिस्टिक रिग्रेशन मॉडल, एक यादृच्छिक वन क्लासिफायर मॉडल और एक ग्रेडिएंट बूस्टिंग क्लासिफायर मॉडल। हमने प्रतिगमन प्रक्रिया के साथ प्रतिगमन मॉडल और यादृच्छिक वन क्लासिफ़ायर के मापदंडों को अनुकूलित करने का भी प्रयास किया।

इस सबने हमें निम्नलिखित परिणाम दिए:

तो अंतिम रूप से यह यादृच्छिक वन वर्गीकरण था जो एफ 1 स्कोर के अनुसार हमारे कार्य के लिए सबसे अच्छा मॉडल साबित हुआ।

हम उन विशेषताओं के महत्व को भी देख सकते हैं जिन्हें हमने चुना था:

इसलिए सबसे महत्वपूर्ण विशेषताएं पंजीकरण के बाद के दिनों की संख्या है - जो कि काफी तर्कपूर्ण है - और अगले दिन मुफ्त ग्राहक के रूप में और भुगतान किए गए ग्राहक के रूप में दिनों की संख्या आती है। हम अभी भी इन दोनों के बारे में और अधिक विवरण देना चाह सकते हैं क्योंकि ग्राहक अपनी सेवा को अपग्रेड करते हैं।

दूसरी ओर यह स्तर जैसा दिखता है और लिंग हमारे मॉडल के लिए बहुत उपयोगी नहीं हैं। जेंडर वैरिएबल के लिए, हमने देखा कि पुरुषों और महिलाओं के बीच अंतर छोटा था, लेकिन हमने इसे केवल मामले में ही रखा। स्तर चर के लिए, हम यह सोच सकते हैं कि जानकारी पहले से ही मुफ्त या भुगतान किए गए ग्राहक की संख्या से संबंधित चर में है।

अब हमारे अध्ययन का अंतिम चरण पूर्ण डेटासेट पर मॉडल को तैनात करना है।

और पूर्ण डाटासेट के बारे में क्या

हम फीचर इंजीनियरिंग के पुराने चरणों को नहीं दोहराएंगे और अपने मॉडल का निर्माण करेंगे। हम सीधे परिणाम देखेंगे।

हमारे पूर्ण डेटासेट पर हमारे यादृच्छिक वन क्लासिफायर का F1 स्कोर 0.82 है - और मिनी डेटासेट के साथ स्कोर की तुलना में इसमें सुधार हुआ है।

मंथन किए गए ग्राहकों में से लगभग 40% की सही पहचान की गई थी, लेकिन केवल गैर-छोड़ने वाले ग्राहकों में से 3% को मंथन ग्राहक के रूप में गलत तरीके से पहचाना गया था।

इसलिए कुल मिलाकर मॉडल का निर्माण अच्छा था क्योंकि हम मंथन किए गए ग्राहक के अच्छे अनुपात की पहचान करने में सक्षम थे और हमारी आबादी अच्छी तरह से लक्षित थी।

अगला कदम: हम क्या कार्रवाई कर सकते हैं

अब जबकि हमारे पास एक मॉडल है जो सही ढंग से ग्राहक की पहचान कर सकता है जो सेवा छोड़ने की संभावना रखते हैं, हम अपने दिमाग को उन कार्यों के लिए सेट कर सकते हैं जिन्हें हम अपने पोर्टफोलियो में रखने के लिए ले सकते हैं।

सुविधाओं के महत्व के विश्लेषण के अनुसार, पंजीकरण के बाद सबसे महत्वपूर्ण समय बीत चुका है। इसलिए हम विस्तारित समय के लिए पंजीकृत ग्राहकों के लिए इनाम की एक प्रणाली का निर्माण कर सकते हैं।

हम मुक्त ग्राहकों को भी लक्षित करना चाहते हैं। हम उन्हें प्रीमियम के विकल्प मुफ्त में दे सकते हैं, ताकि वे लंबे समय तक पंजीकृत रहें। इस प्रकार उन्हें भुगतान किए गए ग्राहक बनने के लिए लुभाया जा सकता है, या वे अगले प्रीमियम विकल्प को आज़माने के लिए बस मुक्त ग्राहक के रूप में लंबे समय तक रह सकते हैं।

मुझे उम्मीद है कि आपको यह पोस्ट पढ़ने में उतना ही मज़ा आया होगा, जितना मुझे इसे लिखने में मज़ा आया।

साथ में हम संगीत स्ट्रीमिंग सेवाओं से ग्राहक मंथन की पहचान करने के लिए एंड-टू-एंड मशीन लर्निंग वर्कफ़्लो का निर्माण करते हैं। डेटासेट के आकार के कारण, हमें स्पार्क - एक बड़े डेटा विश्लेषण ढांचे का उपयोग करना पड़ा। हम विभिन्न विशेषताओं या अलग-अलग मॉडल का उपयोग कर सकते थे, लेकिन हमारे पास हमारे पास मौजूद स्रोतों को भी ध्यान में रखना था।

महत्वपूर्ण बात यह है कि हम अपने मूल प्रश्न का उत्तर देने में सक्षम थे - जो हमारे द्वारा बनाए गए प्रत्येक मॉडल का लक्ष्य होना चाहिए।