मॉडलिंग के लिए सबसे कठिन चुनौतियों में से एक यह तय करना है कि चरम डेटा बिंदुओं से कैसे (या यदि) निपटना है। यह आर्थिक और वित्तीय संख्या में एक आम समस्या है। उदाहरण के लिए, स्टॉक मार्केट रिटर्न में फैट टेल डिस्ट्रीब्यूशन मानक किराया है। इस बीच, पिछले साल महामारी के दौरान अर्थव्यवस्था में नाटकीय गिरावट एक अनुस्मारक है कि आउटलेयर मैक्रो एनालिटिक्स में भी पॉप अप करते हैं।
यह प्रश्न की ओर जाता है: क्या करना है? कई उत्तर हैं, जो डेटा सेट और विश्लेषणात्मक लक्ष्यों के आधार पर भिन्न होते हैं। प्रतिगमन विश्लेषण में अक्सर समस्या उत्पन्न होती है, जो कई मॉडलिंग अनुप्रयोगों की नींव है। एक समाधान यह है कि मानक रैखिक प्रतिगमन को हटा दिया जाए और इसे मात्रात्मक प्रतिगमन के साथ बदल दिया जाए, जो चरम डेटा बिंदुओं के लिए कम असुरक्षित है।
इन प्रतिगमनों में क्या अंतर है? रैबिट होल के बहुत नीचे जाने के बिना, रैखिक प्रतिगमन (LR) डेटा को मॉडल करने के लिए सशर्त माध्य की गणना करने के लिए कम से कम वर्ग पद्धति का उपयोग करता है। क्वांटाइल रिग्रेशन (QR) सशर्त माध्यिका (या कोई अन्य क्वांटाइल, या क्वांटाइल, जिसे आप चुनते हैं) का अनुमान लगाते हैं। यह क्यूआर को एलआर पर कई फायदे देता है, जिसमें आउटलेर्स का सामना करते समय उच्च स्तर की स्थिरता शामिल है।
एक साधारण उदाहरण के रूप में, संख्याओं के दो सेटों पर विचार करें - डेटा ए और डेटा बी। ये अपेक्षाकृत अच्छी तरह से व्यवहार किए गए डेटा सेट हैं और इसलिए अपेक्षाकृत स्पष्ट, तंग संबंध है। नतीजतन, रैखिक और मात्रात्मक प्रतिगमन चलाने से समान परिणाम मिलते हैं। (नोट: क्यूआर मॉडल इस उदाहरण में माध्यिका मात्रा का उपयोग करता है।)
लेकिन यह एक और कहानी है जब हम नीचे दिए गए अगले चार्ट में लाल रंग में दिखाए गए कुछ बाहरी डेटा बिंदु जोड़ते हैं। प्रतिगमन को फिर से चलाने से पता चलता है कि LR परिणाम काफी हद तक शिफ्ट होते हैं - धराशायी हरी रेखा (बाहरी डेटा के साथ LR) बनाम ठोस हरी रेखा (बाहरी डेटा के बिना LR) द्वारा इंगित किया जाता है। तुलना करके, दो मात्रात्मक प्रतिगमन अनिवार्य रूप से अपरिवर्तित हैं, जो इंगित करता है कि परिणामों पर आउटलेर्स का बहुत कम प्रभाव पड़ता है। (हां, दो क्यूआर रिग्रेशन लाइनों को देखना मुश्किल है क्योंकि वे अनिवार्य रूप से समान हैं।)
QR में अधिक मजबूत परिणाम चरम घटनाओं को वित्तीय और आर्थिक मॉडलिंग प्रयासों में कहर पैदा करने से रोकने के लिए एक शक्तिशाली तरीके का प्रतिनिधित्व करते हैं। यह दुनिया में एक विशेष रूप से उपयोगी उपकरण है जहां आर्थिक और वित्तीय डेटा वितरण में वसा पूंछ की सुविधा है।
QR का एक अन्य लाभ, जिसे मैं आगामी पोस्ट में विस्तार से बताऊंगा, विभिन्न मात्राओं में प्रतिगमन की गणना करने की क्षमता है, जो मॉडलिंग के साथ एक व्यापक, अधिक लचीला प्रोफाइलिंग एप्लिकेशन प्रदान करता है।
अभी भी ऐसे मामले हैं जब एक बुनियादी रैखिक प्रतिगमन का उपयोग करना समझ में आता है। अच्छी खबर यह है कि विकल्प हैं, और क्वांटाइल रिग्रेशन शॉर्ट लिस्ट में है।