ट्रंप के भाषण से US स्टॉक फ्यूचर्स स्थिर, Nvidia की कमाई पर फोकस
मॉडलिंग के लिए सबसे कठिन चुनौतियों में से एक यह तय करना है कि चरम डेटा बिंदुओं से कैसे (या यदि) निपटना है। यह आर्थिक और वित्तीय संख्या में एक आम समस्या है। उदाहरण के लिए, स्टॉक मार्केट रिटर्न में फैट टेल डिस्ट्रीब्यूशन मानक किराया है। इस बीच, पिछले साल महामारी के दौरान अर्थव्यवस्था में नाटकीय गिरावट एक अनुस्मारक है कि आउटलेयर मैक्रो एनालिटिक्स में भी पॉप अप करते हैं।
यह प्रश्न की ओर जाता है: क्या करना है? कई उत्तर हैं, जो डेटा सेट और विश्लेषणात्मक लक्ष्यों के आधार पर भिन्न होते हैं। प्रतिगमन विश्लेषण में अक्सर समस्या उत्पन्न होती है, जो कई मॉडलिंग अनुप्रयोगों की नींव है। एक समाधान यह है कि मानक रैखिक प्रतिगमन को हटा दिया जाए और इसे मात्रात्मक प्रतिगमन के साथ बदल दिया जाए, जो चरम डेटा बिंदुओं के लिए कम असुरक्षित है।
इन प्रतिगमनों में क्या अंतर है? रैबिट होल के बहुत नीचे जाने के बिना, रैखिक प्रतिगमन (LR) डेटा को मॉडल करने के लिए सशर्त माध्य की गणना करने के लिए कम से कम वर्ग पद्धति का उपयोग करता है। क्वांटाइल रिग्रेशन (QR) सशर्त माध्यिका (या कोई अन्य क्वांटाइल, या क्वांटाइल, जिसे आप चुनते हैं) का अनुमान लगाते हैं। यह क्यूआर को एलआर पर कई फायदे देता है, जिसमें आउटलेर्स का सामना करते समय उच्च स्तर की स्थिरता शामिल है।
एक साधारण उदाहरण के रूप में, संख्याओं के दो सेटों पर विचार करें - डेटा ए और डेटा बी। ये अपेक्षाकृत अच्छी तरह से व्यवहार किए गए डेटा सेट हैं और इसलिए अपेक्षाकृत स्पष्ट, तंग संबंध है। नतीजतन, रैखिक और मात्रात्मक प्रतिगमन चलाने से समान परिणाम मिलते हैं। (नोट: क्यूआर मॉडल इस उदाहरण में माध्यिका मात्रा का उपयोग करता है।)

लेकिन यह एक और कहानी है जब हम नीचे दिए गए अगले चार्ट में लाल रंग में दिखाए गए कुछ बाहरी डेटा बिंदु जोड़ते हैं। प्रतिगमन को फिर से चलाने से पता चलता है कि LR परिणाम काफी हद तक शिफ्ट होते हैं - धराशायी हरी रेखा (बाहरी डेटा के साथ LR) बनाम ठोस हरी रेखा (बाहरी डेटा के बिना LR) द्वारा इंगित किया जाता है। तुलना करके, दो मात्रात्मक प्रतिगमन अनिवार्य रूप से अपरिवर्तित हैं, जो इंगित करता है कि परिणामों पर आउटलेर्स का बहुत कम प्रभाव पड़ता है। (हां, दो क्यूआर रिग्रेशन लाइनों को देखना मुश्किल है क्योंकि वे अनिवार्य रूप से समान हैं।)

QR में अधिक मजबूत परिणाम चरम घटनाओं को वित्तीय और आर्थिक मॉडलिंग प्रयासों में कहर पैदा करने से रोकने के लिए एक शक्तिशाली तरीके का प्रतिनिधित्व करते हैं। यह दुनिया में एक विशेष रूप से उपयोगी उपकरण है जहां आर्थिक और वित्तीय डेटा वितरण में वसा पूंछ की सुविधा है।
QR का एक अन्य लाभ, जिसे मैं आगामी पोस्ट में विस्तार से बताऊंगा, विभिन्न मात्राओं में प्रतिगमन की गणना करने की क्षमता है, जो मॉडलिंग के साथ एक व्यापक, अधिक लचीला प्रोफाइलिंग एप्लिकेशन प्रदान करता है।
अभी भी ऐसे मामले हैं जब एक बुनियादी रैखिक प्रतिगमन का उपयोग करना समझ में आता है। अच्छी खबर यह है कि विकल्प हैं, और क्वांटाइल रिग्रेशन शॉर्ट लिस्ट में है।
