Nvidia के नतीजों से पहले Wall St फ्यूचर्स स्थिर, महंगाई की चिंता बरकरार
यदि आपने एक को देखा तो क्या आप एक बाहरी को जानेंगे? वे हर जगह हैं और स्पॉट करना आसान है, या इसलिए कोई बहस कर सकता है। लेकिन आकस्मिक अवलोकन एक बात है और इसे मजबूत सांख्यिकीय परिभाषाओं के साथ भ्रमित नहीं किया जाना चाहिए।
दरअसल, इस स्पेस में परिभाषाएं बहुत मायने रखती हैं। काश, प्रत्येक विश्लेषणात्मक परियोजना के लिए डेटा सेट में "चरम" मूल्यों की पहचान करने के लिए एकल, सर्वोत्तम तरीके पर कोई सहमति नहीं होती। इसके बावजूद, दांव ऊंचे हैं क्योंकि चरम संख्या मॉडलिंग और विश्लेषण की विश्वसनीयता को कम कर सकती है और इसलिए इन आउटलेर्स को फ़िल्टर करना अक्सर आवश्यक होता है।
इंजीनियरिंग स्टैटिस्टिक्स हैंडबुक सलाह देती है, "एक बाहरी एक अवलोकन है जो आबादी से यादृच्छिक नमूने में अन्य मूल्यों से असामान्य दूरी रखता है।" दुर्भाग्य से, यह बहस के लिए बहुत जगह छोड़ देता है क्योंकि "यह परिभाषा यह तय करने के लिए विश्लेषक (या आम सहमति प्रक्रिया) को छोड़ देती है कि क्या असामान्य माना जाएगा।"
अच्छी खबर: आउटलेर्स की पहचान करने के लिए कई तकनीकें हैं। एकमात्र समस्या यह है कि प्रत्येक तकनीक के पेशेवरों और विपक्षों का अपना सेट होता है और इसलिए कोई 'एक आकार सभी में फिट बैठता है' समाधान नहीं होता है।
यह समझने के लिए कि क्या उपलब्ध है और अपने डेटा एनालिटिक्स के लिए सर्वोत्तम विकल्प की पहचान कैसे करें, आइए विकल्पों की संक्षिप्त समीक्षा करें। यह पहचानने के साथ शुरू होता है कि "असामान्य" डेटा बिंदुओं को खोजने के लिए पहले "सामान्य" को परिभाषित करने की आवश्यकता होती है।
मानक दृष्टिकोणों में से एक इंटरक्वेर्टाइल रेंज (आईक्यूआर) का उपयोग करना है, जो क्वार्टाइल के आधार पर डेटा सेट के सांख्यिकीय फैलाव को मापता है। इस सांख्यिकीय उपकरण के लिए मानक अनुप्रयोग का उपयोग करते हुए, 25वें से 75वें प्रतिशतक के भीतर का डेटा IQR है और इसे "सामान्य" माना जाता है। इस सीमा के बाहर की संख्याएँ बाहरी हैं।
उदाहरण के तौर पर, आइए 1959 से अमेरिकी शेयर बाजार (S&P 500) के लिए रोलिंग एक-वर्षीय प्रतिशत परिवर्तनों का उपयोग करके विश्लेषण चलाते हैं। परिप्रेक्ष्य के लिए, यहां बताया गया है कि समय के साथ कच्चे डेटा की तुलना कैसे की जाती है।

यह स्पष्ट नहीं है कि ऊपर दिए गए चार्ट को देखकर आउटलायर्स को कैसे परिभाषित किया जाए। यहीं पर IQR विश्लेषण मदद कर सकता है, कम से कम एक प्रारंभिक फ़िल्टरिंग चरण के रूप में। नीचे दिया गया बॉक्सप्लॉट ग्रे बॉक्स में इन रिटर्न के लिए IQR दिखाता है, जो लगभग 0% से 19% तक के प्रदर्शन को कवर करता है। इस उपाय से, नकारात्मक या 19% से अधिक रिटर्न को आउटलायर्स माना जाता है।

लेकिन यह थोड़ा कठोर है क्योंकि S&P 500 के लिए एक साल का नकारात्मक रिटर्न आम है, या कम से कम समय के साथ असामान्य नहीं है। दूसरे शब्दों में, IQR के माध्यम से आउटलायर्स की पहचान करने के लिए मानक दृष्टिकोण व्यावहारिक नहीं है। सौभाग्य से, ऐसी अन्य तकनीकें हैं जो वित्तीय बाजारों में आउटलायर्स खोजने के लिए बेहतर अनुकूल हैं।
इस श्रृंखला की आगामी किश्तों में, हम बाहरी पहचान के लिए IQR पद्धति में सुधार की संभावनाओं पर करीब से नज़र डालेंगे।
