مجموعه داده های آزمایشی
مجموعه داده های آزمایشی
قبل از اینکه به روشهای شناسایی پرت نگاه کنیم، بیایید مجموعه دادهای را تعریف کنیم که بتوانیم از آن برای آزمایش روشها استفاده کنیم. ما یک جمعیت 10000 عدد تصادفی از توزیع گاوسی با میانگین 50 و انحراف استاندارد 5 ایجاد خواهیم کرد. یعنی به واسطه خود توزیع، مقدار کمی وجود خواهد داشت که فاصله زیادی با مقادیر متوسط و کمیاب دارد که میتوانیم آنها را به عنوان مقادیر پرت شناسایی کنیم.
ما از تابع randn() برای تولید مقادیر گاوسی تصادفی با میانگین 0 و انحراف استاندارد 1 استفاده می کنیم، سپس نتایج را در انحراف استاندارد خودمان ضرب می کنیم و میانگین را اضافه می کنیم تا مقادیر را به محدوده ترجیحی منتقل کنیم. مولد اعداد شبه تصادفی برای اطمینان از اینکه هر بار که کد اجرا می شود نمونه مشابهی از اعداد را دریافت می کنیم بکار می رود.
اجرای مثال نمونه را تولید می کند و سپس میانگین و انحراف استاندارد را چاپ می کند. همانطور که انتظار می رود، مقادیر بسیار نزدیک به مقادیر مورد انتظار هستند.
روش انحراف استاندارد
اگر بدانیم که توزیع مقادیر در مانند گاوسی یا گاوسی است، میتوانیم از انحراف معیار نمونه بهعنوان یک برش برای شناسایی نقاط پرت استفاده کنیم. توزیع گاوسی این ویژگی را دارد که انحراف استاندارد از میانگین می تواند برای خلاصه کردن مطمئن درصد مقادیر در نمونه استفاده شود. به عنوان مثال، در یک انحراف استاندارد از میانگین، 68 درصد از داده ها را پوشش می دهد. بنابراین، اگر میانگین 50 و انحراف معیار 5 باشد، همانطور که در مجموعه داده آزمایشی بالا وجود دارد، تمام دادههای نمونه بین 45 تا 55 حدود 68 درصد از نمونه دادهها را تشکیل میدهند. اگر محدوده را به صورت زیر گسترش دهیم، میتوانیم نمونه دادههای بیشتری را پوشش دهیم:
1. انحراف استاندارد از میانگین: 68 درصد.
2. انحراف استاندارد از میانگین: 95 درصد
3. انحراف استاندارد از میانگین: 99.7 درصد
مقداری که خارج از 3 انحراف استاندارد باشد، بخشی از توزیع است، اما در حدود 1 در 370 نمونه، یک رویداد بعید یا نادر است. سه انحراف استاندارد از میانگین یک برش رایج در عمل برای شناسایی نقاط پرت در یک توزیع گاوسی یا گاوسی است. برای نمونه های کوچکتر از داده ها، شاید بتوان از مقدار 2 انحراف معیار (95 درصد) و برای نمونه های بزرگتر، شاید از مقدار 4 انحراف استاندارد (99.9 درصد) استفاده کرد.
• با توجه به مو و سیگما، یک راه ساده برای شناسایی نقاط پرت این است که برای هر xi یک امتیاز z محاسبه کنیم، که به عنوان تعداد انحرافات استاندارد دور از xi از میانگین مقادیر دادههایی که دارای یک امتیاز z هستند، تعریف میشود. سیگمای بزرگتر از یک آستانه، به عنوان مثال، از سه، به عنوان نقاط پرت اعلام می شود.
بیایید این را با یک مثال کار شده بتن ریزی کنیم. گاهی اوقات، داده ها ابتدا استاندارد می شوند (به عنوان مثال به یک Z-score با میانگین صفر و واریانس واحد) به طوری که تشخیص نقاط پرت را می توان با استفاده از مقادیر استاندارد برش امتیاز Z انجام داد. این یک راحتی است و به طور کلی مورد نیاز نیست، و ما در اینجا محاسبات را در مقیاس اصلی داده ها انجام می دهیم تا همه چیز روشن شود. ما میتوانیم میانگین و انحراف معیار یک نمونه معین را محاسبه کنیم، سپس برش برای شناسایی نقاط پرت را بیش از 3 انحراف استاندارد از میانگین محاسبه کنیم.
سپس میتوانیم نقاط پرت را به عنوان نمونههایی که خارج از محدودههای پایین و بالایی تعریف شده قرار میگیرند، شناسایی کنیم.
متناوبا، میتوانیم مقادیری را از نمونه که در محدودههای تعریف شده نیستند، فیلتر کنیم.
ما میتوانیم همه اینها را با مجموعه دادههای نمونه آمادهشده در بخش قبلی کنار هم بگذاریم. مثال کامل در زیر آمده است:
با اجرای مثال ابتدا تعداد نقاط پرت شناسایی شده و سپس تعداد مشاهداتی که پرت نیستند چاپ می شود، و نحوه شناسایی و فیلتر کردن نقاط پرت را به ترتیب نشان می دهد.
تا اینجا ما فقط در مورد داده های تک متغیره با توزیع گاوسی صحبت کرده ایم، به عنوان مثال: یک متغیر واحد اگر داده های چند متغیره دارید، می توانید از همین رویکرد استفاده کنید. داده ها با متغیرهای متعدد، هر کدام با توزیع گاوسی متفاوت. شما می توانید کرانه هایی را در دو بعد تصور کنید که اگر دو متغیر داشته باشید یک بیضی را مشخص می کند. مشاهداتی که خارج از بیضی قرار می گیرند، پرت در نظر گرفته می شوند. در سه بعد، این یک بیضی خواهد بود، و غیره در ابعاد بالاتر. متناوباً، اگر اطلاعات بیشتری در مورد دامنه داشتید، ممکن است با فراتر رفتن از محدودیتهای یک یا زیرمجموعه ای از ابعاد داده، یک نقطه پرت شناسایی شود.
قوانین ارسال دیدگاه در سایت