آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

مجموعه داده های آزمایشی

دسته بندی :اخبار سایت 14 می 2023 علیرضا بابامرادی 154

مجموعه داده های آزمایشی

قبل از اینکه به روش‌های شناسایی پرت نگاه کنیم، بیایید مجموعه داده‌ای را تعریف کنیم که بتوانیم از آن برای آزمایش روش‌ها استفاده کنیم. ما یک جمعیت 10000 عدد تصادفی از توزیع گاوسی با میانگین 50 و انحراف استاندارد 5 ایجاد خواهیم کرد. یعنی به واسطه خود توزیع، مقدار کمی وجود خواهد داشت که فاصله زیادی با مقادیر متوسط و کمیاب دارد که می‌توانیم آنها را به عنوان مقادیر پرت شناسایی کنیم.
ما از تابع randn() برای تولید مقادیر گاوسی تصادفی با میانگین 0 و انحراف استاندارد 1 استفاده می کنیم، سپس نتایج را در انحراف استاندارد خودمان ضرب می کنیم و میانگین را اضافه می کنیم تا مقادیر را به محدوده ترجیحی منتقل کنیم. مولد اعداد شبه تصادفی برای اطمینان از اینکه هر بار که کد اجرا می شود نمونه مشابهی از اعداد را دریافت می کنیم بکار می رود.
اجرای مثال نمونه را تولید می کند و سپس میانگین و انحراف استاندارد را چاپ می کند. همانطور که انتظار می رود، مقادیر بسیار نزدیک به مقادیر مورد انتظار هستند.

 

روش انحراف استاندارد

اگر بدانیم که توزیع مقادیر در مانند گاوسی یا گاوسی است، می‌توانیم از انحراف معیار نمونه به‌عنوان یک برش برای شناسایی نقاط پرت استفاده کنیم. توزیع گاوسی این ویژگی را دارد که انحراف استاندارد از میانگین می تواند برای خلاصه کردن مطمئن درصد مقادیر در نمونه استفاده شود. به عنوان مثال، در یک انحراف استاندارد از میانگین، 68 درصد از داده ها را پوشش می دهد. بنابراین، اگر میانگین 50 و انحراف معیار 5 باشد، همانطور که در مجموعه داده آزمایشی بالا وجود دارد، تمام داده‌های نمونه بین 45 تا 55 حدود 68 درصد از نمونه داده‌ها را تشکیل می‌دهند. اگر محدوده را به صورت زیر گسترش دهیم، می‌توانیم نمونه داده‌های بیشتری را پوشش دهیم:
1. انحراف استاندارد از میانگین: 68 درصد.
2. انحراف استاندارد از میانگین: 95 درصد
3. انحراف استاندارد از میانگین: 99.7 درصد
مقداری که خارج از 3 انحراف استاندارد باشد، بخشی از توزیع است، اما در حدود 1 در 370 نمونه، یک رویداد بعید یا نادر است. سه انحراف استاندارد از میانگین یک برش رایج در عمل برای شناسایی نقاط پرت در یک توزیع گاوسی یا گاوسی است. برای نمونه های کوچکتر از داده ها، شاید بتوان از مقدار 2 انحراف معیار (95 درصد) و برای نمونه های بزرگتر، شاید از مقدار 4 انحراف استاندارد (99.9 درصد) استفاده کرد.
• با توجه به مو و سیگما، یک راه ساده برای شناسایی نقاط پرت این است که برای هر xi یک امتیاز z محاسبه کنیم، که به عنوان تعداد انحرافات استاندارد دور از xi از میانگین مقادیر داده‌هایی که دارای یک امتیاز z هستند، تعریف می‌شود. سیگمای بزرگتر از یک آستانه، به عنوان مثال، از سه، به عنوان نقاط پرت اعلام می شود.
بیایید این را با یک مثال کار شده بتن ریزی کنیم. گاهی اوقات، داده ها ابتدا استاندارد می شوند (به عنوان مثال به یک Z-score با میانگین صفر و واریانس واحد) به طوری که تشخیص نقاط پرت را می توان با استفاده از مقادیر استاندارد برش امتیاز Z انجام داد. این یک راحتی است و به طور کلی مورد نیاز نیست، و ما در اینجا محاسبات را در مقیاس اصلی داده ها انجام می دهیم تا همه چیز روشن شود. ما می‌توانیم میانگین و انحراف معیار یک نمونه معین را محاسبه کنیم، سپس برش برای شناسایی نقاط پرت را بیش از 3 انحراف استاندارد از میانگین محاسبه کنیم.

سپس می‌توانیم نقاط پرت را به عنوان نمونه‌هایی که خارج از محدوده‌های پایین و بالایی تعریف شده قرار می‌گیرند، شناسایی کنیم.

متناوبا، می‌توانیم مقادیری را از نمونه که در محدوده‌های تعریف شده نیستند، فیلتر کنیم.

ما می‌توانیم همه اینها را با مجموعه داده‌های نمونه آماده‌شده در بخش قبلی کنار هم بگذاریم. مثال کامل در زیر آمده است:

با اجرای مثال ابتدا تعداد نقاط پرت شناسایی شده و سپس تعداد مشاهداتی که پرت نیستند چاپ می شود، و نحوه شناسایی و فیلتر کردن نقاط پرت را به ترتیب نشان می دهد.
تا اینجا ما فقط در مورد داده های تک متغیره با توزیع گاوسی صحبت کرده ایم، به عنوان مثال: یک متغیر واحد اگر داده های چند متغیره دارید، می توانید از همین رویکرد استفاده کنید. داده ها با متغیرهای متعدد، هر کدام با توزیع گاوسی متفاوت. شما می توانید کرانه هایی را در دو بعد تصور کنید که اگر دو متغیر داشته باشید یک بیضی را مشخص می کند. مشاهداتی که خارج از بیضی قرار می گیرند، پرت در نظر گرفته می شوند. در سه بعد، این یک بیضی خواهد بود، و غیره در ابعاد بالاتر. متناوباً، اگر اطلاعات بیشتری در مورد دامنه داشتید، ممکن است با فراتر رفتن از محدودیت‌های یک یا زیرمجموعه ‌ای از ابعاد داده، یک نقطه پرت شناسایی شود.

 

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0