روش محدوده بین چارکی (Interquartile Range)
روش محدوده بین چارکی (Interquartile Range)
همه دادهها به اندازهای عادی یا عادی نیستند که بتوان آنها را از یک توزیع گاوسی استخراج کرد. یک آمار خوب برای خلاصه کردن یک نمونه توزیع غیر گاوسی از داده ها، محدوده Interquartile یا به اختصار IQR است. IQR به عنوان تفاوت بین صدک های 75 و 25 داده ها محاسبه می شود و جعبه را در یک نمودار جعبه و سبیل تعریف می کند. به یاد داشته باشید که صدک ها را می توان با مرتب سازی مشاهدات و انتخاب مقادیر در شاخص های خاص محاسبه کرد. صدک 50 مقدار وسط یا میانگین دو مقدار وسط برای تعداد زوج مثال است. اگر 10000 نمونه داشتیم، صدک 50 میانگین مقادیر 5000 و 5001 خواهد بود.
ما به صدک ها به عنوان چارک (کوارت به معنی 4) اشاره می کنیم زیرا داده ها از طریق مقادیر 25، 50 و 75 به چهار گروه تقسیم می شوند. IQR 50 درصد وسط داده یا بدنه داده ها را تعریف می کند.
• تکنیکهای تشخیص پرت مبتنی بر آمار فرض میکنند که نقاط داده نرمال در نواحی احتمال زیاد یک مدل تصادفی ظاهر میشوند، در حالی که نقاط پرت در مناطق با احتمال کم یک مدل تصادفی رخ میدهند.
IQR را می توان با تعیین محدودیت هایی در مقادیر نمونه که ضریب k از IQR زیر صدک 25 یا بالاتر از صدک 75 هستند، برای شناسایی نقاط پرت استفاده کرد. مقدار مشترک برای عامل k مقدار 1.5 است. ضریب k 3 یا بیشتر را می توان برای شناسایی مقادیری استفاده کرد که وقتی در زمینه نمودارهای جعبه و ویسکر توضیح داده می شوند، نقاط پرت یا بسیار دور هستند. در طرح جعبه و سبیل، این محدودیت ها به عنوان حصار روی سبیل ها (یا خطوط) که از جعبه کشیده می شوند، ترسیم می شوند. مقادیری که خارج از این مقادیر قرار می گیرند به صورت نقطه رسم می شوند. میتوانیم صدکهای یک مجموعه داده را با استفاده از تابع ()NumPy که مجموعه دادهها و مشخصات صدک مورد نظر را میگیرد، محاسبه کنیم. سپس IQR را می توان به عنوان تفاوت بین صدک های 75 و 25 محاسبه کرد.
سپس میتوانیم برش را برای نقاط پرت 1.5 برابر IQR محاسبه کنیم و این برش را از صدک 25 کم کنیم و آن را به صدک 75 اضافه کنیم تا محدودیتهای واقعی دادهها را ارائه دهیم.
سپس می توانیم از این محدودیت ها برای شناسایی مقادیر پرت استفاده کنیم.
همچنین میتوانیم از محدودیتها برای فیلتر کردن مقادیر پرت از مجموعه داده استفاده کنیم.
ما میتوانیم همه اینها را با هم گره بزنیم و رویه را روی مجموعه داده آزمایشی نشان دهیم.
مثال کامل در زیر آمده است :
جرای مثال ابتدا صدک های 25 و 75 شناسایی شده و IQR محاسبه شده را چاپ می کند. تعداد موارد پرت شناسایی شده به دنبال آن تعداد مشاهدات غیر پرت چاپ می شود.
این رویکرد را میتوان برای دادههای چند متغیره با محاسبه محدودیتهای هر متغیر در مجموعه داده به نوبه خود، و در نظر گرفتن نقاط پرت به عنوان مشاهداتی که خارج از مستطیل یا بیشمستطیل قرار میگیرند، استفاده کرد.
قوانین ارسال دیدگاه در سایت