شناسایی و حذف موارد پرت
هنگام مدلسازی، تمیز کردن نمونه دادهها برای اطمینان از اینکه مشاهدات به بهترین شکل مشکل را نشان میدهند، مهم است. گاهی اوقات یک مجموعه داده می تواند حاوی مقادیر شدیدی باشد که خارج از محدوده مورد انتظار و بر خلاف سایر داده ها هستند. به این موارد پرت گفته میشود و اغلب مدلسازی یادگیری ماشین و مهارت مدلسازی به طور کلی میتواند با درک و حتی حذف این مقادیر پرت بهبود یابد. در این آموزش، موارد پرت و نحوه شناسایی و حذف آنها را از مجموعه داده های یادگیری ماشین خود کشف خواهید کرد. پس از تکمیل این آموزش، خواهید دانست :
• اینکه یک نقطه دور از یک مشاهده غیر محتمل در یک مجموعه داده است و ممکن است یکی از دلایل متعدد داشته باشد.
• نحوه استفاده از آمارهای تک متغیره ساده مانند انحراف استاندارد و محدوده بین چارکی برای شناسایی و حذف مقادیر پرت از نمونه داده.
• نحوه استفاده از یک مدل تشخیص پرت برای شناسایی و حذف ردیفها از مجموعه داده آموزشی به منظور افزایش عملکرد مدلسازی پیشبینیکننده.
6.1 مرور کلی آموزش
این آموزش به پنج بخش تقسیم شده است. شامل:
1. Outliers چیست؟
2. مجموعه داده ها را آزمایش کنید
3. روش انحراف استاندارد
4. روش محدوده بین ربعی
5. تشخیص خودکار نقاط بیرونی
6.2 Outliers چیست؟
پرت، مشاهده ای است که بر خلاف مشاهدات دیگر است. آنها نادر، متمایز هستند یا به نحوی مناسب نیستند.
• ما به طور کلی نقاط پرت را به عنوان نمونه هایی تعریف می کنیم که به طور استثنایی از جریان اصلی داده ها فاصله دارند.
پرت می تواند دلایل زیادی داشته باشد، مانند:
• اندازه گیری یا خطای ورودی.
• خرابی داده ها.
• مشاهدات پرت واقعی.
به دلیل ویژگی های هر مجموعه داده، راه دقیقی برای تعریف و شناسایی نقاط پرت به طور کلی وجود ندارد. در عوض، شما یا یک متخصص حوزه، باید مشاهدات خام را تفسیر کنید و تصمیم بگیرید که آیا یک مقدار یک مقدار پرت است یا خیر.
• حتی با درک کامل داده ها، تعریف نقاط پرت ممکن است دشوار باشد. باید بسیار دقت کرد که عجولانه مقادیر را حذف یا تغییر ندهید، به خصوص اگر حجم نمونه کوچک باشد.
با این وجود، میتوانیم از روشهای آماری برای شناسایی مشاهداتی استفاده کنیم که با توجه به دادههای موجود، نادر یا بعید به نظر میرسند.
• شناسایی داده های پرت و بد در مجموعه داده شما احتمالاً یکی از دشوارترین بخش های پاکسازی داده ها است و درست کردن آن زمان می برد. حتی اگر درک عمیقی از آمار و چگونگی تأثیر عوامل پرت بر دادههای شما داشته باشید، همیشه موضوعی است که باید با احتیاط آن را بررسی کنید.
این بدان معنا نیست که مقادیر شناسایی شده پرت هستند و باید حذف شوند. اما، ابزارهایی که در این آموزش توضیح داده شده اند، می توانند برای روشن کردن رویدادهای نادری که ممکن است نیاز به نگاهی دوباره داشته باشند، مفید باشند. یک نکته خوب این است که ترسیم مقادیر پرت شناسایی شده را در نظر بگیرید، شاید در زمینه مقادیر غیر پرت برای دیدن اینکه آیا رابطه یا الگوی سیستماتیکی با مقادیر پرت وجود دارد یا خیر؟ اگر وجود داشته باشد، شاید آنها پرت نباشند و بتوان آنها را توضیح داد، یا شاید خود پرت ها را بتوان به طور سیستماتیک تری شناسایی کرد.
قوانین ارسال دیدگاه در سایت