آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

شناسایی و حذف موارد پرت

دسته بندی :اخبار سایت 13 می 2023 علیرضا بابامرادی 415

هنگام مدل‌سازی، تمیز کردن نمونه داده‌ها برای اطمینان از اینکه مشاهدات به بهترین شکل مشکل را نشان می‌دهند، مهم است. گاهی اوقات یک مجموعه داده می تواند حاوی مقادیر شدیدی باشد که خارج از محدوده مورد انتظار و بر خلاف سایر داده ها هستند. به این موارد پرت گفته می‌شود و اغلب مدل‌سازی یادگیری ماشین و مهارت مدل‌سازی به طور کلی می‌تواند با درک و حتی حذف این مقادیر پرت بهبود یابد. در این آموزش، موارد پرت و نحوه شناسایی و حذف آنها را از مجموعه داده های یادگیری ماشین خود کشف خواهید کرد. پس از تکمیل این آموزش، خواهید دانست :
• اینکه یک نقطه دور از یک مشاهده غیر محتمل در یک مجموعه داده است و ممکن است یکی از دلایل متعدد داشته باشد.
• نحوه استفاده از آمارهای تک متغیره ساده مانند انحراف استاندارد و محدوده بین چارکی برای شناسایی و حذف مقادیر پرت از نمونه داده.
• نحوه استفاده از یک مدل تشخیص پرت برای شناسایی و حذف ردیف‌ها از مجموعه داده آموزشی به منظور افزایش عملکرد مدل‌سازی پیش‌بینی‌کننده.
6.1 مرور کلی آموزش

این آموزش به پنج بخش تقسیم شده است. شامل:
1. Outliers چیست؟
2. مجموعه داده ها را آزمایش کنید
3. روش انحراف استاندارد
4. روش محدوده بین ربعی
5. تشخیص خودکار نقاط بیرونی

6.2 Outliers چیست؟

پرت، مشاهده ای است که بر خلاف مشاهدات دیگر است. آنها نادر، متمایز هستند یا به نحوی مناسب نیستند.
• ما به طور کلی نقاط پرت را به عنوان نمونه هایی تعریف می کنیم که به طور استثنایی از جریان اصلی داده ها فاصله دارند.
پرت می تواند دلایل زیادی داشته باشد، مانند:
• اندازه گیری یا خطای ورودی.
• خرابی داده ها.
• مشاهدات پرت واقعی.
به دلیل ویژگی های هر مجموعه داده، راه دقیقی برای تعریف و شناسایی نقاط پرت به طور کلی وجود ندارد. در عوض، شما یا یک متخصص حوزه، باید مشاهدات خام را تفسیر کنید و تصمیم بگیرید که آیا یک مقدار یک مقدار پرت است یا خیر.
• حتی با درک کامل داده ها، تعریف نقاط پرت ممکن است دشوار باشد. باید بسیار دقت کرد که عجولانه مقادیر را حذف یا تغییر ندهید، به خصوص اگر حجم نمونه کوچک باشد.
با این وجود، می‌توانیم از روش‌های آماری برای شناسایی مشاهداتی استفاده کنیم که با توجه به داده‌های موجود، نادر یا بعید به نظر می‌رسند.
• شناسایی داده های پرت و بد در مجموعه داده شما احتمالاً یکی از دشوارترین بخش های پاکسازی داده ها است و درست کردن آن زمان می برد. حتی اگر درک عمیقی از آمار و چگونگی تأثیر عوامل پرت بر داده‌های شما داشته باشید، همیشه موضوعی است که باید با احتیاط آن را بررسی کنید.
این بدان معنا نیست که مقادیر شناسایی شده پرت هستند و باید حذف شوند. اما، ابزارهایی که در این آموزش توضیح داده شده اند، می توانند برای روشن کردن رویدادهای نادری که ممکن است نیاز به نگاهی دوباره داشته باشند، مفید باشند. یک نکته خوب این است که ترسیم مقادیر پرت شناسایی شده را در نظر بگیرید، شاید در زمینه مقادیر غیر پرت برای دیدن اینکه آیا رابطه یا الگوی سیستماتیکی با مقادیر پرت وجود دارد یا خیر؟ اگر وجود داشته باشد، شاید آنها پرت نباشند و بتوان آنها را توضیح داد، یا شاید خود پرت ها را بتوان به طور سیستماتیک تری شناسایی کرد.

 

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0