نحوه استفاده از محاسبه آماری
مجموعه داده ها ممکن است مقادیر گم شده ای داشته باشند و این می تواند برای بسیاری از الگوریتم های یادگیری ماشین مشکلاتی ایجاد کند. به این ترتیب، شناسایی و جایگزینی مقادیر از دست رفته برای هر ستون در دادههای ورودی، قبل از مدلسازی کار پیشبینی، تمرین خوبی است. به این میگویند گمشده داده یا به اختصار imputing. یک رویکرد رایج برای انتساب داده ها، محاسبه یک مقدار آماری برای هر ستون (مانند میانگین) و جایگزینی تمام مقادیر از دست رفته برای آن ستون با آمار است. این یک رویکرد محبوب است زیرا محاسبه آمار با استفاده از مجموعه داده های آموزشی آسان است و به دلیل اینکه اغلب منجر به عملکرد خوب می شود. در این آموزش، نحوه استفاده از استراتژی های انتساب آماری برای داده های از دست رفته در یادگیری ماشین را خواهید یافت. پس از تکمیل این آموزش، خواهید دانست:
• مقادیر گم شده باید با مقادیر NaN مشخص شوند و می توان آنها را با معیارهای آماری برای محاسبه ستون مقادیر جایگزین کرد.
• نحوه بارگذاری یک فایل CSV با مقادیر از دست رفته و علامت گذاری مقادیر از دست رفته با مقادیر NaN و گزارش تعداد و درصد مقادیر از دست رفته برای هر ستون.
• چگونه می توان مقادیر گمشده را با آمار به عنوان روش تهیه داده در هنگام ارزیابی مدل ها و هنگام برازش یک مدل نهایی برای پیش بینی داده های جدید نسبت داد.
بیا شروع کنیم.
8.1 مرور کلی آموزش
این آموزش به سه بخش تقسیم می شود؛ آن ها هستند:
1. محاسبه آماری
2. مجموعه داده کولیک اسب
3. نسبت آماری با SimpleImputer
محاسبه آماری
ممکن است یک مجموعه داده دارای مقادیر گم شده باشد. اینها ردیف هایی از داده ها هستند که یک یا چند مقدار یا ستون در آن ردیف وجود ندارد. ممکن است مقادیر به طور کامل گم شده باشند یا ممکن است با یک کاراکتر یا مقدار خاص مانند علامت سوال (“؟”) علامت گذاری شوند.
• این ارزش ها را می توان به روش های مختلفی بیان کرد. من دیده ام که آنها به عنوان هیچ چیز […]، یک رشته خالی […]، رشته صریح NULL یا undefined یا N/A یا NaN، و عدد 0، در میان دیگران دیده شده اند. مهم نیست که آنها چگونه در مجموعه داده شما ظاهر می شوند، دانستن اینکه چه چیزی باید انتظار داشته باشید و بررسی برای اطمینان از مطابقت داده ها با آن انتظار، مشکلات را با شروع استفاده از داده ها کاهش می دهد.
مقادیر ممکن است به دلایل زیادی وجود نداشته باشند، اغلب مختص به حوزه مشکل، و ممکن است شامل دلایلی مانند اندازه گیری های خراب یا در دسترس نبودن داده ها نباشد.
• مقادیر ممکن است به دلایل زیادی وجود نداشته باشند، اغلب مختص به حوزه مشکل، و ممکن است شامل دلایلی مانند اندازه گیری های خراب یا در دسترس نبودن داده ها نباشد.
اکثر الگوریتمهای یادگیری ماشینی به مقادیر ورودی عددی و یک مقدار برای هر سطر و ستون در یک مجموعه داده نیاز دارند. به این ترتیب، مقادیر از دست رفته می تواند برای الگوریتم های یادگیری ماشین مشکلاتی ایجاد کند. به همین دلیل، شناسایی مقادیر از دست رفته در یک مجموعه داده و جایگزینی آنها با یک مقدار عددی معمول است. به این می گویند داده imputing یا از دست رفته داده.
یک رویکرد ساده و رایج برای انتساب داده ها شامل استفاده از روش های آماری برای تخمین یک مقدار برای یک ستون از مقادیر موجود است، سپس همه مقادیر از دست رفته در ستون را با آمار محاسبه شده جایگزین کنید. این ساده است زیرا آمار سریع محاسبه می شود و محبوب است زیرا اغلب بسیار مؤثر است. آمارهای رایج محاسبه شده عبارتند از:
• مقدار میانگین ستون.
• مقدار میانه ستون.
• مقدار حالت ستون.
• یک مقدار ثابت.
اکنون که با روشهای آماری برای محاسبه مقدار از دست رفته آشنا شدیم، بیایید نگاهی به مجموعه دادهای با مقادیر گمشده بیندازیم.
قوانین ارسال دیدگاه در سایت