ارزش های از دست رفته باعث مشکلات می شود(نحوه علامت گذاری و حذف داده های از دست رفته)
ارزش های از دست رفته باعث مشکلات می شود
وجود مقادیر از دست رفته در یک مجموعه داده می تواند باعث ایجاد خطا در برخی از الگوریتم های یادگیری ماشین شود.
• مقادیر از دست رفته اتفاقات رایج در داده ها هستند. متأسفانه، بیشتر تکنیکهای مدلسازی پیشبینیکننده نمیتوانند هیچ مقدار از دست رفته را مدیریت کنند. بنابراین، این مشکل باید قبل از مدل سازی برطرف شود.
در این بخش سعی خواهیم کرد الگوریتم تحلیل تشخیصی خطی (LDA) را روی مجموعه داده با مقادیر گمشده ارزیابی کنیم. این الگوریتمی است که در صورت وجود مقادیر از دست رفته در مجموعه داده کار نمی کند. مثال زیر مقادیر از دست رفته در مجموعه داده را مشخص می کند، همانطور که در بخش قبل انجام دادیم، سپس سعی می کند LDA را با استفاده از اعتبارسنجی متقاطع 3 برابر ارزیابی کند و دقت متوسط را چاپ کند.
این همان چیزی است که ما انتظار داریم. ما از ارزیابی یک الگوریتم LDA (و سایر الگوریتمها) روی مجموعه داده با مقادیر گمشده جلوگیری میکنیم.
• بسیاری از مدلهای پیشبینی محبوب مانند ماشینهای بردار پشتیبان، glmnet و شبکههای عصبی، نمیتوانند مقداری از مقادیر از دست رفته را تحمل کنند.
اکنون میتوانیم روشهایی را برای مدیریت مقادیر از دست رفته بررسی کنیم.
ردیف هایی با مقادیر از دست رفته را حذف کنید
ساده ترین استراتژی برای مدیریت داده های از دست رفته حذف رکوردهایی است که حاوی مقدار گم شده هستند.
سادهترین روش برای مقابله با مقادیر از دست رفته، حذف کل پیشبینیکننده(ها) و/یا نمونه(های) حاوی مقادیر گمشده است.
ما میتوانیم این کار را با ایجاد یک Pandas DataFrame جدید با ردیفهای حاوی مقادیر گمشده حذف کنیم. Pandas تابع dropna() را ارائه میکند که میتواند برای رها کردن ستونها یا ردیفهایی با دادههای از دست رفته استفاده شود. ما میتوانیم ازdropna() برای حذف تمام ردیفهایی که دادههای گمشده دارند، به شرح زیر استفاده کنیم:
با اجرای این مثال، میتوانیم ببینیم که تعداد ردیفها از 768 در مجموعه داده اصلی به 392 با تمام ردیفهای حاوی NaN حذف شده است.
ما اکنون یک مجموعه داده داریم که می توانیم از آن برای ارزیابی یک الگوریتم حساس به مقادیر گمشده مانند LDA استفاده کنیم.
مثال با موفقیت اجرا می شود و دقت مدل را چاپ می کند.
حذف ردیفهایی با مقادیر گمشده میتواند برای برخی از مشکلات مدلسازی پیشبینیکننده بسیار محدودکننده باشد، یک جایگزین این است که مقادیر گمشده را نسبت دهیم.
در این آموزش، نحوه مدیریت داده های یادگیری ماشینی که حاوی مقادیر گم شده هستند را کشف کردید. به طور خاص، شما یاد گرفتید:
• نحوه علامت گذاری مقادیر نامعتبر یا خراب به عنوان مفقود در مجموعه داده شما.
• چگونه می توان تأیید کرد که وجود مقادیر از دست رفته مشخص شده باعث ایجاد مشکل برای یادگیری الگوریتم ها می شود.
• نحوه حذف ردیف هایی با داده های از دست رفته از مجموعه داده خود و ارزیابی الگوریتم یادگیری بر روی مجموعه داده تبدیل شده.
در بخش بعدی، بررسی خواهیم کرد که چگونه می توانیم مقادیر داده های از دست رفته را با استفاده از آمار نسبت دهیم.
قوانین ارسال دیدگاه در سایت