نحوه علامت گذاری و حذف داده های از دست رفته
نحوه علامت گذاری و حذف داده های از دست رفته
داده های دنیای واقعی اغلب مقادیر گم شده ای دارند. داده ها ممکن است به دلایل مختلفی مانند مشاهداتی که ثبت نشده اند و خرابی داده ها دارای مقادیر گم شده باشند. مدیریت دادههای از دست رفته مهم است زیرا بسیاری از الگوریتمهای یادگیری ماشین از دادههایی با مقادیر گمشده پشتیبانی نمیکنند. در این آموزش، نحوه مدیریت داده های از دست رفته برای یادگیری ماشین با پایتون را خواهید یافت. به طور خاص، پس از تکمیل این آموزش می دانید:
• چگونه مقادیر نامعتبر یا فاسد را در مجموعه داده خود علامت گذاری کنید.
• چگونه می توان تأیید کرد که وجود مقادیر از دست رفته علامت گذاری شده باعث ایجاد مشکل برای یادگیری الگوریتم ها می شود.
• نحوه حذف ردیف هایی با داده های از دست رفته از مجموعه داده خود و ارزیابی الگوریتم یادگیری بر روی مجموعه داده تبدیل شده.
بیاید شروع کنیم.
7.1 نمای کلی آموزش
این آموزش به 4 قسمت تقسیم شده است. آن ها هستند:
1. مجموعه اطلاعات دیابت
2. مقادیر گمشده را علامت بزنید
3. ارزش های از دست رفته باعث مشکلات می شود
4. ردیف هایی با مقادیر از دست رفته را حذف کنید.
7.2 مجموعه داده های دیابت
به عنوان اساس این آموزش، ما از مجموعه داده های دیابت استفاده خواهیم کرد که از دهه 1990 به طور گسترده به عنوان مجموعه داده یادگیری ماشینی مورد مطالعه قرار گرفته است. مجموعه داده ها داده های بیمار را به عنوان شروع دیابت در عرض پنج سال یا نه طبقه بندی می کند. 768 مثال و هشت متغیر ورودی وجود دارد. این یک مشکل طبقه بندی باینری است. یک مدل ساده و بی تکلف می تواند به دقت حدود 65 درصد در این مجموعه داده دست یابد. نمره خوب حدود 77 درصد است. ما برای این منطقه هدف خواهیم داشت، اما توجه داشته باشید که مدل های این آموزش بهینه نشده اند. آنها برای نشان دادن طرح های انتخاب ویژگی طراحی شده اند.
با نگاه کردن به داده ها، می بینیم که هر 9 متغیر ورودی عددی هستند.
¬¬
مشخص است که این مجموعه داده دارای مقادیر گم شده است. به طور خاص، مشاهدات گمشده برای برخی از ستونها وجود دارد که به عنوان مقدار صفر علامت گذاری شدهاند. ما میتوانیم این را با تعریف آن ستونها و دانش دامنه که یک مقدار صفر برای آن معیارها نامعتبر است، تأیید کنیم، به عنوان مثال: صفر برای شاخص توده بدن یا فشار خون نامعتبر است.
قوانین ارسال دیدگاه در سایت