علامت گذاری مقادیر از دست رفته(نحوه علامت گذاری و حذف داده های از دست رفته)
علامت گذاری مقادیر از دست رفته
بیشتر داده ها دارای مقادیر گم شده هستند و احتمال وجود مقادیر از دست رفته با اندازه مجموعه داده افزایش می یابد.
• داده های از دست رفته در مجموعه داده های واقعی کمیاب نیستند. در واقع، با افزایش اندازه مجموعه داده، احتمال از دست رفتن حداقل یک نقطه داده افزایش می یابد.
در این بخش، به نحوه شناسایی و علامت گذاری مقادیر گمشده نگاه خواهیم کرد. ما می توانیم از نمودارها و آمار خلاصه برای کمک به شناسایی داده های گم شده یا خراب استفاده کنیم.
میتوانیم مجموعه داده را بهعنوان یک Pandas DataFrame بارگذاری کنیم و آمار خلاصهای را روی هر ویژگی چاپ کنیم.
این مفید است. می بینیم که ستون هایی وجود دارند که حداقل مقدار آنها صفر (0) است. در برخی از ستون ها، مقدار صفر معنی ندارد و نشان دهنده یک مقدار نامعتبر یا گم شده است.
• مقادیر گم شده اغلب با ورودی های خارج از محدوده نشان داده می شوند. شاید یک عدد منفی (مثلاً 1-) در یک فیلد عددی که معمولاً فقط مثبت است، یا یک عدد 0 در یک فیلد عددی که هرگز به طور معمول نمی تواند 0 باشد.
به طور خاص، ستونهای زیر دارای حداقل مقدار صفر نامعتبر هستند:
1: غلظت گلوکز پلاسما
2: فشار خون دیاستولیک
3: ضخامت چین های پوستی عضله سه سر بازو
4: انسولین سرم 2 ساعته
5: شاخص توده بدنی
بیایید این را با نگاه کردن به داده های خام تأیید کنیم، مثال 20 ردیف اول داده را چاپ می کند.
با اجرای مثال، به وضوح می توانیم مقادیر 0 را در ستون های 2، 3، 4 و 5 مشاهده کنیم.
ما می توانیم تعداد مقادیر از دست رفته در هر یک از این ستون ها را به دست آوریم. ما میتوانیم این کار را با علامتگذاری تمام مقادیر موجود در زیرمجموعه DataFrame که به آنها علاقه داریم و مقادیر صفر دارند به عنوان True انجام دهیم. سپس می توانیم تعداد مقادیر واقعی را در هر ستون بشماریم.با اجرای مثال، خروجی زیر چاپ می شود:
میتوانیم ببینیم که ستونهای 1، 2 و 5 فقط چند مقدار صفر دارند، در حالی که ستونهای 3 و 4 بسیار بیشتر، تقریباً نیمی از سطرها را نشان میدهند. این نشان میدهد که ممکن است استراتژیهای متفاوتی برای مقادیر گمشده برای ستونهای مختلف مورد نیاز باشد، به عنوان مثال. تا اطمینان حاصل شود که هنوز تعداد کافی رکورد برای آموزش یک مدل پیش بینی باقی مانده است.
• هنگامی که یک پیشبینیکننده ماهیت گسسته دارد، مفقودی را میتوان مستقیماً در پیشبینیکننده رمزگذاری کرد، گویی یک مقوله طبیعی است.
در پایتون، بهویژه Pandas، NumPy و Scikit-Learn، مقادیر گمشده را بهعنوان NaN علامتگذاری میکنیم. مقادیر با مقدار NaN از عملیاتهایی مانند sum، count و غیره نادیده گرفته میشوند. ما میتوانیم مقادیر را به راحتی با Pandas DataFrame با استفاده از تابع ()replace در زیر مجموعهای از ستونهایی که به آنها علاقه مندیم، به عنوان NaN علامتگذاری کنیم. مقادیر از دست رفته، میتوانیم از تابع isnull() برای علامتگذاری تمام مقادیر NaN در مجموعه داده به عنوان True استفاده کنیم و تعداد مقادیر گمشده را برای هر ستون دریافت کنیم.
با اجرای مثال، تعداد مقادیر گم شده در هر ستون چاپ می شود. می بینیم که ستون های 1 تا 5 دارای همان تعداد مقادیر گم شده با مقادیر صفر هستند که در بالا مشخص شده است. این نشانه آن است که مقادیر گمشده شناسایی شده را به درستی علامت گذاری کرده ایم.
این یک خلاصه مفید است، زیرا می خواهیم تأیید کنیم که به نحوی خودمان را فریب نداده ایم. در زیر همان مثال وجود دارد، با این تفاوت که ما 20 ردیف اول داده را چاپ می کنیم .با اجرای مثال، میتوانیم به وضوح مقادیر NaN را در ستونهای 2، 3، 4 و 5 ببینیم. در ستون 1 فقط 5 مقدار گم شده است، بنابراین جای تعجب نیست که در 20 ردیف اول نمونهای ندیدیم. از داده های خام مشخص است که علامت گذاری مقادیر از دست رفته تأثیر مورد نظر را داشته است.
قبل از اینکه به بررسی مقادیر از دست رفته بپردازیم، اجازه دهید ابتدا نشان دهیم که وجود مقادیر از دست رفته در یک مجموعه داده می تواند باعث ایجاد مشکل شود
قوانین ارسال دیدگاه در سایت