علامت گذاری مقادیر از دست رفته(نحوه علامت گذاری و حذف داده های از دست رفته)

دسته بندی :اخبار سایت 15 می 2023 علیرضا بابامرادی 186

علامت گذاری مقادیر از دست رفته

بیشتر داده ها دارای مقادیر گم شده هستند و احتمال وجود مقادیر از دست رفته با اندازه مجموعه داده افزایش می یابد.
• داده های از دست رفته در مجموعه داده های واقعی کمیاب نیستند. در واقع، با افزایش اندازه مجموعه داده، احتمال از دست رفتن حداقل یک نقطه داده افزایش می یابد.
در این بخش، به نحوه شناسایی و علامت گذاری مقادیر گمشده نگاه خواهیم کرد. ما می توانیم از نمودارها و آمار خلاصه برای کمک به شناسایی داده های گم شده یا خراب استفاده کنیم.

می‌توانیم مجموعه داده را به‌عنوان یک Pandas DataFrame بارگذاری کنیم و آمار خلاصه‌ای را روی هر ویژگی چاپ کنیم.

این مفید است. می بینیم که ستون هایی وجود دارند که حداقل مقدار آنها صفر (0) است. در برخی از ستون ها، مقدار صفر معنی ندارد و نشان دهنده یک مقدار نامعتبر یا گم شده است.
• مقادیر گم شده اغلب با ورودی های خارج از محدوده نشان داده می شوند. شاید یک عدد منفی (مثلاً 1-) در یک فیلد عددی که معمولاً فقط مثبت است، یا یک عدد 0 در یک فیلد عددی که هرگز به طور معمول نمی تواند 0 باشد.
به طور خاص، ستون‌های زیر دارای حداقل مقدار صفر نامعتبر هستند:
1: غلظت گلوکز پلاسما
2: فشار خون دیاستولیک
3: ضخامت چین های پوستی عضله سه سر بازو
4: انسولین سرم 2 ساعته
5: شاخص توده بدنی
بیایید این را با نگاه کردن به داده های خام تأیید کنیم، مثال 20 ردیف اول داده را چاپ می کند.

با اجرای مثال، به وضوح می توانیم مقادیر 0 را در ستون های 2، 3، 4 و 5 مشاهده کنیم.

ما می توانیم تعداد مقادیر از دست رفته در هر یک از این ستون ها را به دست آوریم. ما می‌توانیم این کار را با علامت‌گذاری تمام مقادیر موجود در زیرمجموعه DataFrame که به آن‌ها علاقه داریم و مقادیر صفر دارند به عنوان True انجام دهیم. سپس می توانیم تعداد مقادیر واقعی را در هر ستون بشماریم.با اجرای مثال، خروجی زیر چاپ می شود:

می‌توانیم ببینیم که ستون‌های 1، 2 و 5 فقط چند مقدار صفر دارند، در حالی که ستون‌های 3 و 4 بسیار بیشتر، تقریباً نیمی از سطرها را نشان می‌دهند. این نشان می‌دهد که ممکن است استراتژی‌های متفاوتی برای مقادیر گمشده برای ستون‌های مختلف مورد نیاز باشد، به عنوان مثال. تا اطمینان حاصل شود که هنوز تعداد کافی رکورد برای آموزش یک مدل پیش بینی باقی مانده است.
• هنگامی که یک پیش‌بینی‌کننده ماهیت گسسته دارد، مفقودی را می‌توان مستقیماً در پیش‌بینی‌کننده رمزگذاری کرد، گویی یک مقوله طبیعی است.
در پایتون، به‌ویژه Pandas، NumPy و Scikit-Learn، مقادیر گمشده را به‌عنوان NaN علامت‌گذاری می‌کنیم. مقادیر با مقدار NaN از عملیات‌هایی مانند sum، count و غیره نادیده گرفته می‌شوند. ما می‌توانیم مقادیر را به راحتی با Pandas DataFrame با استفاده از تابع ()replace در زیر مجموعه‌ای از ستون‌هایی که به آن‌ها علاقه مندیم، به عنوان NaN علامت‌گذاری کنیم. مقادیر از دست رفته، می‌توانیم از تابع isnull() برای علامت‌گذاری تمام مقادیر NaN در مجموعه داده به عنوان True استفاده کنیم و تعداد مقادیر گمشده را برای هر ستون دریافت کنیم.

با اجرای مثال، تعداد مقادیر گم شده در هر ستون چاپ می شود. می بینیم که ستون های 1 تا 5 دارای همان تعداد مقادیر گم شده با مقادیر صفر هستند که در بالا مشخص شده است. این نشانه آن است که مقادیر گمشده شناسایی شده را به درستی علامت گذاری کرده ایم.
این یک خلاصه مفید است، زیرا می خواهیم تأیید کنیم که به نحوی خودمان را فریب نداده ایم. در زیر همان مثال وجود دارد، با این تفاوت که ما 20 ردیف اول داده را چاپ می کنیم .با اجرای مثال، می‌توانیم به وضوح مقادیر NaN را در ستون‌های 2، 3، 4 و 5 ببینیم. در ستون 1 فقط 5 مقدار گم شده است، بنابراین جای تعجب نیست که در 20 ردیف اول نمونه‌ای ندیدیم. از داده های خام مشخص است که علامت گذاری مقادیر از دست رفته تأثیر مورد نظر را داشته است.

قبل از اینکه به بررسی مقادیر از دست رفته بپردازیم، اجازه دهید ابتدا نشان دهیم که وجود مقادیر از دست رفته در یک مجموعه داده می تواند باعث ایجاد مشکل شود

برچسب‌ها:استخدام برنامه نویس, استخدام گرافیست, انیمیشن سازی, تبلیغ انیمیشنی, خرید سایت آماده, خرید قالب وردپرس, طراحی بنر, طراحی کارت ویزیت, طراحی لوگو, موشن گرافیک, نهال آی تی

علیرضا بابامرادی

تاریخ عضویت:19 سپتامبر 2022

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید لغو پاسخ

لینک کوتاه:

علامت گذاری مقادیر از دست رفته(نحوه علامت گذاری و حذف داده های از دست رفته)