آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

ارزش های از دست رفته باعث مشکلات می شود(نحوه علامت گذاری و حذف داده های از دست رفته)

دسته بندی :اخبار سایت 15 می 2023 علیرضا بابامرادی 230

ارزش های از دست رفته باعث مشکلات می شود

وجود مقادیر از دست رفته در یک مجموعه داده می تواند باعث ایجاد خطا در برخی از الگوریتم های یادگیری ماشین شود.
• مقادیر از دست رفته اتفاقات رایج در داده ها هستند. متأسفانه، بیشتر تکنیک‌های مدل‌سازی پیش‌بینی‌کننده نمی‌توانند هیچ مقدار از دست رفته را مدیریت کنند. بنابراین، این مشکل باید قبل از مدل سازی برطرف شود.
در این بخش سعی خواهیم کرد الگوریتم تحلیل تشخیصی خطی (LDA) را روی مجموعه داده با مقادیر گمشده ارزیابی کنیم. این الگوریتمی است که در صورت وجود مقادیر از دست رفته در مجموعه داده کار نمی کند. مثال زیر مقادیر از دست رفته در مجموعه داده را مشخص می کند، همانطور که در بخش قبل انجام دادیم، سپس سعی می کند LDA را با استفاده از اعتبارسنجی متقاطع 3 برابر ارزیابی کند و دقت متوسط را چاپ کند.

این همان چیزی است که ما انتظار داریم. ما از ارزیابی یک الگوریتم LDA (و سایر الگوریتم‌ها) روی مجموعه داده با مقادیر گمشده جلوگیری می‌کنیم.
• بسیاری از مدل‌های پیش‌بینی محبوب مانند ماشین‌های بردار پشتیبان، glmnet و شبکه‌های عصبی، نمی‌توانند مقداری از مقادیر از دست رفته را تحمل کنند.
اکنون می‌توانیم روش‌هایی را برای مدیریت مقادیر از دست رفته بررسی کنیم.

 ردیف هایی با مقادیر از دست رفته را حذف کنید

ساده ترین استراتژی برای مدیریت داده های از دست رفته حذف رکوردهایی است که حاوی مقدار گم شده هستند.
ساده‌ترین روش برای مقابله با مقادیر از دست رفته، حذف کل پیش‌بینی‌کننده(ها) و/یا نمونه(های) حاوی مقادیر گمشده است.
ما می‌توانیم این کار را با ایجاد یک Pandas DataFrame جدید با ردیف‌های حاوی مقادیر گمشده حذف کنیم. Pandas تابع dropna() را ارائه می‌کند که می‌تواند برای رها کردن ستون‌ها یا ردیف‌هایی با داده‌های از دست رفته استفاده شود. ما می‌توانیم ازdropna() برای حذف تمام ردیف‌هایی که داده‌های گمشده دارند، به شرح زیر استفاده کنیم:

با اجرای این مثال، می‌توانیم ببینیم که تعداد ردیف‌ها از 768 در مجموعه داده اصلی به 392 با تمام ردیف‌های حاوی NaN حذف شده است.

ما اکنون یک مجموعه داده داریم که می توانیم از آن برای ارزیابی یک الگوریتم حساس به مقادیر گمشده مانند LDA استفاده کنیم.

مثال با موفقیت اجرا می شود و دقت مدل را چاپ می کند.

حذف ردیف‌هایی با مقادیر گمشده می‌تواند برای برخی از مشکلات مدل‌سازی پیش‌بینی‌کننده بسیار محدودکننده باشد، یک جایگزین این است که مقادیر گمشده را نسبت دهیم.

در این آموزش، نحوه مدیریت داده های یادگیری ماشینی که حاوی مقادیر گم شده هستند را کشف کردید. به طور خاص، شما یاد گرفتید:
• نحوه علامت گذاری مقادیر نامعتبر یا خراب به عنوان مفقود در مجموعه داده شما.
• چگونه می توان تأیید کرد که وجود مقادیر از دست رفته مشخص شده باعث ایجاد مشکل برای یادگیری الگوریتم ها می شود.
• نحوه حذف ردیف هایی با داده های از دست رفته از مجموعه داده خود و ارزیابی الگوریتم یادگیری بر روی مجموعه داده تبدیل شده.
در بخش بعدی، بررسی خواهیم کرد که چگونه می توانیم مقادیر داده های از دست رفته را با استفاده از آمار نسبت دهیم.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0