آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

نحوه علامت گذاری و حذف داده های از دست رفته

دسته بندی :اخبار سایت 15 می 2023 علیرضا بابامرادی 268

نحوه علامت گذاری و حذف داده های از دست رفته

داده های دنیای واقعی اغلب مقادیر گم شده ای دارند. داده ها ممکن است به دلایل مختلفی مانند مشاهداتی که ثبت نشده اند و خرابی داده ها دارای مقادیر گم شده باشند. مدیریت داده‌های از دست رفته مهم است زیرا بسیاری از الگوریتم‌های یادگیری ماشین از داده‌هایی با مقادیر گمشده پشتیبانی نمی‌کنند. در این آموزش، نحوه مدیریت داده های از دست رفته برای یادگیری ماشین با پایتون را خواهید یافت. به طور خاص، پس از تکمیل این آموزش می دانید:
• چگونه مقادیر نامعتبر یا فاسد را در مجموعه داده خود علامت گذاری کنید.
• چگونه می توان تأیید کرد که وجود مقادیر از دست رفته علامت گذاری شده باعث ایجاد مشکل برای یادگیری الگوریتم ها می شود.
• نحوه حذف ردیف هایی با داده های از دست رفته از مجموعه داده خود و ارزیابی الگوریتم یادگیری بر روی مجموعه داده تبدیل شده.
بیاید شروع کنیم.
7.1 نمای کلی آموزش

این آموزش به 4 قسمت تقسیم شده است. آن ها هستند:
1. مجموعه اطلاعات دیابت
2. مقادیر گمشده را علامت بزنید
3. ارزش های از دست رفته باعث مشکلات می شود
4. ردیف هایی با مقادیر از دست رفته را حذف کنید.

7.2 مجموعه داده های دیابت

به عنوان اساس این آموزش، ما از مجموعه داده های دیابت استفاده خواهیم کرد که از دهه 1990 به طور گسترده به عنوان مجموعه داده یادگیری ماشینی مورد مطالعه قرار گرفته است. مجموعه داده ها داده های بیمار را به عنوان شروع دیابت در عرض پنج سال یا نه طبقه بندی می کند. 768 مثال و هشت متغیر ورودی وجود دارد. این یک مشکل طبقه بندی باینری است. یک مدل ساده و بی تکلف می تواند به دقت حدود 65 درصد در این مجموعه داده دست یابد. نمره خوب حدود 77 درصد است. ما برای این منطقه هدف خواهیم داشت، اما توجه داشته باشید که مدل های این آموزش بهینه نشده اند. آنها برای نشان دادن طرح های انتخاب ویژگی طراحی شده اند.
با نگاه کردن به داده ها، می بینیم که هر 9 متغیر ورودی عددی هستند.
¬¬

مشخص است که این مجموعه داده دارای مقادیر گم شده است. به طور خاص، مشاهدات گمشده برای برخی از ستون‌ها وجود دارد که به عنوان مقدار صفر علامت ‌گذاری شده‌اند. ما می‌توانیم این را با تعریف آن ستون‌ها و دانش دامنه که یک مقدار صفر برای آن معیارها نامعتبر است، تأیید کنیم، به عنوان مثال: صفر برای شاخص توده بدن یا فشار خون نامعتبر است.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0