آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

نحوه استفاده از محاسبه آماری

دسته بندی :اخبار سایت 17 می 2023 علیرضا بابامرادی 240

مجموعه داده ها ممکن است مقادیر گم شده ای داشته باشند و این می تواند برای بسیاری از الگوریتم های یادگیری ماشین مشکلاتی ایجاد کند. به این ترتیب، شناسایی و جایگزینی مقادیر از دست رفته برای هر ستون در داده‌های ورودی، قبل از مدل‌سازی کار پیش‌بینی، تمرین خوبی است. به این می‌گویند گمشده داده یا به اختصار imputing. یک رویکرد رایج برای انتساب داده ها، محاسبه یک مقدار آماری برای هر ستون (مانند میانگین) و جایگزینی تمام مقادیر از دست رفته برای آن ستون با آمار است. این یک رویکرد محبوب است زیرا محاسبه آمار با استفاده از مجموعه داده های آموزشی آسان است و به دلیل اینکه اغلب منجر به عملکرد خوب می شود. در این آموزش، نحوه استفاده از استراتژی های انتساب آماری برای داده های از دست رفته در یادگیری ماشین را خواهید یافت. پس از تکمیل این آموزش، خواهید دانست:
• مقادیر گم شده باید با مقادیر NaN مشخص شوند و می توان آنها را با معیارهای آماری برای محاسبه ستون مقادیر جایگزین کرد.
• نحوه بارگذاری یک فایل CSV با مقادیر از دست رفته و علامت گذاری مقادیر از دست رفته با مقادیر NaN و گزارش تعداد و درصد مقادیر از دست رفته برای هر ستون.
• چگونه می توان مقادیر گمشده را با آمار به عنوان روش تهیه داده در هنگام ارزیابی مدل ها و هنگام برازش یک مدل نهایی برای پیش بینی داده های جدید نسبت داد.
بیا شروع کنیم.
8.1 مرور کلی آموزش

این آموزش به سه بخش تقسیم می شود؛ آن ها هستند:
1. محاسبه آماری
2. مجموعه داده کولیک اسب
3. نسبت آماری با SimpleImputer

 

محاسبه آماری

ممکن است یک مجموعه داده دارای مقادیر گم شده باشد. اینها ردیف هایی از داده ها هستند که یک یا چند مقدار یا ستون در آن ردیف وجود ندارد. ممکن است مقادیر به طور کامل گم شده باشند یا ممکن است با یک کاراکتر یا مقدار خاص مانند علامت سوال (“؟”) علامت گذاری شوند.
• این ارزش ها را می توان به روش های مختلفی بیان کرد. من دیده ام که آنها به عنوان هیچ چیز […]، یک رشته خالی […]، رشته صریح NULL یا undefined یا N/A یا NaN، و عدد 0، در میان دیگران دیده شده اند. مهم نیست که آنها چگونه در مجموعه داده شما ظاهر می شوند، دانستن اینکه چه چیزی باید انتظار داشته باشید و بررسی برای اطمینان از مطابقت داده ها با آن انتظار، مشکلات را با شروع استفاده از داده ها کاهش می دهد.
مقادیر ممکن است به دلایل زیادی وجود نداشته باشند، اغلب مختص به حوزه مشکل، و ممکن است شامل دلایلی مانند اندازه گیری های خراب یا در دسترس نبودن داده ها نباشد.
• مقادیر ممکن است به دلایل زیادی وجود نداشته باشند، اغلب مختص به حوزه مشکل، و ممکن است شامل دلایلی مانند اندازه گیری های خراب یا در دسترس نبودن داده ها نباشد.
اکثر الگوریتم‌های یادگیری ماشینی به مقادیر ورودی عددی و یک مقدار برای هر سطر و ستون در یک مجموعه داده نیاز دارند. به این ترتیب، مقادیر از دست رفته می تواند برای الگوریتم های یادگیری ماشین مشکلاتی ایجاد کند. به همین دلیل، شناسایی مقادیر از دست رفته در یک مجموعه داده و جایگزینی آنها با یک مقدار عددی معمول است. به این می گویند داده imputing یا از دست رفته داده.
یک رویکرد ساده و رایج برای انتساب داده ها شامل استفاده از روش های آماری برای تخمین یک مقدار برای یک ستون از مقادیر موجود است، سپس همه مقادیر از دست رفته در ستون را با آمار محاسبه شده جایگزین کنید. این ساده است زیرا آمار سریع محاسبه می شود و محبوب است زیرا اغلب بسیار مؤثر است. آمارهای رایج محاسبه شده عبارتند از:
• مقدار میانگین ستون.
• مقدار میانه ستون.
• مقدار حالت ستون.
• یک مقدار ثابت.
اکنون که با روش‌های آماری برای محاسبه مقدار از دست رفته آشنا شدیم، بیایید نگاهی به مجموعه داده‌ای با مقادیر گمشده بیندازیم.

 

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0