تبدیل SimpleImputer هنگام انجام یک پیش بینی و نحوه استفاده از KNN Imputation

دسته بندی :اخبار سایت 18 می 2023 علیرضا بابامرادی 199

تبدیل SimpleImputer هنگام انجام یک پیش بینی

ممکن است بخواهیم یک خط لوله مدل سازی نهایی با استراتژی انتساب ثابت و الگوریتم جنگل تصادفی ایجاد کنیم، سپس برای داده های جدید پیش بینی کنیم. این را می توان با تعریف خط لوله و برازش آن بر روی تمام داده های موجود، سپس فراخوانی تابع ()predict که داده های جدید را به عنوان آرگومان ارسال می کند، به دست آورد. نکته مهم این است که ردیف داده های جدید باید هر مقدار از دست رفته را با استفاده از مقدار NaN مشخص کند.

مثال کامل در زیر آمده است.

نمونه ای از پیش بینی داده های با مقادیر از دست رفته
اجرای مثال با خط لوله مدل سازی در تمام داده های موجود مطابقت دارد. یک ردیف جدید از داده ها با مقادیر گمشده مشخص شده با NaN تعریف می شود و یک پیش بینی طبقه بندی انجام می شود.

خلاصه

در این آموزش، نحوه استفاده از استراتژی های انتساب آماری برای داده های از دست رفته در یادگیری ماشین را کشف کردید. به طور خاص، شما یاد گرفتید:
 مقادیر گم شده باید با مقادیر NaN مشخص شوند و می توان آنها را با معیارهای آماری برای محاسبه ستون مقادیر جایگزین کرد
 .نحوه بارگذاری یک فایل CSV با مقادیر از دست رفته و علامت گذاری مقادیر از دست رفته با مقادیر NaN و گزارش تعداد و درصد مقادیر از دست رفته برای هر ستون.
 چگونه می توان مقادیر گمشده را با آمار به عنوان روش تهیه داده در هنگام ارزیابی مدل ها و هنگام برازش یک مدل نهایی برای پیش بینی داده های جدید نسبت داد.
در بخش بعدی، چگونگی نسبت دادن مقادیر داده های از دست رفته را با استفاده از یک مدل پیش بینی بررسی خواهیم کرد.

نحوه استفاده از KNN Imputation

مجموعه داده ها ممکن است مقادیر گم شده ای داشته باشند و این می تواند برای بسیاری از الگوریتم های یادگیری ماشین مشکلاتی ایجاد کند. به این ترتیب، شناسایی و جایگزینی مقادیر از دست رفته برای هر ستون در داده‌های ورودی، قبل از مدل‌سازی کار پیش‌بینی، تمرین خوبی است. به این می‌گویند گمشده داده یا به اختصار. imputing یک رویکرد رایج برای انتساب داده های از دست رفته استفاده از مدلی برای پیش بینی مقادیر از دست رفته است. این مستلزم ایجاد مدلی برای هر متغیر ورودی است که دارای مقادیر گم شده است. اگرچه هر یک از طیف وسیعی از مدل‌های مختلف را می‌توان برای پیش‌بینی مقادیر از دست رفته استفاده کرد، الگوریتم k-نزدیک‌ترین همسایه (KNN) به طور کلی مؤثر است، که اغلب به عنوان نزدیک‌ترین همسایه نسبت داده می‌شود. در این آموزش، نحوه استفاده از استراتژی های انتساب نزدیکترین همسایه برای داده های از دست رفته در یادگیری ماشین را خواهید یافت. پس از تکمیل این آموزش، خواهید دانست:
 مقادیر گم شده باید با مقادیر NaN مشخص شوند و می توان آنها را با مقادیر تخمینی نزدیکترین همسایه جایگزین کرد.
 نحوه بارگذاری یک فایل CSV با مقادیر از دست رفته و علامت گذاری مقادیر از دست رفته با مقادیر NaN و گزارش تعداد و درصد مقادیر از دست رفته برای هر ستون.
 چگونه می توان مقادیر گمشده را با مدل های نزدیکترین همسایه به عنوان یک روش آماده سازی داده در هنگام ارزیابی مدل ها و هنگام برازش مدل نهایی برای پیش بینی داده های جدید نسبت داد.
بیا شروع کنیم.
9.1 مرور کلی آموزش

این آموزش به سه بخش تقسیم می شود؛ آن ها هستند:
1. k-نزدیکترین همسایه
2. مجموعه داده کولیک اسب
3. نزدیکترین همسایه با KNNImputer

برچسب‌ها:استخدام برنامه نویس, استخدام گرافیست, انیمیشن سازی, تبلیغ انیمیشنی, خرید سایت آماده, خرید قالب وردپرس, طراحی بنر, طراحی کارت ویزیت, طراحی لوگو, موشن گرافیک, نهال آی تی

علیرضا بابامرادی

تاریخ عضویت:19 سپتامبر 2022

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید لغو پاسخ

لینک کوتاه:

تبدیل SimpleImputer هنگام انجام یک پیش بینی و نحوه استفاده از KNN Imputation

تبدیل SimpleImputer هنگام انجام یک پیش بینی