تبدیل SimpleImputer هنگام انجام یک پیش بینی و نحوه استفاده از KNN Imputation
تبدیل SimpleImputer هنگام انجام یک پیش بینی
ممکن است بخواهیم یک خط لوله مدل سازی نهایی با استراتژی انتساب ثابت و الگوریتم جنگل تصادفی ایجاد کنیم، سپس برای داده های جدید پیش بینی کنیم. این را می توان با تعریف خط لوله و برازش آن بر روی تمام داده های موجود، سپس فراخوانی تابع ()predict که داده های جدید را به عنوان آرگومان ارسال می کند، به دست آورد. نکته مهم این است که ردیف داده های جدید باید هر مقدار از دست رفته را با استفاده از مقدار NaN مشخص کند.
مثال کامل در زیر آمده است.
نمونه ای از پیش بینی داده های با مقادیر از دست رفته
اجرای مثال با خط لوله مدل سازی در تمام داده های موجود مطابقت دارد. یک ردیف جدید از داده ها با مقادیر گمشده مشخص شده با NaN تعریف می شود و یک پیش بینی طبقه بندی انجام می شود.
خلاصه
در این آموزش، نحوه استفاده از استراتژی های انتساب آماری برای داده های از دست رفته در یادگیری ماشین را کشف کردید. به طور خاص، شما یاد گرفتید:
مقادیر گم شده باید با مقادیر NaN مشخص شوند و می توان آنها را با معیارهای آماری برای محاسبه ستون مقادیر جایگزین کرد
.نحوه بارگذاری یک فایل CSV با مقادیر از دست رفته و علامت گذاری مقادیر از دست رفته با مقادیر NaN و گزارش تعداد و درصد مقادیر از دست رفته برای هر ستون.
چگونه می توان مقادیر گمشده را با آمار به عنوان روش تهیه داده در هنگام ارزیابی مدل ها و هنگام برازش یک مدل نهایی برای پیش بینی داده های جدید نسبت داد.
در بخش بعدی، چگونگی نسبت دادن مقادیر داده های از دست رفته را با استفاده از یک مدل پیش بینی بررسی خواهیم کرد.
نحوه استفاده از KNN Imputation
مجموعه داده ها ممکن است مقادیر گم شده ای داشته باشند و این می تواند برای بسیاری از الگوریتم های یادگیری ماشین مشکلاتی ایجاد کند. به این ترتیب، شناسایی و جایگزینی مقادیر از دست رفته برای هر ستون در دادههای ورودی، قبل از مدلسازی کار پیشبینی، تمرین خوبی است. به این میگویند گمشده داده یا به اختصار. imputing یک رویکرد رایج برای انتساب داده های از دست رفته استفاده از مدلی برای پیش بینی مقادیر از دست رفته است. این مستلزم ایجاد مدلی برای هر متغیر ورودی است که دارای مقادیر گم شده است. اگرچه هر یک از طیف وسیعی از مدلهای مختلف را میتوان برای پیشبینی مقادیر از دست رفته استفاده کرد، الگوریتم k-نزدیکترین همسایه (KNN) به طور کلی مؤثر است، که اغلب به عنوان نزدیکترین همسایه نسبت داده میشود. در این آموزش، نحوه استفاده از استراتژی های انتساب نزدیکترین همسایه برای داده های از دست رفته در یادگیری ماشین را خواهید یافت. پس از تکمیل این آموزش، خواهید دانست:
مقادیر گم شده باید با مقادیر NaN مشخص شوند و می توان آنها را با مقادیر تخمینی نزدیکترین همسایه جایگزین کرد.
نحوه بارگذاری یک فایل CSV با مقادیر از دست رفته و علامت گذاری مقادیر از دست رفته با مقادیر NaN و گزارش تعداد و درصد مقادیر از دست رفته برای هر ستون.
چگونه می توان مقادیر گمشده را با مدل های نزدیکترین همسایه به عنوان یک روش آماده سازی داده در هنگام ارزیابی مدل ها و هنگام برازش مدل نهایی برای پیش بینی داده های جدید نسبت داد.
بیا شروع کنیم.
9.1 مرور کلی آموزش
این آموزش به سه بخش تقسیم می شود؛ آن ها هستند:
1. k-نزدیکترین همسایه
2. مجموعه داده کولیک اسب
3. نزدیکترین همسایه با KNNImputer
قوانین ارسال دیدگاه در سایت