KNNI کامپیوتر و ارزیابی مدل
KNNI کامپیوتر و ارزیابی مدل
ارزیابی مدلهای یادگیری ماشین روی یک مجموعه داده با استفاده از اعتبارسنجی متقاطع k-fold یک تمرین خوب است. برای اعمال صحیح انتساب دادههای گمشده نزدیکترین همسایه و جلوگیری از نشت دادهها، لازم است مدلهای محاسبهشده برای هر ستون فقط بر روی مجموعه داده آموزشی محاسبه شوند، سپس برای قطار و مجموعههای آزمایشی برای هر تا در مجموعه داده اعمال شوند. این را می توان با ایجاد یک خط لوله مدل سازی که در آن مرحله اول نزدیکترین همسایه و سپس مرحله دوم مدل است، به دست آمد. ما این را با استفاده از کلاس Pipeline پیاده سازی می کنیم. به عنوان مثال، خط لوله زیر از یک KNNImputer با استراتژی پیشفرض و به دنبال آن یک مدل جنگل تصادفی استفاده میکند.
ما میتوانیم مجموعه داده منتسب و خط لوله مدلسازی تصادفی جنگل را برای مجموعه دادههای قولنج اسب با اعتبارسنجی متقاطع 10 برابری مکرر ارزیابی کنیم. مثال کامل در زیر آمده است.
اجرای صحیح مثال، انباشت داده را در هر قسمت از روش اعتبارسنجی متقابل اعمال می کند.
توجه : نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
خط لوله با استفاده از سه تکرار اعتبارسنجی متقاطع 10 برابری ارزیابی میشود و میانگین دقت طبقهبندی روی مجموعه داده را حدود 86.2 درصد گزارش میکند که یک امتیاز معقول است.
چگونه بفهمیم که استفاده از یک عدد پیش فرض همسایه های پنج برای این مجموعه داده خوب یا بهترین است؟ پاسخ این است که ما نداریم.
KNN کامپیوتر و تعداد همسایه های مختلف
فراپارامتر کلیدی برای الگوریتم KNN k است. که تعداد نزدیکترین همسایه هایی را که برای کمک به یک پیش بینی استفاده می شوند، کنترل می کند. تمرین خوبی است که مجموعه ای از مقادیر مختلف را برای k آزمایش کنید. مثال زیر خطوط لوله مدل را ارزیابی می کند و مقادیر فرد را برای k از 1 تا 21 مقایسه می کند.
اجرای مثال، هر مقدار k را در مجموعه داده قولنج اسب با استفاده از اعتبارسنجی متقاطع مکرر ارزیابی می کند.
توجه: نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
میانگین دقت طبقه بندی برای خط لوله با هر مقدار k که برای انتساب استفاده می شود گزارش می شود. در این مورد، میتوانیم ببینیم که مقادیر k بزرگتر منجر به عملکرد بهتر مدل میشود، با k = 5 که منجر به بهترین عملکرد با دقت 86.9 درصد میشود.
در پایان اجرا، یک نمودار جعبه و سبیل برای هر مجموعه ای از نتایج ایجاد می شود که امکان مقایسه توزیع نتایج را فراهم می کند. نمودار نشان می دهد که تفاوت زیادی در مقدار k در هنگام نسبت دادن مقادیر از دست رفته، با نوسانات جزئی در اطراف میانگین عملکرد (مثلث سبز) وجود ندارد.
نمودار جعبه و ویسکر تعداد همسایگان
برای مجموعه داده کولیک اسب.
تبدیل KNNI کامپیوتر هنگام انجام یک پیش بینی
ممکن است بخواهیم یک خط لوله مدلسازی نهایی با نزدیکترین همسایه و الگوریتم جنگل تصادفی ایجاد کنیم، سپس برای دادههای جدید پیشبینی کنیم. این را می توان با تعریف خط لوله و برازش آن بر روی تمام داده های موجود، سپس فراخوانی تابع ()predict، ارسال داده های جدید به عنوان آرگومان به دست آورد. نکته مهم این است که ردیف داده های جدید باید هر مقدار از دست رفته را با استفاده از مقدار NaN مشخص کند.مثال کامل در زیر آمده است.
اجرای مثال با خط لوله مدل سازی در تمام داده های موجود مطابقت دارد. یک ردیف جدید از داده ها با مقادیر گمشده مشخص شده با NaN تعریف می شود و یک پیش بینی طبقه بندی انجام می شود.
خلاصه
در این آموزش، نحوه استفاده از استراتژیهای انتساب نزدیکترین همسایه برای دادههای از دست رفته در یادگیری ماشین را کشف کردید. به طور خاص، شما یاد گرفتید:
مقادیر گم شده باید با مقادیر NaN مشخص شوند و می توان آنها را با مقادیر تخمینی نزدیکترین همسایه جایگزین کرد.
نحوه بارگذاری یک فایل CSV با مقادیر از دست رفته و علامت گذاری مقادیر از دست رفته با مقادیر NaN و گزارش تعداد و درصد مقادیر از دست رفته برای هر ستون.
چگونه می توان مقادیر گمشده را با مدل های نزدیکترین همسایه به عنوان یک روش آماده سازی داده در هنگام ارزیابی مدل ها و هنگام برازش مدل نهایی برای پیش بینی داده های جدید نسبت داد.
در بخش بعدی، نحوه استفاده از یک مدل تکراری برای محاسبه مقادیر داده از دست رفته را بررسی خواهیم کرد…
قوانین ارسال دیدگاه در سایت