آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

KNNI کامپیوتر و ارزیابی مدل

دسته بندی :اخبار سایت 20 می 2023 علیرضا بابامرادی 201

KNNI کامپیوتر و ارزیابی مدل

 

ارزیابی مدل‌های یادگیری ماشین روی یک مجموعه داده با استفاده از اعتبارسنجی متقاطع k-fold یک تمرین خوب است. برای اعمال صحیح انتساب داده‌های گمشده نزدیک‌ترین همسایه و جلوگیری از نشت داده‌ها، لازم است مدل‌های محاسبه‌شده برای هر ستون فقط بر روی مجموعه داده آموزشی محاسبه شوند، سپس برای قطار و مجموعه‌های آزمایشی برای هر تا در مجموعه داده اعمال شوند. این را می توان با ایجاد یک خط لوله مدل سازی که در آن مرحله اول نزدیکترین همسایه و سپس مرحله دوم مدل است، به دست آمد. ما این را با استفاده از کلاس Pipeline پیاده سازی می کنیم. به عنوان مثال، خط لوله زیر از یک KNNImputer با استراتژی پیش‌فرض و به دنبال آن یک مدل جنگل تصادفی استفاده می‌کند.

 

ما می‌توانیم مجموعه داده منتسب و خط لوله مدل‌سازی تصادفی جنگل را برای مجموعه داده‌های قولنج اسب با اعتبارسنجی متقاطع 10 برابری مکرر ارزیابی کنیم. مثال کامل در زیر آمده است.

اجرای صحیح مثال، انباشت داده را در هر قسمت از روش اعتبارسنجی متقابل اعمال می کند.
توجه : نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
خط لوله با استفاده از سه تکرار اعتبارسنجی متقاطع 10 برابری ارزیابی می‌شود و میانگین دقت طبقه‌بندی روی مجموعه داده را حدود 86.2 درصد گزارش می‌کند که یک امتیاز معقول است.

چگونه بفهمیم که استفاده از یک عدد پیش فرض همسایه های پنج برای این مجموعه داده خوب یا بهترین است؟ پاسخ این است که ما نداریم.
KNN کامپیوتر و تعداد همسایه های مختلف

فراپارامتر کلیدی برای الگوریتم KNN k است. که تعداد نزدیکترین همسایه هایی را که برای کمک به یک پیش بینی استفاده می شوند، کنترل می کند. تمرین خوبی است که مجموعه ای از مقادیر مختلف را برای k آزمایش کنید. مثال زیر خطوط لوله مدل را ارزیابی می کند و مقادیر فرد را برای k از 1 تا 21 مقایسه می کند.

اجرای مثال، هر مقدار k را در مجموعه داده قولنج اسب با استفاده از اعتبارسنجی متقاطع مکرر ارزیابی می کند.
توجه: نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
میانگین دقت طبقه بندی برای خط لوله با هر مقدار k که برای انتساب استفاده می شود گزارش می شود. در این مورد، می‌توانیم ببینیم که مقادیر k بزرگتر منجر به عملکرد بهتر مدل می‌شود، با k = 5 که منجر به بهترین عملکرد با دقت 86.9 درصد می‌شود.

در پایان اجرا، یک نمودار جعبه و سبیل برای هر مجموعه ای از نتایج ایجاد می شود که امکان مقایسه توزیع نتایج را فراهم می کند. نمودار نشان می دهد که تفاوت زیادی در مقدار k در هنگام نسبت دادن مقادیر از دست رفته، با نوسانات جزئی در اطراف میانگین عملکرد (مثلث سبز) وجود ندارد.

نمودار جعبه و ویسکر تعداد همسایگان
برای مجموعه داده کولیک اسب.

تبدیل KNNI کامپیوتر هنگام انجام یک پیش بینی

 

ممکن است بخواهیم یک خط لوله مدل‌سازی نهایی با نزدیک‌ترین همسایه و الگوریتم جنگل تصادفی ایجاد کنیم، سپس برای داده‌های جدید پیش‌بینی کنیم. این را می توان با تعریف خط لوله و برازش آن بر روی تمام داده های موجود، سپس فراخوانی تابع ()predict، ارسال داده های جدید به عنوان آرگومان به دست آورد. نکته مهم این است که ردیف داده های جدید باید هر مقدار از دست رفته را با استفاده از مقدار NaN مشخص کند.مثال کامل در زیر آمده است.

اجرای مثال با خط لوله مدل سازی در تمام داده های موجود مطابقت دارد. یک ردیف جدید از داده ها با مقادیر گمشده مشخص شده با NaN تعریف می شود و یک پیش بینی طبقه بندی انجام می شود.

خلاصه

در این آموزش، نحوه استفاده از استراتژی‌های انتساب نزدیک‌ترین همسایه برای داده‌های از دست رفته در یادگیری ماشین را کشف کردید. به طور خاص، شما یاد گرفتید:
 مقادیر گم شده باید با مقادیر NaN مشخص شوند و می توان آنها را با مقادیر تخمینی نزدیکترین همسایه جایگزین کرد.
 نحوه بارگذاری یک فایل CSV با مقادیر از دست رفته و علامت گذاری مقادیر از دست رفته با مقادیر NaN و گزارش تعداد و درصد مقادیر از دست رفته برای هر ستون.
 چگونه می توان مقادیر گمشده را با مدل های نزدیکترین همسایه به عنوان یک روش آماده سازی داده در هنگام ارزیابی مدل ها و هنگام برازش مدل نهایی برای پیش بینی داده های جدید نسبت داد.
در بخش بعدی، نحوه استفاده از یک مدل تکراری برای محاسبه مقادیر داده از دست رفته را بررسی خواهیم کرد…

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0