آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

SimpleImputer و ارزیابی مدل (نحوه استفاده از محاسبه آماری)

دسته بندی :اخبار سایت 17 می 2023 علیرضا بابامرادی 278

SimpleImputer و ارزیابی مدل

ارزیابی مدل‌های یادگیری ماشین بر روی یک مجموعه داده با استفاده از اعتبارسنجی متقاطع k-fold یک تمرین خوب است. برای اعمال صحیح داده‌های گمشده آماری و جلوگیری از نشت داده‌ها، لازم است آمار محاسبه‌شده برای هر ستون فقط بر روی مجموعه داده آموزشی محاسبه شود، سپس برای قطار و مجموعه‌های آزمایشی برای هر برابر مجموعه داده اعمال شود.
• اگر از نمونه‌گیری مجدد برای انتخاب مقادیر پارامتر تنظیم یا تخمین عملکرد استفاده می‌کنیم، انتساب باید در نمونه‌گیری مجدد گنجانده شود.
این را می توان با ایجاد یک خط لوله مدل سازی که در آن مرحله اول محاسبه آماری است، سپس مرحله دوم مدل است. این را می توان با استفاده از کلاس Pipeline به دست آورد. به عنوان مثال، خط لوله زیر از یک SimpleImputer با یک استراتژی «میانگین» و به دنبال آن یک مدل جنگل تصادفی استفاده می‌کند.

ما می‌توانیم مجموعه داده‌های منتسب شده و خط لوله مدل‌ سازی تصادفی جنگل را برای مجموعه داده‌های قولنج اسب با اعتبارسنجی متقاطع ۱۰ برابری مکرر ارزیابی کنیم. مثال کامل در زیر آمده است.

اجرای صحیح مثال، انباشت داده را در هر قسمت از روش اعتبارسنجی متقابل اعمال می کند.
توجه : نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
خط لوله با استفاده از سه تکرار اعتبارسنجی متقاطع 10 برابری ارزیابی می‌شود و میانگین دقت طبقه‌بندی مجموعه داده را حدود 86.6 درصد گزارش می‌کند که امتیاز خوبی است.

خروجی نمونه از ارزیابی یک مدل بر روی یک مجموعه داده با تلفیق آماری.
8.4.3 مقایسه آمارهای مختلف نسبت داده شده

چگونه بفهمیم که استفاده از یک استراتژی آماری «میانگین» برای این مجموعه داده خوب یا بهترین است؟ پاسخ این است که ما این کار را نمی کنیم و خودسرانه انتخاب شده است. ما می‌توانیم آزمایشی برای آزمایش هر استراتژی آماری طراحی کنیم و با مقایسه استراتژی‌های میانگین، میانه، حالت (متداول‌ترین) و ثابت (0) کشف کنیم که چه چیزی برای این مجموعه داده بهتر است. سپس می توان میانگین دقت هر رویکرد را مقایسه کرد. مثال کامل در زیر آمده است.

نمونه ای از مقایسه عملکرد مدل با راهبردهای آماری مختلف.
اجرای مثال با استفاده از اعتبارسنجی متقاطع مکرر، هر استراتژی انتساب آماری را روی مجموعه داده قولنج اسب ارزیابی می کند. میانگین دقت هر استراتژی در طول مسیر گزارش می شود.
توجه : نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
در این مورد، نتایج نشان می دهد که با استفاده از یک مقدار ثابت، به عنوان مثال. 0، بهترین عملکرد را در حدود 87.8 درصد نشان می دهد که نتیجه فوق العاده ای است.

در پایان اجرا، یک نمودار جعبه و سبیل برای هر مجموعه ای از نتایج ایجاد می شود که امکان مقایسه توزیع نتایج را فراهم می کند. می بینیم که توزیع امتیازات دقت برای استراتژی ثابت ممکن است بهتر از استراتژی های دیگر باشد

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0