آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

ارزیابی متقابل اعتبارسنجی با آماده سازی صحیح داده ها

دسته بندی :اخبار سایت 10 می 2023 علیرضا بابامرادی 260

آماده سازی داده بدون نشت داده هنگام استفاده از اعتبارسنجی متقابل کمی چالش برانگیزتر است. این مستلزم آن است که روش آماده‌ سازی داده‌ها بر روی مجموعه آموزشی آماده شده و بر روی قطار و مجموعه‌های آزمایشی در فرآیند اعتبارسنجی متقابل اعمال شود. به عنوان مثال گروه folds ردیف ها. ما می‌توانیم با تعریف خط لوله مدل‌سازی که دنباله‌ای از مراحل آماده‌سازی داده‌ها را برای اجرا و پایان دادن به مدل برای برازش و ارزیابی تعریف می‌کند، به این هدف دست یابیم.
برای ارائه یک متدولوژی مستحکم، باید خودمان را به توسعه فهرستی از تکنیک‌های پیش‌پردازش محدود کنیم، آن‌ها را فقط در حضور نقاط داده آموزشی تخمین بزنیم، و سپس تکنیک‌ها را در داده‌های آینده (از جمله مجموعه آزمایش) به کار ببریم.
روند ارزیابی از ارزیابی ساده و نادرست فقط به ارزیابی صحیح کل خط لوله آماده سازی داده ها و مدل با هم به عنوان یک واحد اتمی تغییر می کند. این را می توان با استفاده از کلاس Pipeline به دست آورد. این کلاس لیستی از مراحلی را که pipeline را تعریف می کند، انجام می دهد. هر مرحله در لیست یک تاپل با دو عنصر است. عنصر اول نام مرحله (رشته) و دومی شیء پیکربندی شده مرحله است، مانند تبدیل یا مدل. این مدل فقط به عنوان مرحله نهایی پشتیبانی می‌شود، اگرچه می‌توانیم به تعداد دلخواه تغییر شکل در دنباله داشته باشیم.

سپس می‌توانیم شیء پیکربندی‌شده را برای ارزیابی به تابع cross val score () ارسال کنیم.

با کنارهم قرار دادن این موارد، مثال کاملی از انجام درست آماده ‌سازی داده بدون نشت داده هنگام استفاده ازاعتبارسنجی متقاطع در زیر فهرست شده است.

اجرای مثال، داده ها را به درستی در چین های اعتبارسنجی متقابل فرآیند ارزیابی عادی می کند تا از نشت داده ها جلوگیری شود.
توجه : نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
در این مورد، می‌توانیم ببینیم که مدل دارای دقت تخمینی حدود 85.433 درصد است، در مقایسه با رویکرد با نشت داده‌ها که به دقت حدود 85.300 درصد دست یافت. مانند مثال تست قطار در بخش قبل، حذف نشت داده منجر به بهبود جزئی در عملکرد شده است، در صورتی که شهود ما ممکن است کاهش را نشان دهد، زیرا نشت داده اغلب منجر به تخمین خوش بینانه عملکرد مدل می شود. با این وجود، مثال‌ها نشان می‌دهند که نشت داده‌ها ممکن است بر برآورد عملکرد مدل و نحوه تصحیح نشت داده‌ها با انجام درست آماده‌سازی داده‌ها پس از تقسیم داده‌ها تأثیر بگذارد.

در این آموزش، نحوه جلوگیری از نشت داده در حین آماده سازی داده هنگام ارزیابی مدل های یادگیری ماشین را کشف کردید. به طور خاص، شما یاد گرفتید:
• کاربرد ساده روش های آماده سازی داده ها برای کل مجموعه داده منجر به نشت داده می شود که باعث تخمین نادرست عملکرد مدل می شود.
• آماده سازی داده ها باید بر روی مجموعه آموزشی آماده شود تا از نشت داده ها جلوگیری شود.
• نحوه اجرای آماده سازی داده ها بدون نشت داده برای تقسیم آزمون قطار و اعتبار سنجی متقاطع k-fold در پایتون.
این آخرین آموزش در این قسمت بود، در قسمت بعدی نگاهی دقیق تر به روش های پاکسازی داده ها خواهیم داشت

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0