ارزیابی آموزش-آزمون با آماده سازی صحیح داده ها

دسته بندی :اخبار سایت 10 می 2023 علیرضا بابامرادی 242

رویکرد صحیح برای انجام آماده ‌سازی داده‌ها با ارزیابی تقسیم‌ بندی آزمون قطار، تناسب آماده ‌سازی داده‌ها در مجموعه آموزشی، سپس اعمال تبدیل به قطار و مجموعه‌ های آزمایشی است. این مستلزم آن است که ابتدا داده ها را به مجموعه های قطار و آزمایش تقسیم کنیم.
سپس می‌توانیم MinMaxScaler را تعریف کنیم و تابع fit()را در مجموعه آموزشی فراخوانی کنیم ، سپس تابع transform() را بر روی train و مجموعه ‌های آزمایشی اعمال کنیم تا یک نسخه نرمال ‌سازی شده از هر مجموعه داده ایجاد کنیم.
این امر از نشت داده ها جلوگیری می کند زیرا محاسبه حداقل و حداکثر مقدار برای هر متغیر ورودی تنها با استفاده از مجموعه داده آموزشی(X train) به جای کل مجموعه داده (X) محاسبه می شود. سپس می توان مدل را مانند قبل ارزیابی کرد.
اجرای مثال، داده ها را به مجموعه های آموزشی و آزمایشی تقسیم می کند، داده ها را به درستی عادی می کند، سپس مدل را متناسب و ارزیابی می کند.
توجه : نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
در این حالت می‌توانیم ببینیم که تخمین مدل در حدود 85.455 درصد است که دقیق‌تر از برآورد با نشت داده در بخش قبل است که به دقت 84.848 درصد دست یافت. ما انتظار داریم که نشت داده منجر به برآورد نادرست عملکرد مدل شود. ما انتظار داریم که این یک تخمین خوش بینانه با نشت داده باشد، به عنوان مثال : عملکرد بهتر، اگرچه در این مورد، می‌ توان دید که نشت داده‌ها باعث عملکرد کمی بدتر می‌شود. این ممکن است به دلیل سختی کار پیش‌بینی باشد.

آماده سازی داده ها با k-fold Cross-Validation

در این بخش، یک مدل رگرسیون لجستیک را با استفاده از اعتبارسنجی متقاطع k-fold بر روی یک مجموعه داده طبقه‌بندی باینری مصنوعی که در آن متغیرهای ورودی نرمال شده‌اند، ارزیابی می‌کنیم. ممکن است به یاد داشته باشید که اعتبارسنجی متقاطع k-fold شامل تقسیم یک مجموعه داده به k گروه بدون همپوشانی از ردیف ها است. سپس مدل بر روی همه گروه‌ها به جز یک گروه آموزش داده می‌شود تا یک مجموعه داده آموزشی را تشکیل دهد و سپس در قسمت نگه‌ داشته ‌شده ارزیابی می‌شود. این فرآیند تکرار می‌شود تا به هر فولد فرصتی داده شود تا به‌عنوان مجموعه تست نگهدارنده مورد استفاده قرار گیرد. در نهایت، میانگین عملکرد در تمام ارزیابی ها گزارش شده است. روش اعتبار سنجی متقابل k-fold به طور کلی تخمین قابل اعتماد تری از عملکرد مدل نسبت به تقسیم آزمون قطار ارائه می دهد، اگرچه با توجه به برازش و ارزیابی مکرر مدل ها از نظر محاسباتی گران تر است. بیایید ابتدا به آماده سازی داده های ساده با اعتبارسنجی متقاطع k-fold نگاه کنیم.

ارزیابی متقابل اعتبارسنجی با آماده سازی ساده داده ها

آماده‌سازی داده‌های ساده با اعتبارسنجی متقابل شامل اعمال تبدیل داده‌ها ابتدا و سپس استفاده از روش اعتبارسنجی متقابل است. ما از مجموعه داده مصنوعی تهیه شده در بخش قبل استفاده می کنیم و داده ها را مستقیماً عادی می کنیم.
ابتدا باید روش اعتبارسنجی متقاطع k-fold تعریف شود. ما از اعتبارسنجی متقاطع 10 برابری طبقه بندی شده مکرر استفاده خواهیم کرد که بهترین روش برای طبقه بندی است. Repeated به این معنی است که کل روش اعتبار سنجی متقاطع چندین بار تکرار می شود، در این مورد سه بار طبقه بندی شده به این معنی است که هر گروه از ردیف ها ترکیب نسبی نمونه هایی از هر کلاس را به عنوان کل مجموعه داده خواهد داشت. ما از اعتبارسنجی متقاطع k = 10 یا 10 برابر استفاده خواهیم کرد. این را می توان با استفاده از RepeatedStratifiedKFold که می تواند به سه تکرار و 10 برابر پیکربندی کرد، و سپس با استفاده از تابع cross val score() برای انجام رویه، ارسال در مدل تعریف شده، شی اعتبارسنجی متقاطع و متریک برای محاسبه به دست آمد. این مورد، دقت کنید .

برچسب‌ها:استخدام برنامه نویس, استخدام گرافیست, انیمیشن سازی, تبلیغ انیمیشنی, خرید سایت آماده, خرید قالب وردپرس, طراحی بنر, طراحی کارت ویزیت, طراحی لوگو, موشن گرافیک, نهال آی تی

علیرضا بابامرادی

تاریخ عضویت:19 سپتامبر 2022

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید لغو پاسخ

لینک کوتاه:

ارزیابی آموزش-آزمون با آماده سازی صحیح داده ها

آماده سازی داده ها با k-fold Cross-Validation

ارزیابی متقابل اعتبارسنجی با آماده سازی ساده داده ها

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

دیدگاهتان را بنویسید لغو پاسخ

مزایای عضویت در سیگما:

نوشته‌های تازه

آخرین دیدگاه‌ها

دسته بندی مطالب

لینک های کمکی

خدمات اداری

خدمات تیم نهال آی تی

خدمات تیم نهال آی تی

نماد اعتماد الکترونیکی