ارزیابی متقابل اعتبارسنجی با آماده سازی صحیح داده ها
آماده سازی داده بدون نشت داده هنگام استفاده از اعتبارسنجی متقابل کمی چالش برانگیزتر است. این مستلزم آن است که روش آماده سازی دادهها بر روی مجموعه آموزشی آماده شده و بر روی قطار و مجموعههای آزمایشی در فرآیند اعتبارسنجی متقابل اعمال شود. به عنوان مثال گروه folds ردیف ها. ما میتوانیم با تعریف خط لوله مدلسازی که دنبالهای از مراحل آمادهسازی دادهها را برای اجرا و پایان دادن به مدل برای برازش و ارزیابی تعریف میکند، به این هدف دست یابیم.
برای ارائه یک متدولوژی مستحکم، باید خودمان را به توسعه فهرستی از تکنیکهای پیشپردازش محدود کنیم، آنها را فقط در حضور نقاط داده آموزشی تخمین بزنیم، و سپس تکنیکها را در دادههای آینده (از جمله مجموعه آزمایش) به کار ببریم.
روند ارزیابی از ارزیابی ساده و نادرست فقط به ارزیابی صحیح کل خط لوله آماده سازی داده ها و مدل با هم به عنوان یک واحد اتمی تغییر می کند. این را می توان با استفاده از کلاس Pipeline به دست آورد. این کلاس لیستی از مراحلی را که pipeline را تعریف می کند، انجام می دهد. هر مرحله در لیست یک تاپل با دو عنصر است. عنصر اول نام مرحله (رشته) و دومی شیء پیکربندی شده مرحله است، مانند تبدیل یا مدل. این مدل فقط به عنوان مرحله نهایی پشتیبانی میشود، اگرچه میتوانیم به تعداد دلخواه تغییر شکل در دنباله داشته باشیم.
سپس میتوانیم شیء پیکربندیشده را برای ارزیابی به تابع cross val score () ارسال کنیم.
با کنارهم قرار دادن این موارد، مثال کاملی از انجام درست آماده سازی داده بدون نشت داده هنگام استفاده ازاعتبارسنجی متقاطع در زیر فهرست شده است.
اجرای مثال، داده ها را به درستی در چین های اعتبارسنجی متقابل فرآیند ارزیابی عادی می کند تا از نشت داده ها جلوگیری شود.
توجه : نتایج خاص شما ممکن است با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
در این مورد، میتوانیم ببینیم که مدل دارای دقت تخمینی حدود 85.433 درصد است، در مقایسه با رویکرد با نشت دادهها که به دقت حدود 85.300 درصد دست یافت. مانند مثال تست قطار در بخش قبل، حذف نشت داده منجر به بهبود جزئی در عملکرد شده است، در صورتی که شهود ما ممکن است کاهش را نشان دهد، زیرا نشت داده اغلب منجر به تخمین خوش بینانه عملکرد مدل می شود. با این وجود، مثالها نشان میدهند که نشت دادهها ممکن است بر برآورد عملکرد مدل و نحوه تصحیح نشت دادهها با انجام درست آمادهسازی دادهها پس از تقسیم دادهها تأثیر بگذارد.
در این آموزش، نحوه جلوگیری از نشت داده در حین آماده سازی داده هنگام ارزیابی مدل های یادگیری ماشین را کشف کردید. به طور خاص، شما یاد گرفتید:
• کاربرد ساده روش های آماده سازی داده ها برای کل مجموعه داده منجر به نشت داده می شود که باعث تخمین نادرست عملکرد مدل می شود.
• آماده سازی داده ها باید بر روی مجموعه آموزشی آماده شود تا از نشت داده ها جلوگیری شود.
• نحوه اجرای آماده سازی داده ها بدون نشت داده برای تقسیم آزمون قطار و اعتبار سنجی متقاطع k-fold در پایتون.
این آخرین آموزش در این قسمت بود، در قسمت بعدی نگاهی دقیق تر به روش های پاکسازی داده ها خواهیم داشت
قوانین ارسال دیدگاه در سایت