آماده سازی داده ها بدون نشت داده (1)
آماده سازی دادهها فرآیند تبدیل دادههای خام به فرمی مناسب برای مدلسازی است. یک رویکرد ساده لوحانه برای آماده سازی داده ها، تبدیل را در کل مجموعه داده قبل از ارزیابی عملکرد مدل اعمال می کند. این منجر به مشکلی به نام نشت داده می شود، که در آن دانش مجموعه آزمایشی نگهدارنده به مجموعه داده مورد استفاده برای آموزش مدل نشت می کند. این می تواند منجر به تخمین نادرست عملکرد مدل هنگام پیش بینی داده های جدید شود. استفاده دقیق از تکنیکهای آمادهسازی دادهها برای جلوگیری از نشت دادهها مورد نیاز است، و این بسته به طرح ارزیابی مدل استفادهشده، مانند تقسیمبندی آزمون قطار یا اعتبارسنجی متقابل k-fold متفاوت است. در این آموزش، نحوه جلوگیری از نشت داده ها در حین آماده سازی داده ها هنگام ارزیابی مدل های یادگیری ماشین را خواهید یافت. پس از تکمیل این آموزش، خواهید دانست:
• استفاده ساده از روش های آماده سازی داده ها برای کل مجموعه داده منجر به نشت داده می شود که باعث برآورد نادرست عملکرد مدل می شود.
• آماده سازی داده ها باید فقط روی مجموعه آموزشی آماده شود تا از نشت داده ها جلوگیری شود.
• نحوه اجرای آماده سازی داده ها بدون نشت داده برای تقسیم آزمون قطار و اعتبار سنجی متقابل k-fold در پایتون.
بیاید شروع کنیم…
4.1 مرور کلی آموزش
این آموزش به سه بخش تقسیم می شود؛ شامل :
1. مشکل با آماده سازی ساده داده ها
2. آماده سازی داده ها با مجموعه های قطار و تست
3. آماده سازی داده ها با k-fold Cross-Validation
4.2 مشکل با آماده سازی ساده داده ها
روشی که در آن تکنیکهای آماده سازی دادهها برای مسائل داده به کار می رود. یک رویکرد رایج این است که ابتدا یک یا چند تبدیل به کل مجموعه داده اعمال شود. سپس مجموعه داده به مجموعههای قطار و آزمایش تقسیم میشود یا از اعتبارسنجی متقابل k-fold برای برازش و ارزیابی یک مدل یادگیری ماشین استفاده میشود.
1. مجموعه داده را آماده کنید .
2. تقسیم داده ها
3. مدل ها را ارزیابی کنید .
اگرچه این یک رویکرد رایج است، اما در بیشتر موارد به طرز خطرناکی نادرست است. مشکل استفاده از تکنیکهای آمادهسازی دادهها قبل از تقسیم دادهها برای ارزیابی مدل این است که میتواند منجر به نشت دادهها شود و به نوبه خود احتمالاً منجر به تخمین نادرست عملکرد یک مدل در مورد مشکل میشود
نشت داده به مشکلی اشاره دارد که در آن اطلاعات مربوط به مجموعه داده های نگهدارنده، مانند مجموعه داده آزمایشی یا اعتبارسنجی، در مجموعه داده آموزشی در دسترس مدل قرار می گیرد. این نشت اغلب کوچک و ظریف است، اما می تواند تأثیر قابل توجهی بر عملکرد داشته باشد.
– نشت به این معنی است که اطلاعات به مدل نشان داده می شود که به آن مزیت غیر واقعی برای پیش بینی های بهتر می دهد. این ممکن است زمانی اتفاق بیفتد که دادههای آزمایشی به مجموعه آموزشی درز میکنند، یا زمانی که دادههایی از آینده به گذشته درز میکنند. هر زمانی که به یک مدل اطلاعاتی داده میشود که وقتی در حال پیشبینی در زمان تولید است، نباید به آن دسترسی داشته باشد، نشتی وجود دارد.
قوانین ارسال دیدگاه در سایت