آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

آماده سازی داده ها بدون نشت داده (1)

دسته بندی :اخبار سایت 9 می 2023 علیرضا بابامرادی 326

آماده‌ سازی داده‌ها فرآیند تبدیل داده‌های خام به فرمی مناسب برای مدل‌سازی است. یک رویکرد ساده لوحانه برای آماده سازی داده ها، تبدیل را در کل مجموعه داده قبل از ارزیابی عملکرد مدل اعمال می کند. این منجر به مشکلی به نام نشت داده می شود، که در آن دانش مجموعه آزمایشی نگهدارنده به مجموعه داده مورد استفاده برای آموزش مدل نشت می کند. این می تواند منجر به تخمین نادرست عملکرد مدل هنگام پیش بینی داده های جدید شود. استفاده دقیق از تکنیک‌های آماده‌سازی داده‌ها برای جلوگیری از نشت داده‌ها مورد نیاز است، و این بسته به طرح ارزیابی مدل استفاده‌شده، مانند تقسیم‌بندی آزمون قطار یا اعتبارسنجی متقابل k-fold متفاوت است. در این آموزش، نحوه جلوگیری از نشت داده ها در حین آماده سازی داده ها هنگام ارزیابی مدل های یادگیری ماشین را خواهید یافت. پس از تکمیل این آموزش، خواهید دانست:
• استفاده ساده از روش های آماده سازی داده ها برای کل مجموعه داده منجر به نشت داده می شود که باعث برآورد نادرست عملکرد مدل می شود.
• آماده سازی داده ها باید فقط روی مجموعه آموزشی آماده شود تا از نشت داده ها جلوگیری شود.
• نحوه اجرای آماده سازی داده ها بدون نشت داده برای تقسیم آزمون قطار و اعتبار سنجی متقابل k-fold در پایتون.
بیاید شروع کنیم…
4.1 مرور کلی آموزش

این آموزش به سه بخش تقسیم می شود؛ شامل :
1. مشکل با آماده سازی ساده داده ها
2. آماده سازی داده ها با مجموعه های قطار و تست
3. آماده سازی داده ها با k-fold Cross-Validation
4.2 مشکل با آماده سازی ساده داده ها

روشی که در آن تکنیک‌های آماده‌ سازی داده‌ها برای مسائل داده به کار می‌ رود. یک رویکرد رایج این است که ابتدا یک یا چند تبدیل به کل مجموعه داده اعمال شود. سپس مجموعه داده به مجموعه‌های قطار و آزمایش تقسیم می‌شود یا از اعتبارسنجی متقابل k-fold برای برازش و ارزیابی یک مدل یادگیری ماشین استفاده می‌شود.
1. مجموعه داده را آماده کنید .
2. تقسیم داده ها
3. مدل ها را ارزیابی کنید .
اگرچه این یک رویکرد رایج است، اما در بیشتر موارد به طرز خطرناکی نادرست است. مشکل استفاده از تکنیک‌های آماده‌سازی داده‌ها قبل از تقسیم داده‌ها برای ارزیابی مدل این است که می‌تواند منجر به نشت داده‌ها شود و به نوبه خود احتمالاً منجر به تخمین نادرست عملکرد یک مدل در مورد مشکل می‌شود
نشت داده به مشکلی اشاره دارد که در آن اطلاعات مربوط به مجموعه داده های نگهدارنده، مانند مجموعه داده آزمایشی یا اعتبارسنجی، در مجموعه داده آموزشی در دسترس مدل قرار می گیرد. این نشت اغلب کوچک و ظریف است، اما می تواند تأثیر قابل توجهی بر عملکرد داشته باشد.
– نشت به این معنی است که اطلاعات به مدل نشان داده می شود که به آن مزیت غیر واقعی برای پیش بینی های بهتر می دهد. این ممکن است زمانی اتفاق بیفتد که داده‌های آزمایشی به مجموعه آموزشی درز می‌کنند، یا زمانی که داده‌هایی از آینده به گذشته درز می‌کنند. هر زمانی که به یک مدل اطلاعاتی داده می‌شود که وقتی در حال پیش‌بینی در زمان تولید است، نباید به آن دسترسی داشته باشد، نشتی وجود دارد.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0