آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

آماده سازی داده ها بدون نشت داده (2)

دسته بندی :اخبار سایت 9 می 2023 علیرضا بابامرادی 170

ما نشت داده را با استفاده از تکنیک های آماده سازی داده در کل مجموعه داده دریافت می کنیم. این یک نوع مستقیم نشت داده نیست، جایی که ما مدل را روی مجموعه داده آزمایشی آموزش دهیم. در عوض، این یک نوع غیرمستقیم نشت داده است، که در آن برخی از دانش در مورد مجموعه داده آزمایشی که در آمار خلاصه جمع ‌آوری شده است در طول آموزش در دسترس مدل است. این می تواند تشخیص نشت داده را سخت تر کند، به خصوص برای مبتدیان !
– یکی دیگر از جنبه‌های نمونه‌گیری مجدد به مفهوم نشت اطلاعات مربوط می‌شود که در آن داده‌های مجموعه آزمون (مستقیم یا غیرمستقیم) در طول فرآیند آموزش استفاده می‌شوند. این می تواند منجر به نتایج بیش از حد خوش بینانه شود که در نقاط داده های آینده تکرار نمی شوند و می توانند به روش های ظریف رخ دهند.

به عنوان مثال، موردی را در نظر بگیرید که می‌خواهیم داده‌ها را عادی کنیم، یعنی متغیرهای ورودی را در محدوده 0-1 مقیاس کنیم. هنگامی که متغیرهای ورودی را نرمال می کنیم، این مستلزم آن است که ابتدا حداقل و حداکثر مقادیر را برای هر متغیر قبل از استفاده از این مقادیر برای مقیاس بندی متغیرها محاسبه کنیم. سپس مجموعه داده به مجموعه داده‌های قطار و آزمایش تقسیم می‌شود، اما نمونه‌های مجموعه داده آموزشی چیزی در مورد داده‌های مجموعه داده آزمایشی می‌دانند. آنها با مقادیر حداقل و حداکثر جهانی مقیاس بندی شده اند، بنابراین آنها بیشتر در مورد توزیع جهانی متغیر می دانند و سپس باید همان نوع نشت را با تقریباً تمام تکنیک های آماده سازی داده ها دریافت کنیم. به عنوان مثال، استانداردسازی مقادیر میانگین و انحراف استاندارد را از حوزه به منظور مقیاس بندی متغیرها تخمین می زند. حتی مدل‌هایی که مقادیر گمشده را با استفاده از یک مدل یا آمار خلاصه به حساب می‌آورند، از مجموعه داده کامل برای پر کردن مقادیر در مجموعه داده آموزشی استفاده می‌کنند. راه حل سرراست است. آماده‌سازی داده‌ها باید فقط در مجموعه داده آموزشی مناسب باشد. یعنی هر ضرایب یا مدلی که برای فرآیند آماده‌سازی داده‌ها تهیه می‌شود باید فقط از ردیف‌هایی از داده‌ها در مجموعه داده آموزشی استفاده کند. پس از تناسب، الگوریتم‌ها یا مدل‌های آماده‌سازی داده‌ها می‌توانند روی مجموعه داده آموزشی و مجموعه داده آزمایشی اعمال شوند.
1. تقسیم داده ها.
2. آماده سازی داده ها در مجموعه داده های آموزشی.
3. آماده سازی داده ها را برای آموزش و آزمایش مجموعه داده ها اعمال کنید.
4. ارزیابی مدل ها.
به طور کلی، کل خط لوله مدل سازی باید فقط بر روی مجموعه داده آموزشی آماده شود تا از نشت داده ها جلوگیری شود. این ممکن است شامل تبدیل داده ها، اما همچنین تکنیک های دیگری مانند انتخاب ویژگی، کاهش ابعاد، مهندسی ویژگی و موارد دیگر باشد. این بدان معنی است که به اصطلاح ارزیابی مدل را باید ارزیابی خط لوله مدل سازی نامید.
– برای اینکه هر طرح نمونه ‌گیری مجدد تخمین‌های عملکردی را تولید کند که به داده‌ های جدید تعمیم می‌یابد، باید شامل تمام مراحل فرآیند مدل‌ سازی باشد که می‌تواند به طور قابل‌ توجهی بر اثربخشی مدل تأثیر بگذارد.
اکنون که با نحوه اعمال آماده سازی داده ها برای جلوگیری از نشت داده ها آشنا شدیم، اجازه دهید به چند نمونه کار شده نگاه کنیم.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0