آماده سازی داده ها بدون نشت داده (2)
ما نشت داده را با استفاده از تکنیک های آماده سازی داده در کل مجموعه داده دریافت می کنیم. این یک نوع مستقیم نشت داده نیست، جایی که ما مدل را روی مجموعه داده آزمایشی آموزش دهیم. در عوض، این یک نوع غیرمستقیم نشت داده است، که در آن برخی از دانش در مورد مجموعه داده آزمایشی که در آمار خلاصه جمع آوری شده است در طول آموزش در دسترس مدل است. این می تواند تشخیص نشت داده را سخت تر کند، به خصوص برای مبتدیان !
– یکی دیگر از جنبههای نمونهگیری مجدد به مفهوم نشت اطلاعات مربوط میشود که در آن دادههای مجموعه آزمون (مستقیم یا غیرمستقیم) در طول فرآیند آموزش استفاده میشوند. این می تواند منجر به نتایج بیش از حد خوش بینانه شود که در نقاط داده های آینده تکرار نمی شوند و می توانند به روش های ظریف رخ دهند.
به عنوان مثال، موردی را در نظر بگیرید که میخواهیم دادهها را عادی کنیم، یعنی متغیرهای ورودی را در محدوده 0-1 مقیاس کنیم. هنگامی که متغیرهای ورودی را نرمال می کنیم، این مستلزم آن است که ابتدا حداقل و حداکثر مقادیر را برای هر متغیر قبل از استفاده از این مقادیر برای مقیاس بندی متغیرها محاسبه کنیم. سپس مجموعه داده به مجموعه دادههای قطار و آزمایش تقسیم میشود، اما نمونههای مجموعه داده آموزشی چیزی در مورد دادههای مجموعه داده آزمایشی میدانند. آنها با مقادیر حداقل و حداکثر جهانی مقیاس بندی شده اند، بنابراین آنها بیشتر در مورد توزیع جهانی متغیر می دانند و سپس باید همان نوع نشت را با تقریباً تمام تکنیک های آماده سازی داده ها دریافت کنیم. به عنوان مثال، استانداردسازی مقادیر میانگین و انحراف استاندارد را از حوزه به منظور مقیاس بندی متغیرها تخمین می زند. حتی مدلهایی که مقادیر گمشده را با استفاده از یک مدل یا آمار خلاصه به حساب میآورند، از مجموعه داده کامل برای پر کردن مقادیر در مجموعه داده آموزشی استفاده میکنند. راه حل سرراست است. آمادهسازی دادهها باید فقط در مجموعه داده آموزشی مناسب باشد. یعنی هر ضرایب یا مدلی که برای فرآیند آمادهسازی دادهها تهیه میشود باید فقط از ردیفهایی از دادهها در مجموعه داده آموزشی استفاده کند. پس از تناسب، الگوریتمها یا مدلهای آمادهسازی دادهها میتوانند روی مجموعه داده آموزشی و مجموعه داده آزمایشی اعمال شوند.
1. تقسیم داده ها.
2. آماده سازی داده ها در مجموعه داده های آموزشی.
3. آماده سازی داده ها را برای آموزش و آزمایش مجموعه داده ها اعمال کنید.
4. ارزیابی مدل ها.
به طور کلی، کل خط لوله مدل سازی باید فقط بر روی مجموعه داده آموزشی آماده شود تا از نشت داده ها جلوگیری شود. این ممکن است شامل تبدیل داده ها، اما همچنین تکنیک های دیگری مانند انتخاب ویژگی، کاهش ابعاد، مهندسی ویژگی و موارد دیگر باشد. این بدان معنی است که به اصطلاح ارزیابی مدل را باید ارزیابی خط لوله مدل سازی نامید.
– برای اینکه هر طرح نمونه گیری مجدد تخمینهای عملکردی را تولید کند که به داده های جدید تعمیم مییابد، باید شامل تمام مراحل فرآیند مدل سازی باشد که میتواند به طور قابل توجهی بر اثربخشی مدل تأثیر بگذارد.
اکنون که با نحوه اعمال آماده سازی داده ها برای جلوگیری از نشت داده ها آشنا شدیم، اجازه دهید به چند نمونه کار شده نگاه کنیم.
قوانین ارسال دیدگاه در سایت