چرا عملکرد مدل به داده ها بستگی دارد؟
حتی اگر داده های خود را برای برآورده کردن انتظارات هر مدل آماده کنید، ممکن است بهترین عملکرد را نداشته باشید. اغلب، عملکرد الگوریتمهای یادگیری ماشینی که دارای انتظارات قوی هستند، به میزان قابل توجهی کاهش مییابد تا حدی که انتظار نقض میشود. علاوه بر این، معمول است که یک الگوریتم به خوبی یا بهتر از روشهای دیگر عمل کند، حتی زمانی که انتظارات آن نادیده گرفته شده یا کاملاً نقض شده باشد. این یک موقعیت معمولی است که باید در تهیه و ارزیابی الگوریتمهای یادگیری ماشین لحاظ شود.
این ایده که روشهای مختلفی برای نمایش پیشبینی کنندهها در یک مدل وجود دارد، و اینکه برخی از این نمایشها بهتر از بقیه هستند، به ایده مهندسی ویژگیها منجر میشود – فرآیند ایجاد نمایشهایی از دادهها که اثربخشی یک مدل را افزایش میدهد.
عملکرد یک الگوریتم یادگیری ماشین فقط به اندازه داده هایی است که برای آموزش آن استفاده می شود. این اغلب به عنوان زباله در، زباله خارج خلاصه می شود. زباله زننده است، اما می تواند به معنای نمایش ضعیف مشکل باشد که پویایی لازم برای یادگیری نحوه نگاشت نمونه هایی از ورودی ها به خروجی ها را نشان نمی دهد.
بیایید بدیهی فرض کنیم که ما داده های کافی برای دریافت رابطه بین متغیرهای ورودی و خروجی داریم. این یک اصل لغزنده و خاص دامنه است، و در عمل، ما داده هایی را داریم که در اختیار داریم، و وظیفه ما این است که بهترین کاری را که می توانیم با آن داده ها انجام دهیم. یک مجموعه داده ممکن است نمایش ضعیفی از مشکلی باشد که ما سعی در حل آن به دلایل زیادی داریم، اگرچه دو دسته اصلی دلیل وجود دارد. ممکن است به این دلیل باشد که روابط غیرخطی پیچیده در دادههای خام فشرده شدهاند که میتوان با استفاده از تکنیکهای آمادهسازی دادهها، بستهبندی را باز کرد. همچنین ممکن است به این دلیل باشد که داده ها کامل نیستند، از نوسانات تصادفی خفیف در مشاهدات، که به عنوان نویز آماری نامیده می شود، تا خطاهایی که منجر به مقادیر خارج از محدوده و داده های متناقض می شود.
- داده های پیچیده : داده های خام حاوی روابط غیرخطی پیچیده فشرده ای هستند که ممکن است نیاز به افشای آن ها داشته باشند.
- داده های آشفته : داده های خام حاوی نویز آماری، خطاها، مقادیر از دست رفته و مثال های متناقض است.
ما میتوانیم از دو طریق به بهترین بهره مندی از پروژه مدل سازی پیش بینی مان فکر کنیم : تمرکز بر مدل و تمرکز بر دادهها. ما میتوانیم دادههای خام را به حداقل برسانیم و مدل سازی را شروع کنیم. این وظیفه کامل را بر دوش مدل میگذارد تا روابط موجود در دادهها را مشخص کند و عملکرد نقشه برداری را از ورودیها به خروجیها به بهترین شکل ممکن یاد بگیرد. این ممکن است یک مسیر معقول از طریق یک پروژه باشد و ممکن است به یک مجموعه داده بزرگ و یک الگوریتم یادگیری ماشینی انعطافپذیر و قدرتمند با انتظارات کمی مانند جنگل تصادفی یا افزایش گرادیان gradient)) نیاز داشته باشد.
ما میتوانیم مسئولیت را به دادهها و فرآیند آمادهسازی دادهها برگردانیم. این مستلزم آن است که هر ردیف از داده ها محتوای اطلاعاتی داده ها را برای مدل سازی به بهترین نحو بیان کند. درست مانند غیرعادی سازی داده ها در یک پایگاه داده رابطه ای به ردیف ها و ستون ها، آماده سازی داده ها می تواند ساختار پیچیده ذاتی هر مشاهده را غیرعادی کند. این هم یک مسیر معقول است. ممکن است نیاز به دانش بیشتری از دادهها نسبت به موجود داشته باشد، اما اجازه میدهد تا تقریباً بدون توجه به الگوریتم یادگیری ماشینی مورد استفاده، عملکرد خوب یا حتی بهترین مدلسازی را به دست آورد.
اغلب تعادل بین این رویکردها در هر پروژه معین دنبال می شود. این هم کاوش الگوریتمهای یادگیری ماشینی قدرتمند و انعطافپذیر و هم استفاده از آمادهسازی دادهها برای نشان دادن بهترین ساختار دادهها در الگوریتمهای یادگیری است. همه اینها باید بگوییم، پیش پردازش داده ها راهی برای داده های بهتر و به نوبه خود عملکرد بهتر مدل است.
قوانین ارسال دیدگاه در سایت