آماده سازی داده چیست؟
پروژههای مدل سازی پیشبینی کننده، مانند طبقه بندی یا بازگشت، معمولاً نمی توان از دادههای خام مستقیماً استفاده کرد. به دلایلی مانند :
• الگوریتم های یادگیری ماشینی نیاز دارند که داده ها اعداد باشند.
• برخی از الگوریتم های یادگیری ماشینی الزاماتی را بر داده ها تحمیل می کنند.
• نویزهای آماری و خطاهای موجود در داده ها ممکن است نیاز به اصلاح داشته باشند.
• روابط غیرخطی پیچیده ممکن است از داده ها حذف شوند.
به این ترتیب، داده های خام باید قبل از استفاده برای تطبیق و ارزیابی مدل یادگیری ماشین، از قبل پردازش شوند. این مرحله در یک پروژه مدل سازی پیش بینی به عنوان آماده سازی داده ها (data preparation) نامیده می شود، اگرچه نام های بسیار دیگری مانند جدال داده ها، تمیز کردن داده ها، پیش پردازش داده ها و مهندسی ویژگی ها دارد. برخی از این نامها ممکن است به عنوان وظایف فرعی برای فرآیند آماده سازی دادههای گسترده تر مناسب باشند. میتوانیم آماده سازی داده را تبدیل دادههای خام به شکلی که برای مدل سازی مناسب تر است، تعریف کنیم.
• جدال داده ها که معمولاً به عنوان داده munging، تبدیل، دستکاری، کار سرایدار و… نیز شناخته می شود، می تواند یک فرآیند پر زحمت باشد.
این بسیار مختص به داده های شما، اهداف پروژه شما و الگوریتم هایی است که برای مدل سازی داده های شما استفاده می شود. در بخش بعدی بیشتر در مورد این روابط صحبت خواهیم کرد. با این وجود، وظایف معمول یا استانداردی وجود دارد که می توانید در مرحله آمادهسازی دادهها در یک پروژه یادگیری ماشینی از آنها استفاده یا تحلیل کنید. این وظایف عبارتند از:
• پاکسازی داده ها :
شناسایی و تصحیح اشتباهات یا خطاهای موجود در داده ها .
• انتخاب ویژگی :
شناسایی متغیرهای ورودی که بیشترین ارتباط را با کار دارند .
• تبدیل داده ها :
تغییر مقیاس یا توزیع متغیرها.
• مهندسی ویژگی :
استخراج متغیرهای جدید از داده های موجود.
• کاهش ابعاد :
ایجاد پیش بینی های فشرده از داده ها.
هر یک از این کارها یک رشته تحصیلی کامل با الگوریتم های تخصصی است. در فصل 3 نگاهی دقیق تر به این وظایف خواهیم داشت.
آماده سازی داده ها به صورت کورکورانه انجام نمی شود. در برخی موارد، قبل از اینکه بتوانیم الگوریتم یادگیری ماشینی مانند تبدیل رشته ها به اعداد را اعمال کنیم، متغیرها باید کد گذاری یا تبدیل شوند. در موارد دیگر، کمتر واضح است، برای مثال: مقیاس بندی یک متغیر ممکن است برای یک الگوریتم مفید باشد یا نباشد.
Translation is too long to be saved
فلسفه گسترده تر آماده سازی دادهها این است که کشف کنیم چگونه می توان ساختار زیربنایی مسئله را به بهترین نحو در معرض الگوریتم های یادگیری قرارداد . این چراغ راهنما است. ما ساختار اساسی مشکل را نمی دانیم ؛ برای کشف آن و یادگیری نحوه انجام پیشبینیهای ماهرانه نیازی به الگوریتم یادگیری نداریم. بنابراین، افشای ساختار زیربنایی ناشناخته مسئله، یک فرآیند کشف، همراه با کشف الگوریتمهای یادگیری خوب بهترین عملکرد برای پروژه است.
• با این حال، ما اغلب بهترین بازنمایی پیشبینی کنندهها را برای بهبود عملکرد مدل نمی دانیم. در عوض، کار مجدد پیش بینی ها بیشتر یک هنر است و به ابزار و تجربه مناسب برای یافتن بازنمایی های پیش بینی بهتر نیاز دارد. علاوه بر این، ممکن است برای بهبود عملکرد model نیاز به جستجوی بسیاری از نمایشهای پیشبینی کننده جایگزین داشته باشیم.
ممکن است پیچیده تر از آن چیزی باشد که در نگاه اول به نظر می رسد. برای مثال، متغیرهای ورودی مختلف ممکن است به روشهای متفاوتی برای آماده سازی داده نیاز داشته باشند. علاوه بر این، متغیرهای مختلف یا زیر مجموعه متغیرهای ورودی ممکن است به دنباله های متفاوتی از روشهای آماده سازی داده نیاز داشته باشند. با توجه به تعداد زیاد روش ها ، که هر یک ممکن است پیکربندی و پیش نیازهای خاص خود را داشته باشند، ممکن است طاقت فرسا شود. با این وجود، مراحل فرآیند یادگیری ماشینی قبل و بعد از آمادهسازی دادهها میتواند به اطلاع از اینکه چه تکنیکهایی باید در نظر گرفته شود، کمک کند.
قوانین ارسال دیدگاه در سایت