آماده سازی داده ها در ماشین
پروژه یادگیری
آماده سازی داده ها ممکن است یکی از دشوارترین مراحل در هر پروژه یادگیری ماشینی باشد. دلیل آن این است که هر مجموعه داده متفاوت و بسیار مختص پروژه است. با این وجود، مشترکات کافی در بین پروژه های مدل سازی پیش بینی کننده وجود دارد که می توانیم دنباله ای از مراحل و وظایف فرعی که احتمالاً انجام می شوند را تعریف کنیم. این فرآیند زمینهای را فراهم میکند که در آن میتوانیم آمادهسازی دادههای مورد نیاز برای پروژه را در نظر بگیریم، که هم از طریق تعریف پروژه انجام شده قبل از آماده سازی دادهها و هم از ارزیابی الگوریتم های یادگیری ماشینی انجام شده پس از آن مطلع میشود. در این آموزش، نحوه در نظر گرفتن آماده سازی دادهها را به عنوان مرحله ای در پروژه یادگیری ماشین مدل سازی گسترده تر پیشبینی خواهید کرد. پس از تکمیل این آموزش، خواهید دانست:
• هر پروژه مدل سازی پیش بینی با یادگیری ماشین متفاوت است، اما مراحل مشترکی در هر پروژه انجام
می شود.
• آماده سازی داده ها شامل بهترین شکل قرار دادن ساختار ناشناخته اساسی مسئله در برابر الگوریتم های یادگیری است.
• مراحل قبل و بعد از آماده سازی دادهها در یک پروژه میتواند روشهای آماده سازی دادهها را به کار گیرد
یا حداقل بررسی کند.
بیایید شروع کنیم.
1.1 مرور کلی آموزش
این آموزش به سه بخش تقسیم می شود؛ شامل :
1. فرآیند یادگیری ماشین کاربردی
2. آماده سازی داده ها چیست؟
3. نحوه انتخاب تکنیک های آماده سازی داده ها
.1 فرآیند یادگیری ماشین کاربردی
هر پروژه یادگیری ماشینی متفاوت است زیرا داده های خاص در هسته پروژه متفاوت است. شما ممکن است اولین کسی باشید
(تا کنون) که روی مشکل مدل سازی پیش بینی خاص کار می کند. این بدان معنا نیست که دیگران روی کارهای پیشبینی مشابه یا شاید حتی همان کار سطح بالا کار نکرده باشند، اما ممکن است شما اولین کسی باشید که از دادههای خاصی که جمع آوری کرده اید استفاده میکنید (مگر اینکه از یک مجموعه داده استاندارد برای تمرین استفاده کنید).
– ویژگی های مناسب را فقط می توان در زمینه مدل و داده تعریف کرد. از آنجایی که دادهها و مدلها بسیار متنوع هستند، تعمیم روش مهندسی ویژگی در پروژهها دشوار است.
این باعث می شود هر پروژه یادگیری ماشینی منحصر به فرد باشد. هیچ کس نمی تواند به شما بگوید که بهترین نتایج چیست یا ممکن است باشد، یا از چه الگوریتم هایی برای دستیابی به آنها استفاده کنید. شما باید یک خط مبنا درعملکرد به عنوان نقطه مرجع برای مقایسه همه مدل های خود ایجاد کنید و باید کشف کنید که کدام الگوریتم برای مجموعه داده خاص شما بهتر است. شما تنها نیستید ، ادبیات گسترده ای در مورد یادگیری ماشینی کاربردی که قبلاً ارائه شده است می تواند شما را در مورد تکنیک هایی که باید برای ارزیابی قوی مدل و الگوریتم های خود برای ارزیابی استفاده کنید، آگاه کند.
اگرچه پروژه شما منحصر به فرد است، مراحل رسیدن به یک نتیجه خوب یا حتی بهترین نتیجه به طور کلی از پروژه ای به پروژه دیگر یکسان است. گاهی اوقات به این فرآیند یادگیری ماشین کاربردی، فرآیند علم داده یا نام قدیمی کشف اطلاعات در پایگاههای داده (KDD ) گفته میشود. فرآیند یادگیری ماشینی کاربردی از یک سری مراحل تشکیل شده است. مراحل یکسان است، اما نام مراحل و وظایف انجام شده ممکن است متفاوت باشد. علاوه بر این، مراحل به صورت متوالی نوشته می شوند، اما ما بین مراحل برای هر پروژه معین به عقب و جلو می پریم. من دوست دارم فرآیند را با استفاده از چهار مرحله سطح بالا تعریف کنم:
مرحله 1 : تعریف مسئله.
مرحله 2 : داده ها را آماده کنید.
مرحله 3 : مدل ها را ارزیابی کنید.
مرحله 4 : مدل را نهایی کنید.
قوانین ارسال دیدگاه در سایت