تور تکنیک های آماده سازی داده ها
پروژههای یادگیری ماشین مدل سازی پیش بینی کننده، مانند طبقه بندی و رگرسیون (برگشت) ، همیشه شامل نوعی آمادهسازی دادهها هستند. آماده سازی دادههای خاص مورد نیاز برای یک مجموعه داده بستگی به ویژگیهای دادهها، مانند انواع متغیرها، و همچنین الگوریتمهایی دارد که برای مدل سازی آن ها استفاده می شوند که ممکن است انتظارات یا الزاماتی را بر دادهها تحمیل کنند.
با این وجود، مجموعهای از الگوریتمهای آمادهسازی دادههای استاندارد وجود دارد که میتوان آنها را روی دادههای ساختیافته اعمال کرد (بهعنوان مثال دادههایی که یک جدول بزرگ را مانند یک صفحه گسترده تشکیل میدهند). این الگوریتم های آماده سازی دادهها را میتوان بر اساس نوع سازماندهی یا گروه بندی کرد در چارچوبی که میتواند هنگام مقایسه و انتخاب تکنیکها برای یک پروژه خاص مفید باشد. در این آموزش، وظایف رایج آماده سازی دادهها را که در یک کار یادگیری ماشین مدل سازی پیش بینی کننده انجام میشوند، کشف خواهید کرد.
پس از تکمیل این آموزش، خواهید دانست:
• تکنیکهایی مانند پاکسازی دادهها میتوانند خطاهای دادهها مانند مقادیر از دست رفته را شناسایی و رفع کنند.
• تبدیل داده ها می تواند مقیاس، نوع و توزیع احتمال متغیرها را در مجموعه داده تغییر دهد.
• تکنیک هایی مانند انتخاب ویژگی و کاهش ابعاد می توانند تعداد متغیرهای ورودی را کاهش دهند.
بیا شروع کنیم.
مرور کلی آموزش
این آموزش به شش قسمت تقسیم شده است. شامل :
1. وظایف مشترک آماده سازی داده ها
2. پاکسازی داده ها
3. انتخاب ویژگی
4. تبدیل داده ها
5. مهندسی ویژگی
6. کاهش ابعاد
وظایف مشترک آماده سازی داده ها
ما میتوانیم آمادهسازی داده را تبدیل دادههای خام به شکلی که برای مدلسازی مناسبتر است، تعریف کنیم. با این وجود، مراحلی در پروژه مدلسازی پیشبینیکننده قبل و بعد از مرحله آمادهسازی دادهها وجود دارد که مهم هستند و آمادهسازی دادهها را که قرار است انجام شود، اطلاعرسانی میکنند. فرآیند یادگیری ماشینی کاربردی شامل یک دنباله از مراحل (معرفی شده در فصل 1) است. ممکن است برای هر پروژه معینی بین مراحل به عقب و جلو بپریم، اما همه پروژه ها مراحل کلی یکسانی دارند. آن ها هستند:
• مرحله 1 : مشکل را تعریف کنید.
• مرحله 2: داده ها را آماده کنید.
• مرحله 3 : مدل ها را ارزیابی کنید.
• مرحله 4 : مدل را نهایی کنید.
ما نگران مرحله آماده سازی داده ها هستیم (مرحله 2) و کارهای معمول یا استانداردی وجود دارد که می توانید در مرحله آماده سازی داده ها در پروژه یادگیری ماشینی از آنها استفاده کنید یا آنها را بررسی کنید. همانطور که انتظار دارید، انواع آماده سازی داده ها به داده های شما بستگی دارد. با این وجود، همانطور که در چندین پروژه مدل سازی پیش بینی کار می کنید، انواع مشابهی از وظایف آماده سازی داده را بارها و بارها می بینید و به آنها نیاز دارید.
این وظایف عبارتند از:
• پاکسازی داده ها : شناسایی و تصحیح اشتباهات یا خطاهای موجود در داده ها.
• انتخاب ویژگی : شناسایی متغیرهای ورودی که بیشترین ارتباط را با کار دارند.
• تبدیل داده ها : تغییر مقیاس یا توزیع متغیرها.
• مهندسی ویژگی : استخراج متغیرهای جدید از داده های موجود.
• کاهش ابعاد : ایجاد پیش بینی های فشرده از داده ها.
این یک چارچوب تقریبی ارائه میکند که میتوانیم از آن برای فکر کردن و پیمایش الگوریتمهای مختلف آماده سازی دادهها که ممکن است در یک پروژه معین با دادههای ساختاریافته یا جدولی در نظر بگیریم، استفاده کنیم. بیایید به نوبه خود به هر یک نگاه دقیق تری بیندازیم.
قوانین ارسال دیدگاه در سایت