پاکسازی داده ها و انتخاب ویژگی (وظایف مشترک اماده سازی داده)
پاکسازی داده ها
پاکسازی داده ها شامل رفع مشکلات سیستماتیک یا خطاها در داده های نامرتب است. مفیدترین پاکسازی داده ها شامل تخصص عمیق حوزه است و می تواند شامل شناسایی و رسیدگی به مشاهدات خاصی باشد که ممکن است نادرست باشند. دلایل زیادی وجود دارد که داده ها ممکن است مقادیر نادرستی داشته باشند، مانند اشتباه تایپ شدن، خراب شدن، تکراری بودن و غیره. تخصص دامنه ممکن است اجازه شناسایی مشاهدات اشتباه آشکار را بدهد، زیرا با آنچه انتظار می رود متفاوت است، مانند قد 200 فوتی یک فرد.
هنگامی که مشاهدات آشفته، پر سر و صدا، فاسد یا اشتباه شناسایی شدند، می توان به آنها رسیدگی کرد. این ممکن است شامل حذف یک ردیف یا یک ستون باشد. به طور متناوب، ممکن است شامل جایگزینی مشاهدات با مقادیر جدید باشد. به این ترتیب، عملیات کلی پاکسازی داده وجود دارد که می توان انجام داد، مانند :
• استفاده از آمار برای تعریف داده های عادی و شناسایی نقاط پرت
• شناسایی ستون هایی که دارای مقدار یکسان یا بدون اختلاف هستند و حذف آنها
• شناسایی ردیف های تکراری داده ها و حذف آنها
• علامت گذاری مقادیر خالی به عنوان گمشده
• وارد کردن مقادیر از دست رفته با استفاده از آمار یا یک مدل آموخته شده
پاکسازی داده ها عملیاتی است که معمولاً ابتدا قبل از سایر عملیات آماده سازی داده ها انجام می شود
انتخاب ویژگی
انتخاب ویژگی به تکنیک هایی برای انتخاب زیرمجموعه ای از ویژگی های ورودی اشاره دارد که بیشترین ارتباط را با متغیر هدف پیش بینی شده دارد. این مهم است زیرا متغیرهای ورودی نامربوط و زائد می توانند الگوریتم های یادگیری را منحرف یا گمراه کنند که احتمالاً منجر به عملکرد پیش بینی کمتر می شود. علاوه بر این، توسعه مدلها تنها با استفاده از دادههایی که برای انجام یک پیشبینی لازم است، مطلوب است، به عنوان مثال. ساده ترین مدل ممکن با عملکرد خوب را ترجیح دهید.
تکنیک های انتخاب ویژگی ممکن است به طور کلی به آنهایی که از متغیر هدف (با نظارت) استفاده می کنند و آنهایی که استفاده نمی کنند (بدون نظارت) گروه بندی شوند. علاوه بر این، تکنیکهای نظارت شده را میتوان به مدلهایی تقسیم کرد که بهطور خودکار ویژگیها را به عنوان بخشی از برازش مدل (ذاتی) انتخاب میکنند، آنهایی که به صراحت ویژگیهایی را انتخاب میکنند که منجر به بهترین مدل میشوند (wrapper) و مدلهایی که به هر ویژگی ورودی امتیاز میدهند و اجازه میدهند زیر مجموعه ای که باید انتخاب شود (filter).
روش های آماری، مانند همبستگی، برای امتیازدهی ویژگی های ورودی محبوب هستند. سپس ویژگیها را میتوان بر اساس امتیازات و زیرمجموعهای با بیشترین امتیازها به عنوان ورودی یک مدل رتبهبندی کرد. انتخاب معیارهای آماری به انواع دادههای متغیرهای ورودی بستگی دارد و مروری بر معیارهای آماری مختلفی که میتوان استفاده کرد در فصل 11 معرفی شده است. مانند:
• ورودی های دسته بندی شده برای متغیر هدف طبقه بندی .
• ورودی های عددی برای متغیر هدف طبقه بندی .
• ورودی های عددی برای متغیر هدف رگرسیونی .
هنگامی که مخلوطی از انواع داده های متغیر ورودی وجود دارد، می توان از روش های فیلتر مختلف استفاده کرد. متناوبا، می توان از یک روش پوششی مانند روش محبوب حذف ویژگی بازگشتی ((RFE استفاده کرد که نسبت به نوع متغیر ورودی agnostic است .حوزه وسیع تر امتیاز دهی به اهمیت نسبی ویژگیهای ورودی به عنوان اهمیت ویژگی نامیده میشود و بسیاری از تکنیکهای مبتنی بر مدل وجود دارند که خروجیهای آنها میتواند برای کمک به تفسیر مدل، تفسیر مجموعه دادهها یا در انتخاب ویژگیها برای مدلسازی مورد استفاده قرار گیرد.
قوانین ارسال دیدگاه در سایت