آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

پاکسازی داده ها و انتخاب ویژگی (وظایف مشترک اماده سازی داده)

دسته بندی :اخبار سایت 8 می 2023 علیرضا بابامرادی 252

پاکسازی داده ها

پاکسازی داده ها شامل رفع مشکلات سیستماتیک یا خطاها در داده های نامرتب است. مفیدترین پاکسازی داده ها شامل تخصص عمیق حوزه است و می تواند شامل شناسایی و رسیدگی به مشاهدات خاصی باشد که ممکن است نادرست باشند. دلایل زیادی وجود دارد که داده ها ممکن است مقادیر نادرستی داشته باشند، مانند اشتباه تایپ شدن، خراب شدن، تکراری بودن و غیره. تخصص دامنه ممکن است اجازه شناسایی مشاهدات اشتباه آشکار را بدهد، زیرا با آنچه انتظار می رود متفاوت است، مانند قد 200 فوتی یک فرد.
هنگامی که مشاهدات آشفته، پر سر و صدا، فاسد یا اشتباه شناسایی شدند، می توان به آنها رسیدگی کرد. این ممکن است شامل حذف یک ردیف یا یک ستون باشد. به طور متناوب، ممکن است شامل جایگزینی مشاهدات با مقادیر جدید باشد. به این ترتیب، عملیات کلی پاکسازی داده وجود دارد که می توان انجام داد، مانند :
• استفاده از آمار برای تعریف داده های عادی و شناسایی نقاط پرت
• شناسایی ستون هایی که دارای مقدار یکسان یا بدون اختلاف هستند و حذف آنها
• شناسایی ردیف های تکراری داده ها و حذف آنها
• علامت گذاری مقادیر خالی به عنوان گمشده
• وارد کردن مقادیر از دست رفته با استفاده از آمار یا یک مدل آموخته شده
پاکسازی داده ها عملیاتی است که معمولاً ابتدا قبل از سایر عملیات آماده سازی داده ها انجام می شود

 

انتخاب ویژگی

انتخاب ویژگی به تکنیک هایی برای انتخاب زیرمجموعه ای از ویژگی های ورودی اشاره دارد که بیشترین ارتباط را با متغیر هدف پیش بینی شده دارد. این مهم است زیرا متغیرهای ورودی نامربوط و زائد می توانند الگوریتم های یادگیری را منحرف یا گمراه کنند که احتمالاً منجر به عملکرد پیش بینی کمتر می شود. علاوه بر این، توسعه مدل‌ها تنها با استفاده از داده‌هایی که برای انجام یک پیش‌بینی لازم است، مطلوب است، به عنوان مثال. ساده ترین مدل ممکن با عملکرد خوب را ترجیح دهید.
تکنیک های انتخاب ویژگی ممکن است به طور کلی به آنهایی که از متغیر هدف (با نظارت) استفاده می کنند و آنهایی که استفاده نمی کنند (بدون نظارت) گروه بندی شوند. علاوه بر این، تکنیک‌های نظارت شده را می‌توان به مدل‌هایی تقسیم کرد که به‌طور خودکار ویژگی‌ها را به عنوان بخشی از برازش مدل (ذاتی) انتخاب می‌کنند، آن‌هایی که به صراحت ویژگی‌هایی را انتخاب می‌کنند که منجر به بهترین مدل می‌شوند (wrapper) و مدل‌هایی که به هر ویژگی ورودی امتیاز می‌دهند و اجازه می‌دهند زیر مجموعه ای که باید انتخاب شود (filter).
روش های آماری، مانند همبستگی، برای امتیازدهی ویژگی های ورودی محبوب هستند. سپس ویژگی‌ها را می‌توان بر اساس امتیازات و زیرمجموعه‌ای با بیشترین امتیازها به عنوان ورودی یک مدل رتبه‌بندی کرد. انتخاب معیارهای آماری به انواع داده‌های متغیرهای ورودی بستگی دارد و مروری بر معیارهای آماری مختلفی که می‌توان استفاده کرد در فصل 11 معرفی شده است. مانند:
• ورودی های دسته بندی شده برای متغیر هدف طبقه بندی .
• ورودی های عددی برای متغیر هدف طبقه بندی .
• ورودی های عددی برای متغیر هدف رگرسیونی .
هنگامی که مخلوطی از انواع داده های متغیر ورودی وجود دارد، می توان از روش های فیلتر مختلف استفاده کرد. متناوبا، می توان از یک روش پوششی مانند روش محبوب حذف ویژگی بازگشتی ((RFE استفاده کرد که نسبت به نوع متغیر ورودی agnostic است .حوزه وسیع ‌تر امتیاز دهی به اهمیت نسبی ویژگی‌های ورودی به عنوان اهمیت ویژگی نامیده می‌شود و بسیاری از تکنیک‌های مبتنی بر مدل وجود دارند که خروجی‌های آنها می‌تواند برای کمک به تفسیر مدل، تفسیر مجموعه داده‌ها یا در انتخاب ویژگی‌ها برای مدل‌سازی مورد استفاده قرار گیرد.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0