مهندسی ویژگی و ابعاد
مهندسی ویژگی
مهندسی ویژگی به فرآیند ایجاد متغیرهای ورودی جدید از داده های موجود اشاره دارد. مهندسی ویژگی های جدید به شدت به داده ها و انواع داده های شما اختصاص دارد. به این ترتیب، اغلب به همکاری یک متخصص موضوع برای کمک به شناسایی ویژگی های جدیدی که می تواند از داده ها ساخته شود، نیاز دارد. این تخصص، تعمیم به روش های عمومی را به موضوعی چالش برانگیز تبدیل می کند. با این وجود، تکنیک هایی وجود دارد که می توانند مجدداً مورد استفاده قرار گیرند، مانند:
• افزودن یک متغیر پرچم بولین (Boolean)برای برخی از وضعیت ها.
• افزودن یک آمار خلاصه گروهی ، مانند میانگین.
• اضافه کردن متغیرهای جدید برای هر جزء از یک متغیر مرکب، مانند تاریخ-زمان.
یک رویکرد رایج برگرفته از آمار، ایجاد نسخههایی از متغیرهای ورودی عددی است که با یک عملیات ریاضی ساده، مانند افزایش آنها به توان یا ضرب با متغیرهای ورودی دیگر، که به عنوان ویژگیهای چند جملهای نامیده میشوند، تغییر کردهاند.
• تبدیل چند جمله ای: کپیهایی از متغیرهای ورودی عددی ایجاد میکند که به توان افزایش یافتهاند.
موضوع مهندسی ویژگی، افزودن زمینه وسیعتر به یک مشاهده یا تجزیه یک متغیر پیچیده است، هر دو در تلاش برای ارائه دیدگاه سادهتر در مورد دادههای ورودی. من دوست دارم مهندسی ویژگی را به عنوان یک نوع تبدیل داده در نظر بگیرم، اگرچه به همان اندازه معقول است که تبدیل داده ها را به عنوان نوعی مهندسی ویژگی در نظر بگیریم.
کاهش ابعاد
ممکن است تعداد ویژگی های ورودی برای یک مجموعه داده، ابعاد داده در نظر گرفته شود. به عنوان مثال، دو متغیر ورودی با هم می توانند یک ناحیه دو بعدی را تعریف کنند که در آن هر ردیف از داده ها یک نقطه را در آن فضا تعریف می کند. سپس این ایده می تواند به هر تعداد متغیر ورودی برای ایجاد حجم های چند بعدی بزرگ مقیاس شود. مشکل این است که هر چه ابعاد این فضا بیشتر باشد (مثلاً متغیرهای ورودی بیشتر)، احتمال اینکه مجموعه داده نمونه برداری بسیار کم و غیرنماینده ای از آن فضا را نشان دهد بیشتر است. این به عنوان نفرین ابعادی شناخته می شود.
این امر باعث ایجاد انگیزه در انتخاب ویژگی می شود، اگرچه یک جایگزین برای انتخاب ویژگی ایجاد طرح ریزی از داده ها در فضایی با ابعاد پایین تر است که همچنان مهم ترین ویژگی های داده اصلی را حفظ می کند. این به طور کلی به عنوان کاهش ابعاد نامیده می شود و جایگزینی برای انتخاب ویژگی ارائه می دهد. بر خلاف انتخاب ویژگی، متغیرها در داده های پیش بینی شده مستقیماً با متغیرهای ورودی اصلی مرتبط نیستند و تفسیر طرح ریزی را دشوار می کند. رایج ترین رویکرد برای کاهش ابعاد، استفاده از روش فاکتورسازی ماتریسی است:
• تجزیه و تحلیل اجزای اصلی
• تجزیه ارزش مفرد
تأثیر اصلی این تکنیک ها این است که وابستگی های خطی بین متغیرهای ورودی را حذف می کنند، به عنوان مثال: متغیرهای مرتبط . روشهای دیگری وجود دارد که کاهش ابعاد کمتر را کشف میکنند. ما ممکن است به این روشها به عنوان روشهای مبتنی بر مدل مانند آنالیز تشخیص خطی و شاید رمزگذارهای خودکار اشاره کنیم.
• تجزیه و تحلیل تشخیصی خطی .
گاهی اوقات می توان از الگوریتم های یادگیری چندگانه نیز استفاده کرد، مانند:
در این آموزش، وظایف متداول آمادهسازی دادهها را که در یک کار یادگیری ماشین مدلسازی پیشبینیکننده انجام میشود، کشف کردید. به طور خاص، شما یاد گرفتید:
• تکنیک هایی مانند پاک کردن داده ها، می توانند خطاهای داده مانند مقادیر از دست رفته را شناسایی و برطرف کنند.
• تبدیل داده ها می تواند مقیاس، نوع و توزیع احتمال متغیرها را در مجموعه داده تغییر دهد.
• تکنیک هایی مانند انتخاب ویژگی و کاهش ابعاد می توانند تعداد متغیرهای ورودی را کاهش دهند.
در بخش بعدی، نحوه آماده سازی داده ها را به گونه ای انجام می دهیم که از نشت داده ها جلوگیری شود.
قوانین ارسال دیدگاه در سایت