تبدیل داده ها ( وظایف مشترک اماده سازی داده ها)
تبدیل داده ها برای تغییر نوع یا توزیع متغیرهای داده استفاده می شود. این یک حفاظ بزرگ از تکنیک های مختلف است و ممکن است به همین راحتی برای متغیرهای ورودی و خروجی اعمال شوند. به یاد بیاورید که داده ها ممکن است یکی از چند نوع را داشته باشند، مانند عددی یا مقوله ای، با انواع فرعی برای هر کدام، مانند مقادیر ممیز شناور عددی صحیح و واقعی برای عددی، و اسمی، ترتیبی و بولی برای دسته بندی.
• نوع داده عددی : مقادیر عددی.
– عدد صحیح : اعداد صحیح بدون جزء کسری.
– شناور: مقادیر ممیز شناور.
• نوع داده دسته بندی : مقادیر برچسب .
– ترتیبی : برچسب هایی با ترتیب رتبه.
– اسمی : برچسب هایی بدون ترتیب رتبه.
–Boolean : مقادیر True و False .
شکل زیر نمای کلی از همین تفکیک انواع داده های سطح بالا را ارائه می دهد.
ممکن است بخواهیم یک متغیر عددی را در فرآیندی به نام گسسته سازی به یک متغیر ترتیبی تبدیل کنیم. از طرف دیگر، ممکن است یک متغیر طبقهبندی را بهعنوان اعداد صحیح یا متغیرهای منطقی، که در اکثر وظایف طبقهبندی مورد نیاز است، رمزگذاری کنیم.
• تبدیل گسسته : یک متغیر عددی را به عنوان یک متغیر ترتیبی رمزگذاری کنید .
• تبدیل ترتیبی : یک متغیر طبقه بندی را به یک متغیر عدد صحیح رمزگذاری کنید .
• یک تبدیل Hot: یک متغیر طبقه بندی شده را به متغیرهای باینری رمزگذاری کنید.
برای متغیرهای عددی با ارزش واقعی، نحوه نمایش آنها در یک کامپیوتر به این معنی است که وضوح به طور چشمگیری در محدوده 0-1 نسبت به محدوده وسیع تر نوع داده وجود دارد. به این ترتیب، ممکن است مطلوب باشد که متغیرها را در این محدوده مقیاس بندی کنیم که به آن نرمال سازی می گویند. اگر داده ها دارای توزیع احتمال گاوسی (Gaussian) باشند، ممکن است مفیدتر باشد که داده ها را به یک گاوس استاندارد با میانگین صفر و انحراف استاندارد یک منتقل کنیم.
• Normalization Transform : یک متغیر را در محدوده 0 و 1 مقیاس کنید .
• Standardization Transform : یک متغیر را به یک گاوسی استاندارد مقیاس دهید.
توزیع احتمال برای متغیرهای عددی را می توان تغییر داد. به عنوان مثال، اگر توزیع تقریباً گاوسی باشد، اما منحرف یا جابجا شده باشد، می توان با استفاده از تبدیل قدرت، آن را گاوسی تر کرد. روش دیگر، تبدیلهای چندک میتواند برای تحمیل یک توزیع احتمال، مانند یکنواخت یا گاوسی (Gaussian) بر روی متغیری با توزیع طبیعی غیرعادی استفاده شود.
• تبدیل قدرت : توزیع یک متغیر را به گاوسی بیشتر تغییر دهید.
• تبدیل Quantile : یک توزیع احتمال مانند یکنواخت یا گاوسی را اعمال می کند.
نکته مهم در مورد تبدیل داده این است که عملیات به طور کلی برای هر متغیر به طور جداگانه انجام می شود. به این ترتیب، ممکن است بخواهیم عملیات مختلفی را بر روی انواع متغیرهای مختلف انجام دهیم. همچنین ممکن است بخواهیم در آینده از تبدیل روی داده های جدید استفاده کنیم. این را می توان با ذخیره اشیاء تبدیل در فایل به همراه مدل نهایی آموزش داده شده بر روی تمام داده های موجود به دست آورد.
قوانین ارسال دیدگاه در سایت