نحوه انتخاب تکنیک های آماده سازی داده ها
چگونه بدانیم از چه تکنیک های آماده سازی داده ، در داده های خود استفاده کنیم؟
– مانند بسیاری از سؤالات آمار، پاسخ به ” کدام روش های مهندسی ویژگی بهترین هستند ؟ ” به طور خاص، این بستگی به شیوه مورد استفاده و رابطه ی واقعی با نتیجه دارد.
در ظاهر، این یک سوال چالش برانگیز است، اما اگر به مرحله آماده سازی داده ها در زمینه کل پروژه نگاه کنیم، ساده تر می شود. مراحل یک پروژه مدلسازی پیش بینی کننده قبل و بعد از مرحله آماده سازی داده، آماده سازی داده هایی را که ممکن است مورد نیاز باشد، آگاه میسازد. مرحله قبل از آماده سازی داده ها شامل تعریف مسئله است.
به عنوان بخشی از تعریف مشکل، این ممکن است شامل بسیاری از وظایف فرعی باشد، مانند:
• جمع آوری داده ها از حوزه مشکل
• در مورد پروژه با کارشناسان موضوع بحث کنید.
• آن متغیرها را برای استفاده به عنوان ورودی و خروجی یک مدل پیش بینی انتخاب کنید.
• داده های جمع آوری شده را مرور کنید.
• داده های جمع آوری شده را با استفاده از روش های آماری خلاصه کنید.
• داده های جمع آوری شده را با استفاده از نمودارها و نقشه ها به تصویر بکشید.
اطلاعات شناخته شده در مورد داده ها را می توان در انتخاب و پیکربندی روش های آماده سازی داده ها استفاده کرد. برای مثال، نمودارهای داده ها ممکن است به تشخیص اینکه آیا یک متغیر دارای مقادیر پرت است یا خیر کمک کند. این می تواند در عملیات پاکسازی داده ها کمک کند. همچنین ممکن است بینشی در مورد توزیع احتمالی که در زیربنای داده ها قرار دارد را ارائه دهد. این ممکن است در تعیین اینکه آیا تبدیل های داده ای که توزیع احتمال یک متغیر را تغییر می دهند مناسب هستند یا خیر کمک کند. روشهای آماری، مانند آمار توصیفی، برای تعیین اینکه آیا عملیات مقیاسبندی ممکن است مورد نیاز باشد، مورد استفاده قرار میگیرد. از آزمونهای فرضیههای آماری میتوان برای تعیین اینکه آیا یک متغیر با توزیع احتمال معین مطابقت دارد یا خیر استفاده کرد. نمودارها و آمارهای زوجی را می توان برای تعیین اینکه آیا متغیرها به هم مرتبط هستند یا خیر، و اگر چنین است، تا چه حد، بینشی در مورد اضافی یا نامربوط بودن یک یا چند متغیر به متغیر هدف هستند، استفاده شود.
به این ترتیب، ممکن است تداخل زیادی بین تعریف مسئله و تهیه داده ها وجود داشته باشد. همچنین ممکن است بین مرحله آماده سازی داده ها و ارزیابی مدل ها تداخلی وجود داشته باشد. ارزیابی مدل ممکن است شامل وظایف فرعی مانند:
• یک معیار عملکرد را برای ارزیابی مهارت پیش بینی مدل انتخاب کنید.
• یک روش ارزیابی مدل را انتخاب کنید.
• الگوریتم هایی را برای ارزیابی انتخاب کنید.
• فراپارامترهای الگوریتم را تنظیم کنید.
• مدل های پیش بینی را در مجموعه ها ترکیب کنید.
اطلاعات شناخته شده در مورد انتخاب الگوریتم ها و کشف الگوریتم هایی با عملکرد خوب نیز می تواند انتخاب و پیکربندی روش های آماده سازی داده ها را نشان دهد. برای مثال، انتخاب الگوریتمها ممکن است الزامات و انتظاراتی را بر نوع و شکل متغیرهای ورودی در دادهها تحمیل کند. این ممکن است مستلزم داشتن یک توزیع احتمال خاص، حذف متغیرهای ورودی همبسته و/ یا حذف متغیرهایی باشد که ارتباط قوی با متغیر هدف ندارند.
انتخاب معیار عملکرد ، ممکن است به آمادهسازی دقیق متغیر هدف برای برآورده کردن انتظارات نیاز داشته باشد، مانند امتیازدهی مدل های برگشت(regression) بر اساس خطای پیش بینی با استفاده از یک واحد اندازه گیری خاص، که باعث وارونگی هر تبدیل مقیاس بندی اعمال شده به آن متغیر برای مدل سازی است. این مثال ها و موارد دیگر، نشان می دهند که اگرچه آماده سازی دادهها گام مهمی در یک پروژه مدل سازی پیش بینی کننده است، اما به تنهایی نیست. در عوض، به شدت تحتتاثیر وظایف انجامشده قبل و بعد از آمادهسازی دادهها است. این امر ماهیت بسیار تکرار شونده هر پروژه مدل سازی پیش بینی را برجسته می کند.
قوانین ارسال دیدگاه در سایت