الگوریتم های یادگیری ماشینی
الگوریتم های یادگیری ماشینی دارای الزامات هستند
حتی اگر داده های خام شما فقط حاوی اعداد باشد، احتمالاً آماده سازی داده ها لازم است. الگوریتم های مختلف یادگیری ماشینی وجود دارد که می توان برای یک پروژه مدل سازی پیش بینی کننده انتخاب کرد. ما نمی توانیم بدانیم کدام الگوریتم مناسب است، چه به اینکه مناسب ترین الگوریتم برای کار ما باشد. بنابراین، ارزیابی سیستماتیک مجموعه ای از الگوریتمهای کاندیدای مختلف و کشف اینکه چه چیزی روی دادههای ما خوب یا بهترین کار میکند، تمرین خوبی است. مشکل این است که هر الگوریتم دارای الزامات یا انتظارات خاصی با توجه به داده ها است.
آماده سازی داده ها می تواند توانایی پیش بینی یک مدل را ایجاد یا از بین ببرد. مدلهای مختلف حساسیتهای متفاوتی نسبت به نوع پیشبینیکنندههای مدل دارند. نحوه ورود پیش بینی کننده ها به مدل نیز مهم است.
به عنوان مثال، برخی از الگوریتم ها هر متغیر ورودی و شاید متغیر هدف را دارای توزیع احتمال خاصی فرض می کنند. این اغلب برای مدلهای یادگیری ماشین خطی است که انتظار دارند هر متغیر ورودی عددی یک توزیع احتمال گاوسی (gaussian) داشته باشد. این بدان معناست که اگر متغیرهای ورودی دارید که گاوسی یا تقریباً گوسی نیستند، ممکن است لازم باشد آنها را طوری تغییر دهید که گاوسی یا بیشتر گاوسی باشند. از طرف دیگر، ممکن است شما را تشویق کند که الگوریتم را مجدداً پیکربندی کنید تا انتظار متفاوتی از داده ها داشته باشید.
برخی از الگوریتمها در صورت وجود متغیرهای ورودی نامربوط یا زائد با متغیر هدف، عملکرد بدتری دارند. همچنین الگوریتم هایی وجود دارند که اگر دو یا چند متغیر ورودی به شدت همبستگی داشته باشند، تأثیر منفی میگذارند. در این موارد، متغیرهای نامربوط یا بسیار همبسته ممکن است نیاز به شناسایی و حذف داشته باشند، یا ممکن است نیاز به استفاده از الگوریتم های جایگزین باشد. همچنین الگوریتمهایی وجود دارند که الزامات بسیار کمی در مورد توزیع احتمال متغیرهای ورودی یا وجود افزونگیها دارند، اما به نوبه خود ممکن است به مثالهای (ردیف) بیشتری نیاز داشته باشند تا نحوه پیش بینی خوب را بیاموزند.
نیاز به پیش پردازش داده ها با توجه به نوع مدل مورد استفاده تعیین می شود. برخی از رویهها، مانند مدلهای مبتنی بر درخت، به ویژه نسبت به ویژگیهای دادههای پیشبینیکننده حساس نیستند. دیگران، مانند برگشت خطی، نیستند.
به این ترتیب، بین داده ها و انتخاب الگوریتم ها تأثیر متقابل وجود دارد. در درجه اول، الگوریتم ها انتظاراتی را بر داده ها تحمیل می کنند و پایبندی به این انتظارات مستلزم آماده سازی مناسب داده ها است. برعکس، شکل دادهها ممکن است بینشی در مورد الگوریتمهایی که احتمال مؤثرتر بودن آنها وجود دارد، ارائه دهد.
قوانین ارسال دیدگاه در سایت