مدل سازی پیش بینی عمدتاً آماده سازی داده است!
مدلسازی دادهها با الگوریتمهای یادگیری ماشین به یک امر عادی تبدیل شده است. اکثریت قریب به اتفاق الگوریتمهای رایج، محبوب و پرکاربرد یادگیری ماشینی دهها سال قدمت دارند. برگشت خطی بیش از 100 سال قدمت دارد. یعنی اکثر الگوریتم ها به خوبی درک شده اند و به خوبی پارامتر شده است و تعاریف و پیاده سازی استاندارد در نرم افزار منبع باز موجود است، مانند کتابخانه یادگیری ماشینی در پایتون.
اگرچه الگوریتمها از نظر عملیاتی به خوبی درک شدهاند، اکثر آنها نظریههای رضایتبخشی در مورد اینکه چرا کار میکنند یا چگونه الگوریتمها را به مشکلات نگاشتهاند، ندارند. به همین دلیل است که هر پروژه مدلسازی پیشبینیکننده ازمایشی است تا تئوری، و نیازمند فرآیند آزمایش سیستماتیک الگوریتمها بر روی دادهها است. با توجه به اینکه الگوریتمهای یادگیری ماشین در بیشتر موارد معمول هستند، تنها چیزی که از پروژهای به پروژه دیگر تغییر میکند، دادههای خاص مورد استفاده در مدل سازی است.
کیفیت داده یکی از مهم ترین مشکلات در مدیریت داده است، زیرا داده های کثیف اغلب منجر به نتایج نادرست تجزیه و تحلیل داده ها و تصمیمات تجاری نادرست می شود.
اگر دادههایی را برای یک مشکل مدل سازی پیشبینی طبقه بندی یا رگرسیون جمع آوری کرده اید، ممکن است اولین بار در تمام تاریخ باشد که این مشکل مدل سازی شده است. شما در حال شکستن مسیر جدیدی هستید. این بدان معنا نیست که قبلاً به این دسته از مشکلات رسیدگی نشده است. احتمالاً چنین است در صورت انتشار نتایج، می توانید از آنچه پیدا شده است یاد بگیرید. اما امروزه مجموعه مشاهدات خاص شما مشکل مدل سازی پیش بینی شما را منحصر به فرد می کند. به این ترتیب، اکثر پروژه شما صرف داده ها می شود. جمع آوری داده ها، تایید داده ها، پاکسازی داده ها، تجسم داده ها، تبدیل داده ها و غیره.
بیان شده است که تا 80 درصد از تجزیه و تحلیل داده ها صرف فرآیند پاکسازی و آماده سازی داده ها می شود. با این حال، به عنوان یک پیش نیاز برای بقیه گردش کار تجزیه و تحلیل داده ها (تجسم، مدل سازی، گزارش)، ضروری است که در تکنیک های جدال داده ها مسلط و کارآمد شوید.
وظیفه شما این است که کشف کنید چگونه الگوریتم های یادگیری را به بهترین نحو در معرض ساختار ناشناخته اساسی مسئله پیش بینی خود قرار دهید. مسیر رسیدن به آنجا از طریق آماده سازی داده ها است. برای اینکه بتوانید یک متخصص یادگیری ماشین موثر باشید، باید بدانید:
• انواع مختلف آماده سازی داده ها که در یک پروژه باید در نظر گرفته شود.
• چند الگوریتم برتر برای هر کلاس تکنیک آماده سازی داده ها
• زمان استفاده و نحوه پیکربندی تکنیک های برتر آماده سازی داده ها.
این اغلب دانشی است که به سختی به دست می آید، زیرا منابع کمی برای این موضوع اختصاص داده شده است. در عوض، شما اغلب باید ادبیات را برای یافتن مقالات جستجو کنید تا ایده ای در مورد آنچه در دسترس است و نحوه استفاده از آن بدست آورید.
پزشکان موافق هستند که اکثریت قریب به اتفاق زمان در ساخت خط لوله یادگیری ماشین صرف مهندسی ویژگی ها و تمیز کردن داده ها می شود. با این حال، علیرغم اهمیت آن، موضوع به ندرت به تنهایی مورد بحث قرار می گیرد
قوانین ارسال دیدگاه در سایت