مراحل اماده سازی داده ها (2)
داده های خام باید آماده شوند
داده های جمع آوری شده از دامنه شما به عنوان داده های خام نامیده می شود و در زمینه مشکلی که می خواهید حل کنید جمع آوری می شود. این بدان معناست که ابتدا باید آنچه را که میخواهید پیشبینی کنید، تعریف کنید، سپس دادههایی را که فکر میکنید به بهترین شکل به شما در پیشبینی کمک میکند جمع آوری کنید. این تمرین جمع آوری دادهها اغلب به یک متخصص حوزه نیاز دارد و ممکن است به تکرارهای زیادی برای جمع آوری داده های بیشتر نیاز داشته باشد، هم از نظر ردیف های جدید دادهها پس از دردسترس شدن و هم از نظر ستونهای جدید که احتمالاً مرتبط با پیشبینی هستند.
- داده خام: داده ها به شکل دامنه ارائه شده .
تقریباً در همه موارد، قبل از اینکه بتوانید از آنها به عنوان مبنایی برای مدلسازی با یادگیری ماشین استفاده کنید، دادههای خام باید تغییر کنند.
یک ویژگی نمایش عددی یک جنبه از داده های خام است. ویژگیها بین دادهها و مدلها در خط لوله یادگیری ماشین قرار دارند. مهندسی ویژگی عبارت است از استخراج ویژگیها از دادههای خام و تبدیل آنها به قالبهایی که برای مدل یادگیری ماشین مناسب هستند.
موارد بدون آماده سازی داده آنقدر نادر یا پیش پا افتاده هستند که عملاً یک قانون برای تهیه داده های خام در هر پروژه یادگیری ماشینی است. سه دلیل اصلی وجود دارد که چرا باید داده های خام را در یک پروژه یادگیری ماشین آماده کنید. بیایید به نوبه خود به هر یک نگاهی بیندازیم.
الگوریتم های یادگیری ماشین انتظار اعداد
حتی اگر دادههای شما در یک جدول بزرگ از ردیفها و ستونها نشان داده میشوند، متغیرهای جدول ممکن است انواع دادههای متفاوتی داشته باشند. برخی از متغیرها ممکن است عددی باشند، مانند اعداد صحیح، مقادیر ممیز شناور، رتبهها، نرخها، درصدها و غیره. سایر متغیرها ممکن است نام ها، دسته ها یا برچسب هایی باشند که با کاراکترها یا کلمات نشان داده شده اند و برخی ممکن است باینری باشند که با 0 و 1 یا True و False نشان داده شوند. مشکل این است که الگوریتم های یادگیری ماشین در هسته خود بر روی داده های عددی کار می کنند . آنها اعداد را به عنوان ورودی می گیرند و عددی را به عنوان خروجی پیش بینی می کنند. همه داده ها با استفاده از اصطلاحات جبر خطی به صورت بردار و ماتریس دیده می شوند.
به این ترتیب، دادههای خام باید قبل از آموزش، ارزیابی و استفاده از مدلهای یادگیری ماشین تغییر کنند. گاهی اوقات تغییرات داده ها را می توان به صورت داخلی توسط الگوریتم یادگیری ماشین مدیریت کرد. معمولاً، این کار باید توسط متخصص یادگیری ماشین قبل از مدل سازی در آنچه معمولاً به عنوان آماده سازی داده یا پیش پردازش دادهها نامیده میشود، انجام شود.
قوانین ارسال دیدگاه در سایت