مراحل اماده سازی داده ها (1)
داده در یادگیری ماشین چیست؟
پروژه های مدل سازی پیش بینی شامل یادگیری از داده ها است. داده به مثالها یا مواردی از دامنه اشاره دارد که مشخصه مشکلی است که میخواهید حل کنید. در یادگیری نظارت شده، دادهها از نمونههایی تشکیل میشوند که در آن هر مثال دارای یک عنصر ورودی است که به یک مدل ارائه میشود و یک خروجی یا عنصر هدفی که انتظار میرود مدل آن را پیشبینی کند.
آنچه ما داده می نامیم مشاهدات پدیده های دنیای واقعی است. هر قطعه از داده ها، پنجره کوچکی را به جنبه ای محدود از واقعیت ارائه می دهد.
طبقه بندی نمونه ای از یک مسئله یادگیری نظارت شده است که در آن هدف یک برچسب است و برگشت نمونه ای از یک مشکل یادگیری نظارت شده است که در آن هدف یک عدد است. داده های ورودی ممکن است اشکال مختلفی مانند تصویر، سری زمانی، متن، ویدئو و غیره داشته باشند. رایجترین نوع دادههای ورودی معمولاً به عنوان دادههای جدولی یا دادههای ساختاری شناخته میشوند. این دادهای است که ممکن است آن را در یک صفحه گسترده، در یک پایگاه داده یا در یک فایل متغیر جدا شده با کاما ( ( CSV ببینید. ما بر روی این نوع داده ها تمرکز خواهیم کرد .
به یک جدول بزرگ از داده ها فکر کنید. در جبر خطی به این جدول داده ها به عنوان ماتریس اشاره می کنیم. جدول از سطر و ستون تشکیل شده است. یک ردیف یک مثال از حوزه مشکل را نشان می دهد و ممکن است به عنوان مثال، یک نمونه یا یک مورد اشاره شود. یک ستون ویژگی های مشاهده شده در مورد مثال را نشان می دهد و ممکن است به عنوان یک متغیر، یک ویژگی یا یک صفت نامیده شود.
• ردیف : یک مثال واحد از دامنه، که اغلب یک نمونه، مثال یا نمونه در یادگیری ماشین نامیده میشود.
• ستون : یک ویژگی واحد ثبت شده برای هر مثال، که اغلب متغیر، پیش بینی کننده یا ویژگی در یادگیری ماشین نامیده می شود.
به عنوان مثال، ستونهایی که برای ورودی مدل استفاده می شوند، متغیرهای ورودی و ستونی که حاوی هدفی است که باید پیش بینی شود، متغیر خروجی نامیده میشود. ردیف هایی که برای آموزش یک مدل استفاده میشوند به عنوان مجموعه داده آموزشی و ردیف هایی که برای ارزیابی مدل استفاده میشوند، مجموعه دادههای آزمایشی نامیده میشوند.
• متغیرهای ورودی : ستون هایی در مجموعه داده ارائه شده به یک مدل به منظور پیش بینی.
• متغیر خروجی: ستونی در مجموعه داده که باید توسط یک مدل پیشبینی شود.
هنگامی که داده های خود را جمع آوری می کنید، ممکن است مجبور شوید آن ها را تغییر دهید تا یک جدول بزرگ تشکیل شود. به عنوان مثال، اگر دادههای خود را در یک پایگاه داده رابطه ای دارید، معمول است که موجودیتها را در جداول جداگانه به شکل معمولی نشان دهید تا افزونگی به حداقل برسد. برای ایجاد یک جدول بزرگ با یک ردیف به ازای هر موضوع یا موجودیتی که میخواهید مدل کنید، ممکن است لازم باشد این فرآیند را معکوس کنید و افزونگی در دادهها را در فرآیندی به نام غیرعادیسازی معرفی کنید.
اگر داده های شما در یک صفحه گسترده یا پایگاه داده است، استخراج و ذخیره داده ها در قالب CSV یک تمرین استاندارد است. این یک نمایش استاندارد است که قابل انتقال است، به خوبی درک می شود و برای فرآیند مدل سازی پیش بینی بدون وابستگی خارجی آماده است. اکنون که با داده های ساخت یافته آشنا شدیم، بیایید ببینیم که چرا باید داده ها را قبل از استفاده در یک مدل آماده کنیم.
قوانین ارسال دیدگاه در سایت