آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

مراحل اماده سازی داده ها (1)

دسته بندی :اخبار سایت 6 می 2023 علیرضا بابامرادی 229

داده در یادگیری ماشین چیست؟

پروژه های مدل سازی پیش بینی شامل یادگیری از داده ها است. داده به مثال‌ها یا مواردی از دامنه اشاره دارد که مشخصه مشکلی است که می‌خواهید حل کنید. در یادگیری نظارت شده، داده‌ها از نمونه‌هایی تشکیل می‌شوند که در آن هر مثال دارای یک عنصر ورودی است که به یک مدل ارائه می‌شود و یک خروجی یا عنصر هدفی که انتظار می‌رود مدل آن را پیش‌بینی کند.
آنچه ما داده می نامیم مشاهدات پدیده های دنیای واقعی است. هر قطعه از داده ها، پنجره کوچکی را به جنبه ای محدود از واقعیت ارائه می دهد.
طبقه بندی نمونه ای از یک مسئله یادگیری نظارت شده است که در آن هدف یک برچسب است و برگشت نمونه ای از یک مشکل یادگیری نظارت شده است که در آن هدف یک عدد است. داده های ورودی ممکن است اشکال مختلفی مانند تصویر، سری زمانی، متن، ویدئو و غیره داشته باشند. رایج‌ترین نوع داده‌های ورودی معمولاً به عنوان داده‌های جدولی یا داده‌های ساختاری شناخته می‌شوند. این داده‌ای است که ممکن است آن را در یک صفحه گسترده، در یک پایگاه داده یا در یک فایل متغیر جدا شده با کاما ( ( CSV ببینید. ما بر روی این نوع داده ها تمرکز خواهیم کرد .
به یک جدول بزرگ از داده ها فکر کنید. در جبر خطی به این جدول داده ها به عنوان ماتریس اشاره می کنیم. جدول از سطر و ستون تشکیل شده است. یک ردیف یک مثال از حوزه مشکل را نشان می دهد و ممکن است به عنوان مثال، یک نمونه یا یک مورد اشاره شود. یک ستون ویژگی های مشاهده شده در مورد مثال را نشان می دهد و ممکن است به عنوان یک متغیر، یک ویژگی یا یک صفت نامیده شود.
• ردیف : یک مثال واحد از دامنه، که اغلب یک نمونه، مثال یا نمونه در یادگیری ماشین نامیده می‌شود.
• ستون : یک ویژگی واحد ثبت شده برای هر مثال، که اغلب متغیر، پیش بینی کننده یا ویژگی در یادگیری ماشین نامیده می شود.
به عنوان مثال، ستون‌هایی که برای ورودی مدل استفاده می شوند، متغیرهای ورودی و ستونی که حاوی هدفی است که باید پیش ‌بینی شود، متغیر خروجی نامیده می‌شود. ردیف‌ هایی که برای آموزش یک مدل استفاده می‌شوند به عنوان مجموعه داده آموزشی و ردیف ‌هایی که برای ارزیابی مدل استفاده می‌شوند، مجموعه داده‌های آزمایشی نامیده می‌شوند.
• متغیرهای ورودی : ستون هایی در مجموعه داده ارائه شده به یک مدل به منظور پیش بینی.
• متغیر خروجی: ستونی در مجموعه داده که باید توسط یک مدل پیش‌بینی شود.
هنگامی که داده های خود را جمع آوری می کنید، ممکن است مجبور شوید آن ها را تغییر دهید تا یک جدول بزرگ تشکیل شود. به عنوان مثال، اگر داده‌های خود را در یک پایگاه داده رابطه ‌ای دارید، معمول است که موجودیت‌ها را در جداول جداگانه به شکل معمولی نشان دهید تا افزونگی به حداقل برسد. برای ایجاد یک جدول بزرگ با یک ردیف به ازای هر موضوع یا موجودیتی که می‌خواهید مدل کنید، ممکن است لازم باشد این فرآیند را معکوس کنید و افزونگی در داده‌ها را در فرآیندی به نام غیرعادی‌سازی معرفی کنید.
اگر داده های شما در یک صفحه گسترده یا پایگاه داده است، استخراج و ذخیره داده ها در قالب CSV یک تمرین استاندارد است. این یک نمایش استاندارد است که قابل انتقال است، به خوبی درک می شود و برای فرآیند مدل سازی پیش بینی بدون وابستگی خارجی آماده است. اکنون که با داده های ساخت یافته آشنا شدیم، بیایید ببینیم که چرا باید داده ها را قبل از استفاده در یک مدل آماده کنیم.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0