آماده سازی داده چیست؟

دسته بندی :اخبار سایت 5 می 2023 علیرضا بابامرادی 501

پروژه‌های مدل‌ سازی پیش‌بینی‌ کننده، مانند طبقه ‌بندی یا بازگشت، معمولاً نمی ‌توان از داده‌های خام مستقیماً استفاده کرد. به دلایلی مانند :
• الگوریتم های یادگیری ماشینی نیاز دارند که داده ها اعداد باشند.
• برخی از الگوریتم های یادگیری ماشینی الزاماتی را بر داده ها تحمیل می کنند.
• نویزهای آماری و خطاهای موجود در داده ها ممکن است نیاز به اصلاح داشته باشند.
• روابط غیرخطی پیچیده ممکن است از داده ها حذف شوند.
به این ترتیب، داده های خام باید قبل از استفاده برای تطبیق و ارزیابی مدل یادگیری ماشین، از قبل پردازش شوند. این مرحله در یک پروژه مدل سازی پیش بینی به عنوان آماده سازی داده ها (data preparation) نامیده می شود، اگرچه نام های بسیار دیگری مانند جدال داده ها، تمیز کردن داده ها، پیش پردازش داده ها و مهندسی ویژگی ها دارد. برخی از این نام‌ها ممکن است به عنوان وظایف فرعی برای فرآیند آماده ‌سازی داده‌های گسترده ‌تر مناسب باشند. می‌توانیم آماده‌ سازی داده را تبدیل داده‌های خام به شکلی که برای مدل‌ سازی مناسب ‌تر است، تعریف کنیم.
• جدال داده ها که معمولاً به عنوان داده munging، تبدیل، دستکاری، کار سرایدار و… نیز شناخته می شود، می تواند یک فرآیند پر زحمت باشد.
این بسیار مختص به داده های شما، اهداف پروژه شما و الگوریتم هایی است که برای مدل سازی داده های شما استفاده می شود. در بخش بعدی بیشتر در مورد این روابط صحبت خواهیم کرد. با این وجود، وظایف معمول یا استانداردی وجود دارد که می ‌توانید در مرحله آماده‌سازی داده‌ها در یک پروژه یادگیری ماشینی از آن‌ها استفاده یا تحلیل کنید. این وظایف عبارتند از:

• پاکسازی داده ها :

شناسایی و تصحیح اشتباهات یا خطاهای موجود در داده ها .

• انتخاب ویژگی :

شناسایی متغیرهای ورودی که بیشترین ارتباط را با کار دارند .

• تبدیل داده ها :

تغییر مقیاس یا توزیع متغیرها.

• مهندسی ویژگی :

استخراج متغیرهای جدید از داده های موجود.

• کاهش ابعاد :

ایجاد پیش بینی های فشرده از داده ها.

هر یک از این کارها یک رشته تحصیلی کامل با الگوریتم های تخصصی است. در فصل 3 نگاهی دقیق تر به این وظایف خواهیم داشت.
آماده سازی داده ها به صورت کورکورانه انجام نمی شود. در برخی موارد، قبل از اینکه بتوانیم الگوریتم یادگیری ماشینی مانند تبدیل رشته ها به اعداد را اعمال کنیم، متغیرها باید کد گذاری یا تبدیل شوند. در موارد دیگر، کمتر واضح است، برای مثال: مقیاس بندی یک متغیر ممکن است برای یک الگوریتم مفید باشد یا نباشد.
Translation is too long to be saved
فلسفه گسترده ‌تر آماده ‌سازی داده‌ها این است که کشف کنیم چگونه می ‌توان ساختار زیربنایی مسئله را به بهترین نحو در معرض الگوریتم‌ های یادگیری قرارداد . این چراغ راهنما است. ما ساختار اساسی مشکل را نمی دانیم ؛ برای کشف آن و یادگیری نحوه انجام پیش‌بینی‌های ماهرانه نیازی به الگوریتم یادگیری نداریم. بنابراین، افشای ساختار زیربنایی ناشناخته مسئله، یک فرآیند کشف، همراه با کشف الگوریتم‌های یادگیری خوب بهترین عملکرد برای پروژه است.

• با این حال، ما اغلب بهترین بازنمایی پیش‌بینی‌ کننده‌ها را برای بهبود عملکرد مدل نمی‌ دانیم. در عوض، کار مجدد پیش بینی ها بیشتر یک هنر است و به ابزار و تجربه مناسب برای یافتن بازنمایی های پیش بینی بهتر نیاز دارد. علاوه بر این، ممکن است برای بهبود عملکرد model نیاز به جستجوی بسیاری از نمایش‌های پیش‌بینی ‌کننده جایگزین داشته باشیم.

ممکن است پیچیده تر از آن چیزی باشد که در نگاه اول به نظر می رسد. برای مثال، متغیرهای ورودی مختلف ممکن است به روش‌های متفاوتی برای آماده ‌سازی داده نیاز داشته باشند. علاوه بر این، متغیرهای مختلف یا زیر مجموعه‌ متغیرهای ورودی ممکن است به دنباله‌ های متفاوتی از روش‌های آماده‌ سازی داده نیاز داشته باشند. با توجه به تعداد زیاد روش ها ، که هر یک ممکن است پیکربندی و پیش نیازهای خاص خود را داشته باشند، ممکن است طاقت فرسا شود. با این وجود، مراحل فرآیند یادگیری ماشینی قبل و بعد از آماده‌سازی داده‌ها می‌تواند به اطلاع از اینکه چه تکنیک‌هایی باید در نظر گرفته شود، کمک کند.

برچسب‌ها:استخدام برنامه نویس, استخدام گرافیست, انیمیشن سازی, تبلیغ انیمیشنی, خرید سایت آماده, خرید قالب وردپرس, طراحی بنر, طراحی کارت ویزیت, طراحی لوگو, موشن گرافیک, نهال آی تی

علیرضا بابامرادی

تاریخ عضویت:19 سپتامبر 2022

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید لغو پاسخ

لینک کوتاه:

آماده سازی داده چیست؟

• پاکسازی داده ها :

• انتخاب ویژگی :

• تبدیل داده ها :

• مهندسی ویژگی :

• کاهش ابعاد :

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

دیدگاهتان را بنویسید لغو پاسخ

مزایای عضویت در سیگما:

نوشته‌های تازه

آخرین دیدگاه‌ها

دسته بندی مطالب

لینک های کمکی

خدمات اداری

خدمات تیم نهال آی تی

خدمات تیم نهال آی تی

نماد اعتماد الکترونیکی

آماده سازی داده چیست؟

• پاکسازی داده ها :

• انتخاب ویژگی :

• تبدیل داده ها :

• مهندسی ویژگی :

• کاهش ابعاد :

مطالب زیر را حتما بخوانید:

multiprocessing.Queue – صف های شغلی مشترک">multiprocessing.Queue – صف های شغلی مشترک

قوانین ارسال دیدگاه در سایت

دیدگاهتان را بنویسید لغو پاسخ

مزایای عضویت در سیگما:

نوشته‌های تازه

آخرین دیدگاه‌ها

دسته بندی مطالب

نماد اعتماد الکترونیکی