آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

پاکسازی اولیه داده ها

دسته بندی :اخبار سایت 11 می 2023 علیرضا بابامرادی 192

پاکسازی داده ها یک مرحله بسیار مهم در هر پروژه یادگیری ماشینی است. در داده‌های جدولی، تحلیل‌های آماری مختلف و تکنیک‌های تجسم داده‌ها وجود دارد که می‌توانید برای کاوش داده‌های خود به منظور شناسایی عملیات پاک‌سازی داده‌ها که ممکن است بخواهید انجام دهید، استفاده کنید. قبل از پرش به روش‌های پیچیده، برخی از عملیات پاک‌سازی داده‌ها وجود دارد که احتمالاً باید در هر پروژه یادگیری ماشینی انجام دهید. اینها به قدری اساسی هستند که اغلب توسط متخصصان باتجربه یادگیری ماشین نادیده گرفته می شوند، اما آنقدر حیاتی هستند که در صورت نادیده گرفتن، ممکن است مدل ها شکسته شوند یا نتایج عملکرد بسیار خوش بینانه را گزارش کنند. در این آموزش، پاکسازی داده های اولیه ای را که همیشه باید روی مجموعه داده خود انجام دهید، کشف خواهید کرد. پس از تکمیل این آموزش، خواهید دانست:
• نحوه شناسایی و حذف متغیرهای ستونی که فقط یک مقدار دارند.
• نحوه شناسایی و در نظر گرفتن متغیرهای ستونی با مقادیر بسیار کم.
• نحوه شناسایی و حذف ردیف هایی که حاوی مشاهدات تکراری هستند.
بیاید شروع کنیم…
مروری بر آموزش

این آموزش به هفت قسمت تقسیم شده است. آنها عبارتند از:
1. مجموعه داده های آشفته
2. ستون هایی را که دارای یک مقدار واحد هستند شناسایی کنید.
3. ستون هایی را که دارای یک مقدار واحد هستند حذف کنید.
4. ستون هایی را در نظر بگیرید که ارزش های بسیار کمی دارند.
5. ستون هایی را که واریانس پایینی دارند حذف کنید.
6. ردیف هایی که حاوی داده های تکراری هستند را شناسایی کنید.
7. ردیف هایی که حاوی داده های تکراری هستند را حذف کنید.

مجموعه داده های آشفته

پاکسازی داده ها به شناسایی و تصحیح خطاهایی در مجموعه داده اشاره دارد که ممکن است بر یک مدل پیش بینی تأثیر منفی بگذارد.
– پاکسازی داده ها برای اشاره به انواع کارها و فعالیت ها برای شناسایی و تعمیر خطاها در داده ها استفاده می شود.
اگرچه تمیز کردن داده ها بسیار مهم است، نه هیجان انگیز است، نه شامل تکنیک های فانتزی است، فقط دانش خوبی از مجموعه داده است.
– پاک کردن داده‌های شما جذاب‌ترین کارها نیست، اما بخش مهمی از کشمکش داده‌ها است. دانستن اینکه چگونه داده های خود را به درستی تمیز و مونتاژ کنید، شما را از سایرین در حوزه کاری خود کیلومترها متمایز می کند.
انواع مختلفی از خطاها در یک مجموعه داده وجود دارد، اگرچه برخی از ساده ترین خطاها شامل ستون هایی است که اطلاعات زیادی ندارند و ردیف های تکراری. قبل از اینکه به شناسایی و تصحیح داده های آشفته بپردازیم، اجازه دهید مجموعه داده های نامرتب را تعریف کنیم. ما از دو مجموعه داده به عنوان پایه این آموزش استفاده خواهیم کرد، مجموعه داده های نشت نفت و مجموعه داده گل های زنبق.

 

مجموعه داده های نشت نفت

 

مجموعه داده‌های نشت نفت یک مجموعه داده استاندارد یادگیری ماشینی است. این کار شامل پیش بینی این است که آیا پچ ( patch ) حاوی نشت نفت است یا خیر، به عنوان مثال : تخلیه غیرقانونی یا تصادفی نفت در اقیانوس، با توجه به برداری که محتوای یک قطعه تصویر ماهواره‌ای را توصیف می‌کند. 937 مورد وجود دارد. هر کیس از 48 ویژگی مشتق شده از بینایی کامپیوتری عددی، یک شماره پچ و یک برچسب کلاس تشکیل شده است. حالت عادی عدم نشت نفت است که برچسب کلاس 0 به آن اختصاص داده شده است، در حالی که نشت نفت با برچسب کلاس 1 نشان داده می شود. 896 مورد برای عدم نشت نفت و 41 مورد نشت نفت وجود دارد.
ویژگی‌های مشتق ‌شده از بینایی کامپیوتر با مقیاس‌های متفاوتی مانند هزاران در ستون دوم و کسرها در ستون‌های دیگر، ارزش واقعی دارند. این مجموعه داده شامل ستون هایی با مقادیر بسیار کمی منحصر به فرد است که مبنای خوبی برای پاکسازی داده ها فراهم می کند.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0