مجموعه داده های نشت نفت
مجموعه دادههای نشت نفت یک مجموعه داده استاندارد یادگیری ماشینی است. این کار شامل پیش بینی این است که آیا پچ ( patch ) حاوی نشت نفت است یا خیر، به عنوان مثال : تخلیه غیرقانونی یا تصادفی نفت در اقیانوس، با توجه به برداری که محتوای یک قطعه تصویر ماهوارهای را توصیف میکند. 937 مورد وجود دارد. هر کیس از 48 ویژگی مشتق شده از بینایی کامپیوتری عددی، یک شماره پچ و یک برچسب کلاس تشکیل شده است. حالت عادی عدم نشت نفت است که برچسب کلاس 0 به آن اختصاص داده شده است، در حالی که نشت نفت با برچسب کلاس 1 نشان داده می شود. 896 مورد برای عدم نشت نفت و 41 مورد نشت نفت وجود دارد.
ویژگیهای مشتق شده از بینایی کامپیوتر با مقیاسهای متفاوتی مانند هزاران در ستون دوم و کسرها در ستونهای دیگر، ارزش واقعی دارند. این مجموعه داده شامل ستون هایی با مقادیر بسیار کمی منحصر به فرد است که مبنای خوبی برای پاکسازی داده ها فراهم می کند.
مجموعه داده گل زنبق
مجموعه داده گلهای زنبق نیز یکی دیگر از مجموعه داده های استاندارد یادگیری ماشینی است. مجموعه داده شامل پیشبینی گونههای گل با اندازه گیری گلهای زنبق در سانتی متر است. این یک مشکل طبقه بندی چند طبقه است. تعداد مشاهدات برای هر کلاس متعادل است. 150 مشاهده با 4 متغیر ورودی و 1 متغیر خروجی وجود دارد.
چند خط اول فایل باید به صورت زیر باشد:
میتوانیم ببینیم که هر چهار متغیر ورودی عددی هستند و متغیر کلاس هدف رشتهای است که گونههای گل زنبق را نشان میدهد. این مجموعه داده شامل ردیف های تکراری است که مبنای خوبی برای پاکسازی داده ها فراهم می کند.
ستون هایی که دارای یک مشاهده یا مقدار واحد هستند احتمالا برای مدل سازی بی فایده هستند. این ستونها یا پیشبینیکنندهها به پیشبینیکنندههای واریانس صفر گفته میشوند که اگر واریانس را اندازهگیری کنیم (متوسط مقدار از میانگین)، صفر میشود.
– هنگامی که یک پیشبینیکننده حاوی یک مقدار واحد باشد، آن را پیشبینیکننده واریانس صفر مینامیم زیرا واقعاً هیچ تغییری توسط پیشبینیکننده نمایش داده نمیشود.
در اینجا، یک مقدار واحد به این معنی است که هر سطر برای آن ستون مقدار یکسانی دارد. به عنوان مثال، ستون X1 دارای مقدار 1.0 برای تمام ردیف های مجموعه داده است:
ستون هایی را که دارای یک مقدار واحد هستند شناسایی کنید
مثالی از ستونی که حاوی یک مقدار واحد است
ستون هایی که برای همه سطرها یک مقدار دارند، هیچ اطلاعاتی برای مدل سازی ندارند. بسته به انتخاب الگوریتم های آماده سازی و مدل سازی داده ها، متغیرهایی با یک مقدار واحد نیز می توانند باعث خطا یا نتایج غیرمنتظره شوند. میتوانید ردیفهایی را که دارای این ویژگی هستند با استفاده از تابع ()NumPy شناسایی کنید که تعداد مقادیر منحصربه فرد را در هر ستون گزارش میکند. مثال زیر مجموعه دادههای طبقه بندی oil-spill را بارگیری میکند که شامل 50 متغیر است و تعداد مقادیر منحصربه فرد برای هر ستون را خلاصه میکند.
اجرای مثال، مجموعه داده را مستقیماً بارگیری می کند و تعداد مقادیر منحصر به فرد برای هر ستون را چاپ می کند. می بینیم که نمایه ستون 22 فقط یک مقدار دارد و باید حذف شود.
قوانین ارسال دیدگاه در سایت