حذف ستون هایی که دارای یک مقدار واحد هستند
متغیرها یا ستون هایی که دارای یک مقدار واحد هستند احتمالا باید از مجموعه داده شما حذف شوند.
– به سادگی پیش بینی کننده های واریانس صفر را حذف کنید.
حذف ستون ها از آرایه NumPy یا Pandas DataFrame نسبتا آسان است. یک روش این است که تمام ستون هایی را که دارای یک مقدار منحصر به فرد هستند، ثبت کنید، سپس با فراخوانی تابع drop() آنها را از Pandas DataFrame حذف کنید. مثال کامل در زیر آمده است.
اجرای مثال ابتدا مجموعه داده را بارگیری می کند و تعداد سطرها و ستون ها را گزارش می دهد. تعداد مقادیر منحصربهفرد برای هر ستون محاسبه میشود و آن دسته از ستونهایی که یک مقدار منحصر به فرد دارند شناسایی میشوند. در این مورد، ستون 22 نمایه می شود. سپس ستون های شناسایی شده از DataFrame حذف می شوند و تعداد سطرها و ستون های DataFrame برای تأیید تغییر گزارش می شود.
نمونه خروجی از حذف ستون هایی که دارای یک مقدار واحد هستند.
ستون هایی را در نظر بگیرید که ارزش های بسیار کمی دارند
در بخش قبل، دیدیم که برخی از ستونهای مجموعه داده نمونه دارای مقادیر منحصر به فرد بسیار کمی هستند. به عنوان مثال، ستون هایی وجود داشتند که فقط 2، 4 و 9 مقدار منحصر به فرد داشتند. این ممکن است برای متغیرهای ترتیبی یا طبقه ای منطقی باشد. با این حال، در این مورد، مجموعه داده فقط شامل متغیرهای عددی است. به این ترتیب، تنها داشتن 2، 4 یا 9 مقدار عددی منحصر به فرد در یک ستون ممکن است تعجب آور باشد. میتوانیم به این ستونها یا پیشبینی کنندهها به عنوان پیشبینی کننده واریانس (variance)نزدیک به صفر اشاره کنیم، زیرا اختلاف آنها صفر نیست، بلکه عدد بسیار کمی نزدیک به صفر است.
• پیشبینیکنندههای واریانس نزدیک به صفر یا پتانسیل داشتن واریانس نزدیک به صفر در طول فرآیند، نمونه برداری مجدد را دارند. اینها پیش بینی کننده هایی هستند که مقادیر منحصر به فرد کمی دارند (مانند دو مقدار برای متغیرهای ساختگی باینری) و به ندرت در داده ها رخ می دهند.
این ستون ها ممکن است به مهارت یک مدل کمک کنند یا نکنند. ما نمی توانیم فرض کنیم که آنها برای مدل سازی بی فایده هستند.
• اگرچه پیشبینیکنندههای واریانس نزدیک به صفر احتمالاً حاوی اطلاعات پیشبینی با ارزش کمی هستند، ممکن است مایل نباشیم این اطلاعات را فیلتر کنیم.
بسته به انتخاب الگوریتم های آماده سازی و مدل سازی داده ها، متغیرهایی با مقادیر عددی بسیار کم نیز می توانند باعث خطا یا نتایج غیرمنتظره شوند. برای مثال، دیدهام که آنها هنگام استفاده از تبدیلهای توان برای آمادهسازی دادهها و هنگام برازش مدلهای خطی که توزیع احتمال دادهای معقول را فرض میکنند، باعث خطا میشوند. برای کمک به برجسته کردن ستونهایی از این نوع، میتوانید تعداد مقادیر منحصربهفرد برای هر متغیر را به عنوان درصدی از تعداد کل ردیفهای مجموعه داده محاسبه کنید. بیایید این کار را به صورت دستی با استفاده از NumPy انجام دهیم.
مثال کامل در زیر آمده است.
اجرای مثال، نمایه ستون و تعداد مقادیر منحصربهفرد برای هر ستون را گزارش میکند و به دنبال آن درصد مقادیر منحصربهفرد از تمام ردیفهای مجموعه داده را نشان میدهد. در اینجا، می بینیم که برخی از ستون ها دارای درصد بسیار کمی از مقادیر منحصر به فرد هستند، مانند زیر 1 درصد.
با اجرای مثال، می بینیم که 11 متغیر از 50 متغیر دارای متغیرهای عددی هستند که مقادیر منحصر به فردی دارند که کمتر از 1 درصد تعداد ردیف ها هستند. این بدان معنا نیست که این ردیف ها و ستون ها باید حذف شوند،
اما نیاز به توجه بیشتری دارند. مثلا
قوانین ارسال دیدگاه در سایت