آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

حذف ستون هایی که دارای یک مقدار واحد هستند

دسته بندی :اخبار سایت 11 می 2023 علیرضا بابامرادی 132

متغیرها یا ستون هایی که دارای یک مقدار واحد هستند احتمالا باید از مجموعه داده شما حذف شوند.
– به سادگی پیش بینی کننده های واریانس صفر را حذف کنید.

حذف ستون ها از آرایه NumPy یا Pandas DataFrame نسبتا آسان است. یک روش این است که تمام ستون هایی را که دارای یک مقدار منحصر به فرد هستند، ثبت کنید، سپس با فراخوانی تابع drop() آنها را از Pandas DataFrame حذف کنید. مثال کامل در زیر آمده است.

اجرای مثال ابتدا مجموعه داده را بارگیری می کند و تعداد سطرها و ستون ها را گزارش می دهد. تعداد مقادیر منحصربه‌فرد برای هر ستون محاسبه می‌شود و آن دسته از ستون‌هایی که یک مقدار منحصر به فرد دارند شناسایی می‌شوند. در این مورد، ستون 22 نمایه می شود. سپس ستون های شناسایی شده از DataFrame حذف می شوند و تعداد سطرها و ستون های DataFrame برای تأیید تغییر گزارش می شود.

نمونه خروجی از حذف ستون هایی که دارای یک مقدار واحد هستند.

ستون هایی را در نظر بگیرید که ارزش های بسیار کمی دارند

در بخش قبل، دیدیم که برخی از ستون‌های مجموعه داده نمونه دارای مقادیر منحصر به فرد بسیار کمی هستند. به عنوان مثال، ستون هایی وجود داشتند که فقط 2، 4 و 9 مقدار منحصر به فرد داشتند. این ممکن است برای متغیرهای ترتیبی یا طبقه ای منطقی باشد. با این حال، در این مورد، مجموعه داده فقط شامل متغیرهای عددی است. به این ترتیب، تنها داشتن 2، 4 یا 9 مقدار عددی منحصر به فرد در یک ستون ممکن است تعجب آور باشد. می‌توانیم به این ستون‌ها یا پیش‌بینی ‌کننده‌ها به عنوان پیش‌بینی‌ کننده واریانس (variance)نزدیک به صفر اشاره کنیم، زیرا اختلاف آنها صفر نیست، بلکه عدد بسیار کمی نزدیک به صفر است.
• پیش‌بینی‌کننده‌های واریانس نزدیک به صفر یا پتانسیل داشتن واریانس نزدیک به صفر در طول فرآیند، نمونه ‌برداری مجدد را دارند. اینها پیش بینی کننده هایی هستند که مقادیر منحصر به فرد کمی دارند (مانند دو مقدار برای متغیرهای ساختگی باینری) و به ندرت در داده ها رخ می دهند.
این ستون ها ممکن است به مهارت یک مدل کمک کنند یا نکنند. ما نمی توانیم فرض کنیم که آنها برای مدل سازی بی فایده هستند.
• اگرچه پیش‌بینی‌کننده‌های واریانس نزدیک به صفر احتمالاً حاوی اطلاعات پیش‌بینی با ارزش کمی هستند، ممکن است مایل نباشیم این اطلاعات را فیلتر کنیم.
بسته به انتخاب الگوریتم های آماده سازی و مدل سازی داده ها، متغیرهایی با مقادیر عددی بسیار کم نیز می توانند باعث خطا یا نتایج غیرمنتظره شوند. برای مثال، دیده‌ام که آنها هنگام استفاده از تبدیل‌های توان برای آماده‌سازی داده‌ها و هنگام برازش مدل‌های خطی که توزیع احتمال داده‌ای معقول را فرض می‌کنند، باعث خطا می‌شوند. برای کمک به برجسته کردن ستون‌هایی از این نوع، می‌توانید تعداد مقادیر منحصربه‌فرد برای هر متغیر را به عنوان درصدی از تعداد کل ردیف‌های مجموعه داده محاسبه کنید. بیایید این کار را به صورت دستی با استفاده از NumPy انجام دهیم.
مثال کامل در زیر آمده است.

اجرای مثال، نمایه ستون و تعداد مقادیر منحصربه‌فرد برای هر ستون را گزارش می‌کند و به دنبال آن درصد مقادیر منحصربه‌فرد از تمام ردیف‌های مجموعه داده را نشان می‌دهد. در اینجا، می بینیم که برخی از ستون ها دارای درصد بسیار کمی از مقادیر منحصر به فرد هستند، مانند زیر 1 درصد.

با اجرای مثال، می بینیم که 11 متغیر از 50 متغیر دارای متغیرهای عددی هستند که مقادیر منحصر به فردی دارند که کمتر از 1 درصد تعداد ردیف ها هستند. این بدان معنا نیست که این ردیف ها و ستون ها باید حذف شوند،
اما نیاز به توجه بیشتری دارند. مثلا

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0