آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

مجموعه داده کولیک اسب(نحوه استفاده از محاسبه آماری)

دسته بندی :اخبار سایت 17 می 2023 علیرضا بابامرادی 88

مجموعه داده کولیک اسب

مجموعه داده‌های قولنج اسبی ویژگی‌های پزشکی اسب‌های مبتلا به قولنج و زنده بودن یا مردن آنها را توضیح می‌دهد. 300 ردیف و 26 متغیر ورودی با یک متغیر خروجی وجود دارد. این یک کار پیش‌بینی طبقه‌بندی باینری است که شامل پیش‌بینی 1 در صورت زنده بودن اسب و 2 در صورت مردن اسب است. فیلدهای زیادی وجود دارد که می توانیم برای پیش بینی در این مجموعه داده انتخاب کنیم. در این مورد، ما پیش بینی می کنیم که آیا مشکل جراحی بوده است یا خیر (ستون شاخص 23) و آن را به یک مشکل طبقه بندی باینری تبدیل می کنیم. مجموعه داده دارای مقادیر زیادی از دست رفته برای بسیاری از ستون ها است که در آن هر مقدار گم شده با یک کاراکتر علامت سوال (“؟”) مشخص شده است.
در زیر نمونه‌ای از ردیف‌هایی از مجموعه داده با مقادیر گمشده مشخص شده ارائه می‌شود.

علامت گذاری مقادیر از دست رفته با یک مقدار NaN (نه عدد) در مجموعه داده های بارگذاری شده با استفاده از پایتون بهترین روش است. می‌توانیم مجموعه داده را با استفاده از تابع read csv() Pandas بارگذاری کنیم و مقادیر na را برای بارگذاری مقادیر «?» مشخص کنیم. به عنوان گم شده، با مقدار NaN مشخص شده است.

پس از بارگیری، می‌توانیم داده‌های بارگذاری‌شده را بررسی کنیم تا تأیید کنیم که “؟” مقادیر به عنوان NaN مشخص می شوند.سپس می‌توانیم هر ستون را برشماریم و تعداد ردیف‌هایی را که مقادیر از دست رفته برای ستون گزارش می‌کنیم.

با گره زدن این موارد، نمونه کامل بارگیری و خلاصه کردن مجموعه داده در زیر فهرست شده است.

اجرای مثال ابتدا مجموعه داده را بارگیری می کند و پنج ردیف اول را خلاصه می کند. می‌توانیم ببینیم که مقادیر گمشده‌ای که با علامت «؟» مشخص شده‌اند، هستند. کاراکتر با مقادیر Na جایگزین شده است.

در مرحله بعد، می‌توانیم لیست تمام ستون‌های مجموعه داده و تعداد و درصد مقادیر از دست رفته را ببینیم. می‌توانیم ببینیم که برخی از ستون‌ها (مثلاً نمایه‌های ستون 1 و 2) مقادیر گمشده‌ای ندارند و سایر ستون‌ها (مثلاً نمایه‌های ستون 15 و 21) دارای مقادیر زیادی یا حتی اکثریت هستند.

اکنون که با مجموعه داده کولیک اسب که دارای مقادیر گم شده است آشنا شدیم، بیایید ببینیم چگونه می توانیم از انتساب آماری استفاده کنیم.

نسبت آماری با SimpleImputer

کتابخانه یادگیری ماشینی scikit-learn کلاس SimpleImputer را ارائه می کند که از انتساب آماری پشتیبانی می کند. در این بخش، نحوه استفاده موثر از کلاس SimpleImputer را بررسی خواهیم کرد.

تبدیل داده SimpleImputer

SimpleImputer یک تبدیل داده است که ابتدا بر اساس نوع آمار برای محاسبه برای هر ستون پیکربندی می شود، به عنوان مثال. منظور داشتن.

سپس واردکننده بر روی یک مجموعه داده قرار می گیرد تا آمار هر ستون را محاسبه کند.

سپس واردکننده مناسب به یک مجموعه داده اعمال می شود تا یک کپی از مجموعه داده ایجاد شود که تمام مقادیر گمشده برای هر ستون با یک مقدار آماری جایگزین شود.
سپس واردکننده مناسب به یک مجموعه داده اعمال می شود تا یک کپی از مجموعه داده ایجاد شود که تمام مقادیر گمشده برای هر ستون با یک مقدار آماری جایگزین شود.

اجرای مثال ابتدا مجموعه داده را بارگیری می کند و تعداد کل مقادیر از دست رفته در مجموعه داده را 1605 گزارش می کند. تبدیل پیکربندی، تناسب، و انجام می‌شود و مجموعه داده جدید به ‌دست ‌آمده هیچ مقادیر گمشده‌ای ندارد، که تأیید می‌کند همانطور که انتظار داشتیم انجام شده است. هر مقدار گمشده با مقدار میانگین ستون آن جایگزین شد.

 

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0