مجموعه داده کولیک اسب(نحوه استفاده از محاسبه آماری)
مجموعه داده کولیک اسب
مجموعه دادههای قولنج اسبی ویژگیهای پزشکی اسبهای مبتلا به قولنج و زنده بودن یا مردن آنها را توضیح میدهد. 300 ردیف و 26 متغیر ورودی با یک متغیر خروجی وجود دارد. این یک کار پیشبینی طبقهبندی باینری است که شامل پیشبینی 1 در صورت زنده بودن اسب و 2 در صورت مردن اسب است. فیلدهای زیادی وجود دارد که می توانیم برای پیش بینی در این مجموعه داده انتخاب کنیم. در این مورد، ما پیش بینی می کنیم که آیا مشکل جراحی بوده است یا خیر (ستون شاخص 23) و آن را به یک مشکل طبقه بندی باینری تبدیل می کنیم. مجموعه داده دارای مقادیر زیادی از دست رفته برای بسیاری از ستون ها است که در آن هر مقدار گم شده با یک کاراکتر علامت سوال (“؟”) مشخص شده است.
در زیر نمونهای از ردیفهایی از مجموعه داده با مقادیر گمشده مشخص شده ارائه میشود.
علامت گذاری مقادیر از دست رفته با یک مقدار NaN (نه عدد) در مجموعه داده های بارگذاری شده با استفاده از پایتون بهترین روش است. میتوانیم مجموعه داده را با استفاده از تابع read csv() Pandas بارگذاری کنیم و مقادیر na را برای بارگذاری مقادیر «?» مشخص کنیم. به عنوان گم شده، با مقدار NaN مشخص شده است.
پس از بارگیری، میتوانیم دادههای بارگذاریشده را بررسی کنیم تا تأیید کنیم که “؟” مقادیر به عنوان NaN مشخص می شوند.سپس میتوانیم هر ستون را برشماریم و تعداد ردیفهایی را که مقادیر از دست رفته برای ستون گزارش میکنیم.
با گره زدن این موارد، نمونه کامل بارگیری و خلاصه کردن مجموعه داده در زیر فهرست شده است.
اجرای مثال ابتدا مجموعه داده را بارگیری می کند و پنج ردیف اول را خلاصه می کند. میتوانیم ببینیم که مقادیر گمشدهای که با علامت «؟» مشخص شدهاند، هستند. کاراکتر با مقادیر Na جایگزین شده است.
در مرحله بعد، میتوانیم لیست تمام ستونهای مجموعه داده و تعداد و درصد مقادیر از دست رفته را ببینیم. میتوانیم ببینیم که برخی از ستونها (مثلاً نمایههای ستون 1 و 2) مقادیر گمشدهای ندارند و سایر ستونها (مثلاً نمایههای ستون 15 و 21) دارای مقادیر زیادی یا حتی اکثریت هستند.
اکنون که با مجموعه داده کولیک اسب که دارای مقادیر گم شده است آشنا شدیم، بیایید ببینیم چگونه می توانیم از انتساب آماری استفاده کنیم.
نسبت آماری با SimpleImputer
کتابخانه یادگیری ماشینی scikit-learn کلاس SimpleImputer را ارائه می کند که از انتساب آماری پشتیبانی می کند. در این بخش، نحوه استفاده موثر از کلاس SimpleImputer را بررسی خواهیم کرد.
تبدیل داده SimpleImputer
SimpleImputer یک تبدیل داده است که ابتدا بر اساس نوع آمار برای محاسبه برای هر ستون پیکربندی می شود، به عنوان مثال. منظور داشتن.
سپس واردکننده بر روی یک مجموعه داده قرار می گیرد تا آمار هر ستون را محاسبه کند.
سپس واردکننده مناسب به یک مجموعه داده اعمال می شود تا یک کپی از مجموعه داده ایجاد شود که تمام مقادیر گمشده برای هر ستون با یک مقدار آماری جایگزین شود.
سپس واردکننده مناسب به یک مجموعه داده اعمال می شود تا یک کپی از مجموعه داده ایجاد شود که تمام مقادیر گمشده برای هر ستون با یک مقدار آماری جایگزین شود.
اجرای مثال ابتدا مجموعه داده را بارگیری می کند و تعداد کل مقادیر از دست رفته در مجموعه داده را 1605 گزارش می کند. تبدیل پیکربندی، تناسب، و انجام میشود و مجموعه داده جدید به دست آمده هیچ مقادیر گمشدهای ندارد، که تأیید میکند همانطور که انتظار داشتیم انجام شده است. هر مقدار گمشده با مقدار میانگین ستون آن جایگزین شد.
قوانین ارسال دیدگاه در سایت