مجموعه داده کولیک اسب(نحوه استفاده از KNN Imputation) و تعیین نزدیکترین همسایه با KNNImputer
مجموعه داده کولیک اسب
ما از مجموعه داده کولیک اسب در این آموزش استفاده خواهیم کرد. مجموعه دادههای قولنج اسبی ویژگیهای پزشکی اسبهای مبتلا به قولنج و زنده بودن یا مردن آنها را توضیح میدهد. برای کسب اطلاعات بیشتر در مورد این مجموعه داده، می توانید به فصل 8 مراجعه کنید. ما می توانیم مجموعه داده را با استفاده از تابع read csv() Pandas بارگذاری کنیم و مقادیر na را برای بارگذاری مقادیر “?” مشخص کنیم. به عنوان گم شده، با مقدار NaN مشخص شده است.پس از بارگیری، میتوانیم دادههای بارگذاریشده را بررسی کنیم تا تأیید کنیم که “؟” مقادیر به عنوان NaN مشخص می شوند.
سپس میتوانیم هر ستون را برشماریم و تعداد ردیفهایی را که مقادیر از دست رفته برای ستون گزارش میکنیم.
با گره زدن این موارد، نمونه کامل بارگیری و خلاصه کردن مجموعه داده در زیر فهرست شده است.
اجرای مثال ابتدا مجموعه داده را بارگیری می کند و پنج ردیف اول را خلاصه می کند. میتوانیم ببینیم که مقادیر گمشدهای که با علامت «؟» مشخص شدهاند، هستند. کاراکتر با مقادیر NaN جایگزین شده است.
لیست تمام ستونهای مجموعه داده و تعداد و درصد مقادیر از دست رفته را ببینیم. میتوانیم ببینیم که برخی از ستونها (مثلاً نمایههای ستون 1 و 2) مقادیر گمشدهای ندارند و سایر ستونها (مثلاً نمایههای ستون 15 و 21) دارای مقادیر زیادی یا حتی اکثریت هستند.
اکنون که با مجموعه داده کولیک اسب که دارای مقادیر گم شده است آشنا شدیم، بیایید ببینیم چگونه می توانیم از نزدیکترین همسایه استفاده کنیم.
تعیین نزدیکترین همسایه با KNNImputer
کتابخانه یادگیری ماشینی scikit-learn کلاس KNNImputer را ارائه میکند که از نزدیکترین همسایه انباشته پشتیبانی میکند. در این بخش، نحوه استفاده موثر از کلاس KNNImputer را بررسی خواهیم کرد.
تبدیل داده های کامپیوتری KNN
KNNImputer یک تبدیل داده است که ابتدا بر اساس روشی که برای تخمین مقادیر از دست رفته استفاده می شود پیکربندی می شود. اندازه گیری فاصله پیش فرض یک اندازه گیری فاصله اقلیدسی است که از NaN آگاه است، به عنوان مثال. هنگام محاسبه فاصله بین اعضای مجموعه داده آموزشی، مقادیر NaN را شامل نمی شود. این از طریق آرگومان متریک تنظیم می شود. تعداد همسایه ها به طور پیش فرض روی پنج تنظیم شده است و می توان آن را با آرگومان n همسایه پیکربندی کرد. در نهایت، اندازهگیری فاصله را میتوان متناسب با فاصله بین نمونهها (ردیفها) وزن کرد، اگرچه این به طور پیشفرض روی یک وزن یکنواخت تنظیم شده است که از طریق آرگومان وزنها کنترل میشود.سپس، محاسبهگر بر روی یک مجموعه داده قرار میگیرد.سپس، واردکننده مناسب به یک مجموعه داده اعمال می شود تا یک کپی از مجموعه داده ایجاد شود که تمام مقادیر گمشده برای هر ستون با یک مقدار تخمینی جایگزین شود.
ما میتوانیم استفاده از آن را در مجموعه داده کولیک اسب نشان دهیم و با خلاصه کردن تعداد کل مقادیر از دست رفته در مجموعه داده قبل و بعد از تبدیل، کارکرد آن را تأیید کنیم. مثال کامل در زیر آمده است.
اجرای مثال ابتدا مجموعه داده را بارگیری می کند و تعداد کل مقادیر از دست رفته در مجموعه داده را 1605 گزارش می کند. تبدیل پیکربندی، تناسب و انجام میشود، و مجموعه داده جدید بهدستآمده هیچ مقدار گمشدهای ندارد، که تأیید میکند همانطور که انتظار داشتیم انجام شده است. هر مقدار از دست رفته با یک مقدار تخمین زده شده توسط مدل جایگزین شد.
قوانین ارسال دیدگاه در سایت