آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

مجموعه داده کولیک اسب(نحوه استفاده از KNN Imputation) و تعیین نزدیکترین همسایه با KNNImputer

دسته بندی :اخبار سایت 18 می 2023 علیرضا بابامرادی 136

مجموعه داده کولیک اسب

ما از مجموعه داده کولیک اسب در این آموزش استفاده خواهیم کرد. مجموعه داده‌های قولنج اسبی ویژگی‌های پزشکی اسب‌های مبتلا به قولنج و زنده بودن یا مردن آنها را توضیح می‌دهد. برای کسب اطلاعات بیشتر در مورد این مجموعه داده، می توانید به فصل 8 مراجعه کنید. ما می توانیم مجموعه داده را با استفاده از تابع read csv() Pandas بارگذاری کنیم و مقادیر na را برای بارگذاری مقادیر “?” مشخص کنیم. به عنوان گم شده، با مقدار NaN مشخص شده است.پس از بارگیری، می‌توانیم داده‌های بارگذاری‌شده را بررسی کنیم تا تأیید کنیم که “؟” مقادیر به عنوان NaN مشخص می شوند.

سپس می‌توانیم هر ستون را برشماریم و تعداد ردیف‌هایی را که مقادیر از دست رفته برای ستون گزارش می‌کنیم.

با گره زدن این موارد، نمونه کامل بارگیری و خلاصه کردن مجموعه داده در زیر فهرست شده است.

اجرای مثال ابتدا مجموعه داده را بارگیری می کند و پنج ردیف اول را خلاصه می کند. می‌توانیم ببینیم که مقادیر گمشده‌ای که با علامت «؟» مشخص شده‌اند، هستند. کاراکتر با مقادیر NaN جایگزین شده است.

لیست تمام ستون‌های مجموعه داده و تعداد و درصد مقادیر از دست رفته را ببینیم. می‌توانیم ببینیم که برخی از ستون‌ها (مثلاً نمایه‌های ستون 1 و 2) مقادیر گمشده‌ای ندارند و سایر ستون‌ها (مثلاً نمایه‌های ستون 15 و 21) دارای مقادیر زیادی یا حتی اکثریت هستند.

اکنون که با مجموعه داده کولیک اسب که دارای مقادیر گم شده است آشنا شدیم، بیایید ببینیم چگونه می توانیم از نزدیکترین همسایه استفاده کنیم.

 

تعیین نزدیکترین همسایه با KNNImputer

کتابخانه یادگیری ماشینی scikit-learn کلاس KNNImputer را ارائه می‌کند که از نزدیکترین همسایه انباشته پشتیبانی می‌کند. در این بخش، نحوه استفاده موثر از کلاس KNNImputer را بررسی خواهیم کرد.

تبدیل داده های کامپیوتری KNN

KNNImputer یک تبدیل داده است که ابتدا بر اساس روشی که برای تخمین مقادیر از دست رفته استفاده می شود پیکربندی می شود. اندازه گیری فاصله پیش فرض یک اندازه گیری فاصله اقلیدسی است که از NaN آگاه است، به عنوان مثال. هنگام محاسبه فاصله بین اعضای مجموعه داده آموزشی، مقادیر NaN را شامل نمی شود. این از طریق آرگومان متریک تنظیم می شود. تعداد همسایه ها به طور پیش فرض روی پنج تنظیم شده است و می توان آن را با آرگومان n همسایه پیکربندی کرد. در نهایت، اندازه‌گیری فاصله را می‌توان متناسب با فاصله بین نمونه‌ها (ردیف‌ها) وزن کرد، اگرچه این به طور پیش‌فرض روی یک وزن یکنواخت تنظیم شده است که از طریق آرگومان وزن‌ها کنترل می‌شود.سپس، محاسبه‌گر بر روی یک مجموعه داده قرار می‌گیرد.سپس، واردکننده مناسب به یک مجموعه داده اعمال می شود تا یک کپی از مجموعه داده ایجاد شود که تمام مقادیر گمشده برای هر ستون با یک مقدار تخمینی جایگزین شود.
ما می‌توانیم استفاده از آن را در مجموعه داده کولیک اسب نشان دهیم و با خلاصه کردن تعداد کل مقادیر از دست رفته در مجموعه داده قبل و بعد از تبدیل، کارکرد آن را تأیید کنیم. مثال کامل در زیر آمده است.

اجرای مثال ابتدا مجموعه داده را بارگیری می کند و تعداد کل مقادیر از دست رفته در مجموعه داده را 1605 گزارش می کند. تبدیل پیکربندی، تناسب و انجام می‌شود، و مجموعه داده جدید به‌دست‌آمده هیچ مقدار گمشده‌ای ندارد، که تأیید می‌کند همانطور که انتظار داشتیم انجام شده است. هر مقدار از دست رفته با یک مقدار تخمین زده شده توسط مدل جایگزین شد.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0