آدرس : تهران میدان فردوسی خیابان ایرانشهر بین سمیه و طالقانی مجتمع تجاری میلاد واحد 9

پشتیبانی 24 ساعته : 02188867940 – 09927674217

برای مشاهده لیست علاقه مندی ها وارد شوید!

مشاهده محصولات فروشگاه
0

هیچ محصولی در سبد خرید نیست.

ادامه انتساب تکراری (Iterative Imputation) و مجموعه داده کولیک اسب

دسته بندی :اخبار سایت 20 می 2023 علیرضا بابامرادی 187

ادامه انتساب تکراری (Iterative Imputation)

انتساب تکراری به فرآیندی اشاره دارد که در آن هر ویژگی به عنوان تابعی از ویژگی های دیگر مدل می شود، به عنوان مثال. یک مشکل رگرسیونی که در آن مقادیر گمشده پیش‌بینی می‌شوند. هر ویژگی به صورت متوالی، یکی پس از دیگری نسبت داده می‌شود، که اجازه می‌دهد از مقادیر قبلی به عنوان بخشی از یک مدل در پیش‌بینی ویژگی‌های بعدی استفاده شود.
تکراری است زیرا این فرآیند چندین بار تکرار می‌شود و به تخمین‌های بهبود یافته از مقادیر گمشده اجازه می‌دهد تا به عنوان مقادیر گمشده در همه ویژگی‌ها محاسبه شوند. این رویکرد ممکن است به طور کلی به عنوان مشخصات کاملاً شرطی ( ( FCS یا انتساب چند متغیره توسط معادلات زنجیره ای ( MICE) نامیده شود.

— این روش در صورتی جذاب است که توزیع چند متغیره توصیف معقولی از داده ها باشد. FCS مدل انتساب چند متغیره را بر اساس متغیر به متغیر با مجموعه ای از چگالی های شرطی، یکی برای هر متغیر ناقص، مشخص می کند. با شروع از یک انتساب اولیه، FCS با تکرار بر روی چگالی های شرطی، انباشته ها را ترسیم می کند. تعداد کم تکرار (مثلاً 10-20) اغلب کافی است.
الگوریتم های رگرسیون متفاوتی را می توان برای تخمین مقادیر از دست رفته برای هر ویژگی استفاده کرد، اگرچه روش های خطی اغلب برای سادگی استفاده می شود. تعداد تکرارهای رویه اغلب کوچک نگه داشته می‌شود، مثلاً 10. در نهایت، ترتیبی که ویژگی‌ها به‌طور متوالی پردازش می‌شوند را می‌توان در نظر گرفت، مثلاً از ویژگی با کمترین مقادیر از دست رفته تا ویژگی با بیشترین مقادیر از دست رفته. اکنون که با روش‌های تکراری برای انتساب مقدار از دست رفته آشنا هستیم، بیایید نگاهی به مجموعه داده‌ای با مقادیر گمشده بیندازیم.

 

مجموعه داده کولیک اسب

ما از مجموعه داده کولیک اسب در این آموزش استفاده خواهیم کرد. مجموعه داده های قولنج اسبی ویژگی های پزشکی اسب های مبتلا به قولنج و اینکه آیا آنها زندگی کرده اند یا مرده اند را توصیف می کند. برای کسب اطلاعات بیشتر در مورد این مجموعه داده، می توانید به فصل 8 مراجعه کنید. ما می توانیم مجموعه داده را با استفاده از تابع read csv() Pandas بارگذاری کنیم و مقادیر na را برای بارگذاری مقادیر “?” مشخص کنیم. به عنوان گم شده، با مقدار NaN مشخص شده است.

 

پس از بارگیری، می‌توانیم داده‌های بارگذاری‌شده را بررسی کنیم تا تأیید کنیم که “؟” مقادیر به عنوان NaN مشخص می شوند.

سپس می‌توانیم هر ستون را برشماریم و تعداد ردیف‌هایی را که مقادیر از دست رفته برای ستون گزارش می‌کنیم.

 

با گره زدن این موارد، نمونه کامل بارگیری و خلاصه کردن مجموعه داده در زیر فهرست شده است.

علیرضا بابامرادی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

  • چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه:
0