ادامه انتساب تکراری (Iterative Imputation) و مجموعه داده کولیک اسب
ادامه انتساب تکراری (Iterative Imputation)
انتساب تکراری به فرآیندی اشاره دارد که در آن هر ویژگی به عنوان تابعی از ویژگی های دیگر مدل می شود، به عنوان مثال. یک مشکل رگرسیونی که در آن مقادیر گمشده پیشبینی میشوند. هر ویژگی به صورت متوالی، یکی پس از دیگری نسبت داده میشود، که اجازه میدهد از مقادیر قبلی به عنوان بخشی از یک مدل در پیشبینی ویژگیهای بعدی استفاده شود.
تکراری است زیرا این فرآیند چندین بار تکرار میشود و به تخمینهای بهبود یافته از مقادیر گمشده اجازه میدهد تا به عنوان مقادیر گمشده در همه ویژگیها محاسبه شوند. این رویکرد ممکن است به طور کلی به عنوان مشخصات کاملاً شرطی ( ( FCS یا انتساب چند متغیره توسط معادلات زنجیره ای ( MICE) نامیده شود.
— این روش در صورتی جذاب است که توزیع چند متغیره توصیف معقولی از داده ها باشد. FCS مدل انتساب چند متغیره را بر اساس متغیر به متغیر با مجموعه ای از چگالی های شرطی، یکی برای هر متغیر ناقص، مشخص می کند. با شروع از یک انتساب اولیه، FCS با تکرار بر روی چگالی های شرطی، انباشته ها را ترسیم می کند. تعداد کم تکرار (مثلاً 10-20) اغلب کافی است.
الگوریتم های رگرسیون متفاوتی را می توان برای تخمین مقادیر از دست رفته برای هر ویژگی استفاده کرد، اگرچه روش های خطی اغلب برای سادگی استفاده می شود. تعداد تکرارهای رویه اغلب کوچک نگه داشته میشود، مثلاً 10. در نهایت، ترتیبی که ویژگیها بهطور متوالی پردازش میشوند را میتوان در نظر گرفت، مثلاً از ویژگی با کمترین مقادیر از دست رفته تا ویژگی با بیشترین مقادیر از دست رفته. اکنون که با روشهای تکراری برای انتساب مقدار از دست رفته آشنا هستیم، بیایید نگاهی به مجموعه دادهای با مقادیر گمشده بیندازیم.
مجموعه داده کولیک اسب
ما از مجموعه داده کولیک اسب در این آموزش استفاده خواهیم کرد. مجموعه داده های قولنج اسبی ویژگی های پزشکی اسب های مبتلا به قولنج و اینکه آیا آنها زندگی کرده اند یا مرده اند را توصیف می کند. برای کسب اطلاعات بیشتر در مورد این مجموعه داده، می توانید به فصل 8 مراجعه کنید. ما می توانیم مجموعه داده را با استفاده از تابع read csv() Pandas بارگذاری کنیم و مقادیر na را برای بارگذاری مقادیر “?” مشخص کنیم. به عنوان گم شده، با مقدار NaN مشخص شده است.
پس از بارگیری، میتوانیم دادههای بارگذاریشده را بررسی کنیم تا تأیید کنیم که “؟” مقادیر به عنوان NaN مشخص می شوند.
سپس میتوانیم هر ستون را برشماریم و تعداد ردیفهایی را که مقادیر از دست رفته برای ستون گزارش میکنیم.
با گره زدن این موارد، نمونه کامل بارگیری و خلاصه کردن مجموعه داده در زیر فهرست شده است.
قوانین ارسال دیدگاه در سایت