k نزدیکترین همسایه (نحوه استفاده از KNN Imputation)
ممکن است یک مجموعه داده دارای مقادیر گم شده باشد. اینها ردیف هایی از داده ها هستند که یک یا چند مقدار یا ستون در آن ردیف وجود ندارد. ممکن است مقادیر به طور کامل گم شده باشند یا ممکن است با یک کاراکتر یا مقدار خاص مانند علامت سوال (“؟”) علامت گذاری شوند. مقادیر ممکن است به دلایل زیادی وجود نداشته باشند، اغلب مختص حوزه مشکل، و ممکن است شامل دلایلی مانند اندازه گیری های خراب یا در دسترس نبودن باشد. اکثر الگوریتمهای یادگیری ماشینی به مقادیر ورودی عددی و یک مقدار برای هر سطر و ستون در یک مجموعه داده نیاز دارند. به این ترتیب، مقادیر از دست رفته می تواند برای الگوریتم های یادگیری ماشین مشکلاتی ایجاد کند. شناسایی مقادیر گمشده در یک مجموعه داده و جایگزینی آنها با یک مقدار عددی معمول است. به این می گویند داده imputing یا از دست رفته داده.
— داده های از دست رفته را می توان نسبت داد. در این مورد، میتوانیم از اطلاعات موجود در پیشبینیکنندههای مجموعه آموزشی برای تخمین مقادیر دیگر پیشبینیکنندهها استفاده کنیم.
یک رویکرد موثر برای برانگیختن داده ها، استفاده از مدلی برای پیش بینی مقادیر از دست رفته است. برای هر ویژگی که دارای مقادیر گم شده است، مدلی ایجاد میشود، و احتمالاً همه ویژگیهای ورودی دیگر را به عنوان مقادیر ورودی در نظر میگیرد.
— یکی از روشهای رایج برای انتساب، مدل K-نزدیکترین همسایه است. یک نمونه جدید با یافتن نمونهها در مجموعه آموزشی «نزدیکترین» به آن وارد میشود و این نقاط نزدیک را برای پر کردن مقدار میانگین میگیرد.
اگر متغیرهای ورودی عددی باشند، میتوان از مدلهای رگرسیون برای پیشبینی استفاده کرد و این مورد کاملاً رایج است. طیف وسیعی از مدلهای مختلف را میتوان استفاده کرد، اگرچه یک مدل ساده k-نزدیکترین همسایه (KNN) در آزمایشها مؤثر بوده است. استفاده از مدل KNN برای پیشبینی یا پر کردن مقادیر از دست رفته به عنوان نزدیکترین همسایه یا انتساب KNN نامیده میشود.
— نشان میدهیم که به نظر میرسد KNNimpute یک روش قویتر و حساستر برای تخمین مقدار از دست رفته ارائه میدهد […] و KNNimpute از روش میانگین ردیف رایج پیشی میگیرد (و همچنین مقادیر از دست رفته را با صفر پر میکند)
پیکربندی انتساب KNN اغلب شامل انتخاب اندازهگیری فاصله (به عنوان مثال Eu clidean) و تعداد همسایگان کمککننده برای هر پیشبینی، فراپارامتر k الگوریتم KNN است. اکنون که با روشهای نزدیکترین همسایه برای محاسبه مقدار از دست رفته آشنا هستیم، بیایید نگاهی به مجموعه دادهای با مقادیر گمشده بیندازیم.
قوانین ارسال دیدگاه در سایت