آماده سازی داده ها با آموزش و مجموعه های آزمایشی
در این بخش، یک مدل رگرسیون لجستیک را با استفاده از مجموعههای قطار و آزمایش بر روی یک مجموعه داده طبقهبندی باینری مصنوعی که در آن متغیرهای ورودی نرمال شدهاند، ارزیابی میکنیم. ابتدا بیایید مجموعه داده مصنوعی خود را تعریف کنیم. ما از تابع make classification() برای ایجاد مجموعه داده با 1000 ردیف داده و 20 ویژگی ورودی عددی استفاده خواهیم کرد. مثال زیر مجموعه داده را ایجاد می کند و شکل آرایه های متغیر ورودی و خروجی را خلاصه می کند.
اجرای مثال مجموعه داده را ایجاد می کند و تأیید می کند که قسمت ورودی مجموعه داده دارای 1000 ردیف و 20 ستون برای 20 متغیر ورودی است و متغیر خروجی دارای 1000 نمونه برای مطابقت با 1000 ردیف داده ورودی است، یک مقدار در هر ردیف
رویکرد ساده لوحانه شامل ابتدا استفاده از روش آماده سازی داده، سپس تقسیم دادهها قبل از ارزیابی نهایی مدل است. میتوانیم متغیرهای ورودی را با استفاده از کلاس MinMaxScaler نرمال کنیم، که ابتدا با پیکربندی پیش فرض تعریف میشود و دادهها را به محدوده 0-1 مقیاس میدهد، سپس تابع fit transform() فراخوانی می شود تا تبدیل را بر روی مجموعه داده برازش دهد و آن را به مجموعه داده اعمال کند . مجموعه داده در یک مرحله نتیجه یک نسخه نرمال شده از متغیرهای ورودی است که در آن هر ستون در آرایه به طور جداگانه نرمال می شود (به عنوان مثال حداقل و حداکثر محاسبه شده خود را دارد). هنوز خیلی نگران مشخصات این تبدیل نباشید، ما به جزئیات بیشتری خواهیم پرداخت.
در مرحله بعد، میتوانیم مجموعه دادههای خود را با استفاده از تابع ()split test به مجموعههای آموزشی و آزمایشی تقسیم کنیم. از 67 درصد برای مجموعه آموزشی و 33 درصد برای مجموعه آزمایشی استفاده میکنیم
سپس میتوانیم الگوریتم رگرسیون لجستیک خود را از طریق کلاس LogisticRegression، با پیکربندی پیشفرض تعریف کنیم و آن را در مجموعه داده آموزشی قرار دهیم.
سپس مدل برازش می تواند با استفاده از دادههای ورودی مجموعه آزمایشی پیشبینی کند، و ما میتوانیم پیشبینیها را با مقادیر مورد انتظار مقایسه کنیم و امتیاز دقت طبقه بندی را محاسبه کنیم.
اجرای مثال داده ها را عادی می کند، داده ها را به مجموعه های آموزشی و آزمایشی تقسیم می کند، سپس مدل را برازش و ارزیابی می کند.
توجه : با توجه به ماهیت تصادفی الگوریتم یادگیری، روش ارزیابی یا تفاوت در دقت عددی، نتایج خاص شما ممکن است متفاوت باشد. مثال را چند بار اجرا کنید و میانگین عملکرد را مقایسه کنید.
در این صورت میتوان دید که برآورد مدل حدود 84.848 درصد است.
با توجه به اینکه می دانیم نشت داده وجود دارد، می دانیم که این تخمین از دقت مدل اشتباه است. در مرحله بعد، بیایید بررسی کنیم که چگونه می توانیم داده ها را به درستی آماده کنیم تا از نشت داده ها جلوگیری کنیم.
قوانین ارسال دیدگاه در سایت