پاک سازی داده (ردیف هایی که حاوی داده های تکراری هستند را شناسایی کنید)
ردیفهایی که دادههای یکسانی دارند، ممکن است برای فرآیند مدلسازی بیفایده باشند، اگر در ارزیابی مدل بهطور خطرناکی گمراهکننده نباشند. در اینجا، یک ردیف تکراری، ردیفی است که در آن هر مقدار در هر ستون برای آن سطر به همان ترتیب (مقادیر ستون یکسان) در ردیف دیگر ظاهر می شود .
• اگر از دادههای خام استفاده کردهاید که ممکن است ورودیهای تکراری داشته باشند، حذف دادههای تکراری گام مهمی در حصول اطمینان از استفاده دقیق از دادههایتان خواهد بود.
از دیدگاه احتمالی، میتوانید دادههای تکراری را به عنوان تنظیم پیشینها برای برچسب کلاس یا توزیع داده در نظر بگیرید. این ممکن است به الگوریتمی مانند Naive Bayes کمک کند اگر بخواهید به طور هدفمند پیشینیان را سوگیری کنید. معمولاً اینطور نیست و الگوریتمهای یادگیری ماشین با شناسایی و حذف ردیفهایی با دادههای تکراری عملکرد بهتری خواهند داشت. از دیدگاه ارزیابی الگوریتم، ردیف های تکراری منجر به عملکرد گمراه کننده می شود. به عنوان مثال، اگر از یک تقسیم قطار/آزمایش یا اعتبارسنجی متقاطع k-fold استفاده میکنید، ممکن است یک ردیف یا ردیفهای تکراری هم در مجموعه دادههای قطار و هم در مجموعه آزمایشی ظاهر شوند و هرگونه ارزیابی از مدل در این ردیفها باید درست باشد. این منجر به برآوردی خوش بینانه از عملکرد بر روی داده های دیده نشده خواهد شد.
• ata deduplication که بهعنوان تشخیص تکراری، پیوند رکورد، تطابق رکورد یا تفکیک موجودیت نیز شناخته میشود، به فرآیند شناسایی تاپلها در یک یا چند رابطه اشاره دارد که به یک موجودیت در دنیای واقعی اشاره میکنند.
اگر فکر می کنید این مورد برای مجموعه داده یا مدل انتخابی شما نیست، یک آزمایش کنترل شده برای آزمایش آن طراحی کنید. این را می توان با ارزیابی مهارت مدل با مجموعه داده خام و مجموعه داده با حذف تکراری و مقایسه عملکرد به دست آورد. آزمایش دیگری ممکن است شامل تقویت مجموعه داده با تعداد متفاوت نمونههای تکراری بهطور تصادفی باشد. تابع ()duplicate Pandas گزارش می دهد که آیا یک ردیف داده شده تکراری است یا خیر. همه
ردیفها بهعنوان False علامتگذاری میشوند تا نشان دهند که تکراری نیست یا True برای نشان دادن تکراری بودن آن. اگر موارد تکراری وجود داشته باشد، همانطور که انتظار داریم، اولین رخداد ردیف با علامت False به( طور پیش فرض) مشخص می شود. مثال زیر موارد تکراری را بررسی می کند.
اجرای مثال ابتدا مجموعه داده را بارگیری می کند، سپس ردیف های تکراری را محاسبه می کند. ابتدا وجود هر ردیف تکراری گزارش می شود و در این صورت مشاهده می کنیم که تکراری ( (Trueوجود دارد. سپس تمام ردیف های تکراری گزارش می شوند. در این حالت می بینیم که سه ردیف تکراری که شناسایی شده اند چاپ می شوند.
ردیف هایی که حاوی داده های تکراری هستند را حذف کنید
ردیف های داده های تکراری احتمالاً باید قبل از مدل سازی از مجموعه داده شما حذف شوند.
• اگر مجموعه داده شما به سادگی دارای ردیف های تکراری است، نیازی به نگرانی در مورد حفظ داده ها نیست. در حال حاضر بخشی از مجموعه داده نهایی است و شما فقط می توانید این ردیف ها را از داده های پاک شده خود حذف یا رها کنید.
راههای زیادی برای رسیدن به این هدف وجود دارد، اگرچه Pandas تابع drop duplicates() را ارائه میکند که دقیقاً به این امر می رسد. مثال زیر حذف ردیف های تکراری از یک مجموعه داده را نشان می دهد .
اجرای مثال ابتدا مجموعه داده را بارگیری می کند و تعداد سطرها و ستون ها را گزارش می دهد. در مرحله بعد، ردیف های داده های تکراری شناسایی شده و از DataFrame حذف می شوند. سپس شکل DataFrame برای تایید تغییر گزارش می شود.
قوانین ارسال دیدگاه در سایت