پاک سازی داده (ردیف هایی که حاوی داده های تکراری هستند را شناسایی کنید)

دسته بندی :اخبار سایت 13 می 2023 علیرضا بابامرادی 220

ردیف‌هایی که داده‌های یکسانی دارند، ممکن است برای فرآیند مدل‌سازی بی‌فایده باشند، اگر در ارزیابی مدل به‌طور خطرناکی گمراه‌کننده نباشند. در اینجا، یک ردیف تکراری، ردیفی است که در آن هر مقدار در هر ستون برای آن سطر به همان ترتیب (مقادیر ستون یکسان) در ردیف دیگر ظاهر می شود .
• اگر از داده‌های خام استفاده کرده‌اید که ممکن است ورودی‌های تکراری داشته باشند، حذف داده‌های تکراری گام مهمی در حصول اطمینان از استفاده دقیق از داده‌هایتان خواهد بود.
از دیدگاه احتمالی، می‌توانید داده‌های تکراری را به عنوان تنظیم پیشین‌ها برای برچسب کلاس یا توزیع داده در نظر بگیرید. این ممکن است به الگوریتمی مانند Naive Bayes کمک کند اگر بخواهید به طور هدفمند پیشینیان را سوگیری کنید. معمولاً اینطور نیست و الگوریتم‌های یادگیری ماشین با شناسایی و حذف ردیف‌هایی با داده‌های تکراری عملکرد بهتری خواهند داشت. از دیدگاه ارزیابی الگوریتم، ردیف های تکراری منجر به عملکرد گمراه کننده می شود. به عنوان مثال، اگر از یک تقسیم قطار/آزمایش یا اعتبارسنجی متقاطع k-fold استفاده می‌کنید، ممکن است یک ردیف یا ردیف‌های تکراری هم در مجموعه داده‌های قطار و هم در مجموعه آزمایشی ظاهر شوند و هرگونه ارزیابی از مدل در این ردیف‌ها باید درست باشد. این منجر به برآوردی خوش بینانه از عملکرد بر روی داده های دیده نشده خواهد شد.
• ata deduplication که به‌عنوان تشخیص تکراری، پیوند رکورد، تطابق رکورد یا تفکیک موجودیت نیز شناخته می‌شود، به فرآیند شناسایی تاپل‌ها در یک یا چند رابطه اشاره دارد که به یک موجودیت در دنیای واقعی اشاره می‌کنند.
اگر فکر می کنید این مورد برای مجموعه داده یا مدل انتخابی شما نیست، یک آزمایش کنترل شده برای آزمایش آن طراحی کنید. این را می توان با ارزیابی مهارت مدل با مجموعه داده خام و مجموعه داده با حذف تکراری و مقایسه عملکرد به دست آورد. آزمایش دیگری ممکن است شامل تقویت مجموعه داده با تعداد متفاوت نمونه‌های تکراری به‌طور تصادفی باشد. تابع ()duplicate Pandas گزارش می دهد که آیا یک ردیف داده شده تکراری است یا خیر. همه
ردیف‌ها به‌عنوان False علامت‌گذاری می‌شوند تا نشان دهند که تکراری نیست یا True برای نشان دادن تکراری بودن آن. اگر موارد تکراری وجود داشته باشد، همانطور که انتظار داریم، اولین رخداد ردیف با علامت False به( طور پیش فرض) مشخص می شود. مثال زیر موارد تکراری را بررسی می کند.

اجرای مثال ابتدا مجموعه داده را بارگیری می کند، سپس ردیف های تکراری را محاسبه می کند. ابتدا وجود هر ردیف تکراری گزارش می شود و در این صورت مشاهده می کنیم که تکراری ( (Trueوجود دارد. سپس تمام ردیف های تکراری گزارش می شوند. در این حالت می بینیم که سه ردیف تکراری که شناسایی شده اند چاپ می شوند.

ردیف هایی که حاوی داده های تکراری هستند را حذف کنید

ردیف های داده های تکراری احتمالاً باید قبل از مدل سازی از مجموعه داده شما حذف شوند.
• اگر مجموعه داده شما به سادگی دارای ردیف های تکراری است، نیازی به نگرانی در مورد حفظ داده ها نیست. در حال حاضر بخشی از مجموعه داده نهایی است و شما فقط می توانید این ردیف ها را از داده های پاک شده خود حذف یا رها کنید.
راه‌های زیادی برای رسیدن به این هدف وجود دارد، اگرچه Pandas تابع drop duplicates() را ارائه می‌کند که دقیقاً به این امر می‌ رسد. مثال زیر حذف ردیف های تکراری از یک مجموعه داده را نشان می دهد .

اجرای مثال ابتدا مجموعه داده را بارگیری می کند و تعداد سطرها و ستون ها را گزارش می دهد. در مرحله بعد، ردیف های داده های تکراری شناسایی شده و از DataFrame حذف می شوند. سپس شکل DataFrame برای تایید تغییر گزارش می شود.

برچسب‌ها:استخدام برنامه نویس, استخدام گرافیست, انیمیشن سازی, تبلیغ انیمیشنی, خرید سایت آماده, خرید قالب وردپرس, طراحی بنر, طراحی کارت ویزیت, طراحی لوگو, موشن گرافیک, نهال آی تی

علیرضا بابامرادی

تاریخ عضویت:19 سپتامبر 2022

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

قوانین ارسال دیدگاه در سایت

چنانچه دیدگاهی توهین آمیز باشد تایید نخواهد شد.
چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید لغو پاسخ

لینک کوتاه:

پاک سازی داده (ردیف هایی که حاوی داده های تکراری هستند را شناسایی کنید)