Imbalanced Classification with Python
کلاس بندی مدل سازی پیش بینی، شامل تخصیص یک برچسب کلاس به یک نمونه است. این مبحث، احتمالا یکی از پر مطالعهترین و پر استفادهترین حوزههای یادگیری ماشین است. با این وجود، اکثر مدلها برای یادگیری از دادههای کلاس بندی و معیارها برای ارزیابی آنها فرض کرده اند که توزیع نمونهها در بین برچسبهای کلاسها برابر هستند. این حوزه، بر روی سادهترین شکل مسائل کلاس بندی که مسائل طبقه بندی متوازن هستند، متمرکز است.
کلاس بندی نامتوازن، آن دسته از کارهای کلاس بندی است که در آنها توزیع نمونهها در بین کلاسها برابر نیست. به طور معمول، توزیع کلاس به شدت منحرف است به طوری که برای هر نمونه در کلاس اقلیت، ممکن است صد یا حتی هزار نمونه در کلاس اکثریت وجود داشته باشد. طبقه بندی نامتوازن عملی، مستلزم استفاده از مجموعه ای از تکنیکهای تخصصی، تکنیکهای آماده سازی داده ها، الگوریتمهای یادگیری و معیارهای عملکرد است. کتاب Imbalanced Classification with Python (کلاس بندی نامتوازن با پایتون)، طراحی شده است تا تا تکنیکهای کلاس بندی نامتوازن را به صورت گام به گام و با مثالهای ملموس و قابل اجرا در پایتون به شما آموزش میدهد.
مطالبی که در کتاب Imbalanced Classification with Python: Better Metrics, Balance Skewed Classes, Cost-Sensitive Learning، یاد خواهید گرفت:
- چالش و شهودها برای مجموعه دادههای کلاس بندی نامتوازن.
- نحوه انتخاب یک معیار عملکرد مناسب برای ارزیابی مدلها برای کلاس بندی نامتوازن.
- نحوه کلاس بندی مناسب یک مجموعه داده نامتوازن، هنگام تقسیم به مجموعههای آموزشی و آزمایشی و همچنین هنگام استفاده از اعتبارسنجی متقابل k-fold.
- چگونگی استفاده از الگوریتمهای نمونهگیری داده مانند SMOTE برای تبدیل مجموعه دادههای آموزشی برای یک مجموعه داده نامتوازن هنگام برازش طیفی از مدلهای یادگیری ماشین استاندارد.
- چگونگی استفاده از الگوریتمهای حوزه یادگیری حساس به هزینه برای کلاس بندی نامتوازن.
- نحوه استفاده از نسخههای اصلاح شده الگوریتمهای استاندارد مانند SVM و درختهای تصمیم برای در نظر گرفتن وزن کلاس.
- نحوه تنظیم آستانه هنگام تفسیر احتمالات پیش بینی شده به عنوان برچسب کلاس.
- نحوه کالیبره کردن احتمالات پیش بینی شده توسط الگوریتمهای غیرخطی که با استفاده از یک چارچوب احتمالی مناسب نیستند.
- نحوه استفاده از الگوریتمهای حوزه تشخیص پرت و تشخیص ناهنجاری برای کلاس بندی نامتوازن.
- نحوه استفاده از الگوریتمهای گروهی اصلاح شده که برای در نظر گرفتن توزیع کلاس در طول آموزش اصلاح شده اند.
- چگونگی کارکردن به طور سیستماتیک با یک پروژه مدل سازی پیش بینی کلاس بندی نامتوازن.