در کتاب Modern Data Mining Algorithms in C++ and CUDA C (الگوریتمهای مدرن داده کاوی در سی پلاس پلاس و کودا سی)، انواع الگوریتمهای دادهکاوی را کشف خواهید کرد که برای انتخاب مجموعههای کوچکی از ویژگیهای مهم از میان تودههای بی در و پیکر نامزد ها، یا استخراج ویژگیهای مفید از متغیرهای اندازهگیری شده مفید هستند. به عنوان یک داده کاو جدی، اغلب با هزاران ویژگی کاندید برای برنامه پیشبینی یا طبقهبندی خود مواجه میشوید، که بیشتر این ویژگیها ارزش کمی دارند یا اصلاً ارزش ندارند. شما میدانید که بسیاری از این ویژگیها ممکن است تنها در ترکیب با برخی از ویژگیهای دیگر مفید باشند، در حالی که عملاً به تنهایی یا در ترکیب با اکثر ویژگیهای دیگر بی ارزش هستند. برخی از ویژگیها ممکن است قدرت پیش بینی بسیار زیادی داشته باشند، اما فقط در یک منطقه کوچک و تخصصی از فضای ویژگی. مسائلی که داده کاوهای مدرن را آزار میدهند بی پایان هستند. این کتاب با ارائه تکنیکهای مدرن انتخاب ویژگی و کد پیاده سازی آنها به شما در حل این مسائل کمک میکند. برخی از این تکنیکها عبارتند از: تجزیه و تحلیل اجزای انتخاب رو به جلو، انتخاب ویژگی محلی، پیوند دادن ویژگیها و یک هدف با مدل مخفی Markov، بهبود در انتخاب سنتی گام به گام، تبدیل اسمی به ترتیبی.
در این کتاب، همه الگوریتمها به طور شهودی توسط معادلات و مطالب توضیحی مربوطه توجیه و پشتیبانی میشوند. نویسنده، همچنین سورس کد کامل به همراه کامنتهای بسیار را ارائه و توضیح داده است. کدهای مثالها با C++ و CUDA C هستند، اما زبان پایتون یا کدهای دیگر را میتوان جایگزین کرد؛ الگوریتم مهم است نه کدی که برای نوشتن آن استفاده میشود.