Modern Data Mining Algorithms in C++ and CUDA C
در کتاب Modern Data Mining Algorithms in C++ and CUDA C (الگوریتمهای مدرن داده کاوی در سی پلاس پلاس و کودا سی)، انواع الگوریتمهای دادهکاوی را کشف خواهید کرد که برای انتخاب مجموعههای کوچکی از ویژگیهای مهم از میان تودههای بی در و پیکر نامزد ها، یا استخراج ویژگیهای مفید از متغیرهای اندازهگیری شده مفید هستند. به عنوان یک داده کاو جدی، اغلب با هزاران ویژگی کاندید برای برنامه پیشبینی یا طبقهبندی خود مواجه میشوید، که بیشتر این ویژگیها ارزش کمی دارند یا اصلاً ارزش ندارند. شما میدانید که بسیاری از این ویژگیها ممکن است تنها در ترکیب با برخی از ویژگیهای دیگر مفید باشند، در حالی که عملاً به تنهایی یا در ترکیب با اکثر ویژگیهای دیگر بی ارزش هستند. برخی از ویژگیها ممکن است قدرت پیش بینی بسیار زیادی داشته باشند، اما فقط در یک منطقه کوچک و تخصصی از فضای ویژگی. مسائلی که داده کاوهای مدرن را آزار میدهند بی پایان هستند. این کتاب با ارائه تکنیکهای مدرن انتخاب ویژگی و کد پیاده سازی آنها به شما در حل این مسائل کمک میکند. برخی از این تکنیکها عبارتند از: تجزیه و تحلیل اجزای انتخاب رو به جلو، انتخاب ویژگی محلی، پیوند دادن ویژگیها و یک هدف با مدل مخفی Markov، بهبود در انتخاب سنتی گام به گام، تبدیل اسمی به ترتیبی.
در این کتاب، همه الگوریتمها به طور شهودی توسط معادلات و مطالب توضیحی مربوطه توجیه و پشتیبانی میشوند. نویسنده، همچنین سورس کد کامل به همراه کامنتهای بسیار را ارائه و توضیح داده است. کدهای مثالها با C++ و CUDA C هستند، اما زبان پایتون یا کدهای دیگر را میتوان جایگزین کرد؛ الگوریتم مهم است نه کدی که برای نوشتن آن استفاده میشود.
مطالبی که در کتاب Modern Data Mining Algorithms in C++ and CUDA C: Recent Developments in Feature Extraction and Selection Algorithms for Data Science (الگوریتمهای داده کاوی نوین در سی پلاس پلاس و کودا سی: پیشرفتهای اخیر در الگوریتمهای استخراج و انتخاب ویژگی برای علم داده) یاد خواهید گرفت:
- ترکیب تجزیه و تحلیل مؤلفههای اصلی را با انتخاب گام به گام رو به جلو و عقب به منظور شناسایی زیرمجموعه ای فشرده از یک مجموعه بزرگ از متغیرها که حداکثر تغییرات ممکن را در کل مجموعه به تصویر میکشد.
- شناسایی ویژگی هایی که ممکن است فقط بر روی یک زیر مجموعه کوچک از دامنه ویژگی قدرت پیش بینی داشته باشند. چنین ویژگی هایی را میتوان به طور سودآور توسط مدلهای پیش بینی مدرن مورد استفاده قرار داد، اما ممکن است توسط سایر روشهای انتخاب ویژگی نادیده گرفته شوند.
- پیدا کردن یک مدل مارکوف پنهان زیربنایی که توزیع متغیرهای ویژگی و هدف را به طور همزمان کنترل میکند. حافظه ذاتی این روش به ویژه در کاربردهای پر نویز مانند پیشبینی بازارهای مالی ارزشمند است.
- انتخاب گام به گام سنتی را به سه روش بهبود دهید: کالکشنی از مجموعه ویژگیهای «بهترین تا کنون» را بررسی کنید؛ ویژگیهای کاندید را برای گنجاندن با اعتبارسنجی متقابل برای محدود کردن خودکار و مؤثر پیچیدگی مدل آزمایش کنید؛ و در هر مرحله این احتمال را تخمین بزنید که نتایج ما تا کنون فقط حاصل اقبال خوب تصادفی باشد. ما همچنین این احتمال را تخمین میزنیم که بهبود به دست آمده با افزودن یک متغیر جدید میتواند فقط خوش شانسی باشد. یک متغیر اسمی بالقوه با ارزش (یک عضو دسته یا کلاس) که برای ورودی یک مدل پیشبینی مناسب نیست، انتخاب کنید و به هر دسته یک مقدار عددی معقول اختصاص دهید که میتواند به عنوان ورودی مدل استفاده شود.
این کتاب برای چه کسانی مناسب است؟
این کتاب، به برنامه نویسان و تحلیلگران علوم داده متوسط تا پیشرفته توصیه میشود. داشتن تجربه کار با سی پلاس پلاس و CUDA C به شدت توصیه میشود. با این حال، این کتاب میتواند به عنوان چارچوبی برای استفاده از زبانهای دیگر مانند پایتون نیز استفاده شود.