دوره آموزشی مبانی علم داده: ارزیابی دادهها برای مدلسازی پیش بینی
4 ساعت 4 دقیقهمتوسط2020-09-11
مدرسین

Keith McCormick
Data Miner, Trainer, Speaker, Author
جزئیات دوره
CRISP-DM، فرآیند استاندارد بین صنعت برای داده کاوی، از شش مرحله تشکیل شده است. بیشتر دانشمندان جدید داده، به سمت مدلسازی میشتابند زیرا این فازی است که در آن بیشترین آموزش را میبینند. اما اینکه پروژه موفقیت آمیز باشد یا شکست بخورد در واقع خیلی زودتر مشخص شده است. این دوره یک رویکرد سیستماتیک را برای فهم درک دادهها برای مدلسازی پیش بینی معرفی میکند. مربی Keith McCormick اصول، دستورالعملها و ابزارهایی مانند KNIME و R را برای ارزیابی صحیح یک مجموعه داده برای مناسب بودن آن برای یادگیری ماشین آموزش میدهد. نحوه جمع آوری دادهها، توصیف دادهها، کاوش دادهها را با اجرای تجسمهای متغیر کشف کنید و کیفیت دادههای خود را تأیید کنید و همچنین به مرحله آمادهسازی دادهها بروید. این دوره شامل مطالعات موردی و بهترین شیوهها و همچنین مجموعه چالشها و راه حلهایی برای افزایش دانش افزایش مییابد. در پایان، شما باید مهارتهای لازم را داشته باشید تا بتوانید به این مرحله حیاتی از همه پروژههای موفقیت آمیز علوم داده توجه کافی داشته باشید.
موضوعات شامل:
تشخیص ارزیابی داده ها از داده ها
تسلط بر چهار وظیفه درک داده
جمع آوری داده های اولیه
شناسایی سطح اندازه گیری
بارگیری داده ها
توصیف داده ها
تجسم داده ها
کار با پیش بینی های برتر
استفاده از ggplot2 برای داده ها
تأیید کیفیت داده
انتقال به آماده سازی داده ها
موضوعات شامل:
تشخیص ارزیابی داده ها از داده ها
تسلط بر چهار وظیفه درک داده
جمع آوری داده های اولیه
شناسایی سطح اندازه گیری
بارگیری داده ها
توصیف داده ها
تجسم داده ها
کار با پیش بینی های برتر
استفاده از ggplot2 برای داده ها
تأیید کیفیت داده
انتقال به آماده سازی داده ها
مهارت ها
ggplotKNIMEData ModelingRMachine LearningData AnalysisArtificial Intelligence (AI)Data ScienceBusiness Analysis and StrategyBusiness Software and ToolsOpen SourceDeep Dive (X:Y)
سرفصل ها
0. مقدمه
- 01-چرا ارزیابی داده ها حیاتی است
- 02-نکته ای در مورد فایل های تمرین
1. ارزیابی داده ها چیست؟
- 03- روشن شدن تفاوت درک داده ها با تجسم داده ها
- 04-معرفی فاز درک داده های بحرانی CRISP-DM
- 05-ارزیابی داده ها در جایگزین های CRISP-DM - IBM ASUM-DM و Microsoft TDSP
- 06- انتقال از درک تجاری به درک داده ها
- 07-چگونه کار خود را با چهار وظیفه درک داده سازماندهی کنید
10. مطالعه موردی داده های گمشده
- 54-معرفی داده های KDD Cup 1998
- 55-الگوی گم شدن داده ها در داده های شما چیست
- 56- آیا داده های از دست رفته ارزش ذخیره کردن را دارند؟
- 57-ارزیابی انتساب به عنوان یک راه حل بالقوه
- 11. مطالعات موردی را بررسی و تأیید کنید
58-کاوش و تایید کیفیت داده ها با مجموعه داده قلب UCI
- 59-چالش - کمی کردن داده های از دست رفته با مجموعه داده قلب UCI
- 60-راه حل - کمی کردن داده های از دست رفته با مجموعه داده قلب UCI
- 12. انتقال به آماده سازی داده ها
- 61-چرا گزارش های رسمی مهم است
- 62-ایجاد فهرست کارهای آماده سازی داده ها
- 63-نحوه آمادگی برای استقرار نهایی
- 2. داده های اولیه را جمع آوری کنید
- 08- ملاحظات در جمع آوری داده های مربوطه
- 09-یک استراتژی برای پردازش منابع داده
10- خلاقیت در مورد منابع داده
- 11- چگونه یک فایل فلت مناسب را متصور شویم
- 12-پیش بینی یکپارچه سازی داده ها
- 3. ابتدا به داده ها نگاه کنید
- 13- مرور مفاهیم اساسی در سطح سنجش
- 14- کد نویسی ساختگی چیست؟
15-توسعه تعریف ما از سطح اندازه گیری
- 16-نگاه اولیه به متغیرهای کلیدی احتمالی
- 17-برخورد با شناسه های تکراری و داده های تراکنش
- 18- چند متغیر بالقوه (ستون) خواهم داشت
- 19-نحوه برخورد با اسمی های چندگانه مرتبه بالا
20-چالش - شناسایی سطح اندازه گیری
- 21-راه حل - شناسایی سطح اندازه گیری
- 4. بارگذاری داده ها و واحد تجزیه و تحلیل
- 22-معرفی پلتفرم KNIME Analytics
23- نکات و ترفندهایی که باید در هنگام بارگذاری داده ها در نظر بگیرید
- 24-تصمیمات تحلیل واحد
- 25-چالش - ردیف باید چه باشد
- 26-راه حل - ردیف باید چه باشد
- 5. داده ها را توصیف کنید
- 27-نحوه کشف ویژگی های ناخالص داده ها
- 28-تحقیق مجموعه داده
- 29-نکات و ترفندها با استفاده از دستورات ساده تجمع
- 30-یک استراتژی ساده برای سازماندهی کارتان
6. توصیف داده ها مطالعات موردی
- 31- نمایش داده ها را با استفاده از مجموعه داده قلب UCI توصیف کنید
- 32-چالش - توصیف داده ها با مجموعه داده قلب UCI را تمرین کنید
- 33-راه حل - توصیف داده ها با مجموعه داده قلب UCI را تمرین کنید
- 7. مبانی داده ها را کاوش کنید
- 34- وظیفه کاوش داده ها
- 35- چگونه در انجام تحلیل تک متغیره و تجسم داده ها موثر باشیم
- 36-کوارتت آنسکومب
- 37-ویژگی گره Data Explorer در KNIME
- 38-نحوه پیمایش موارد مرزی از نوع متغیر
39-چگونه در انجام تجسم داده های دو متغیره موثر باشیم
- 40-چالش - تولید تجسم های دو متغیره برای مطالعه موردی 1
- 41- راه حل - تولید تجسم دو متغیره برای مطالعه موردی 1
- 8. نکات و ترفندهای داده را کاوش کنید
42- نحوه استفاده موثر از زمان SME
- 43-تکنیک های کار با پیش بینی کننده های برتر
- 44-توصیه هایی برای پیش بینی کننده های ضعیف
- 45-نکات و ترفندها هنگام جستجوی موارد عجیب و غریب در داده های خود
- 46-یادگیری زمان کنار گذاشتن ردیف ها
47-معرفی ggplot2
- 48- جهت گیری به R's ggplot2 برای تجسم داده های چند متغیره قدرتمند
- 49-چالش - تولید تجسم های چند متغیره برای مطالعه موردی 1
- 50-راه حل - تولید تجسم های چند متغیره برای مطالعه موردی 1
9. بررسی کیفیت داده ها
- 51-کاوش گزینه های داده های از دست رفته شما
- 52-چرا ردیف ها را به حذف لیستی از دست می دهید
- 53-بررسی منشأ داده های مفقود
نتیجه
- 64- مراحل بعدی