دوره آموزشی پاک‌سازی داده‌ها برای علم داده مؤثر: واردکردن داده‌ها، تشخیص ناهنجاری، پرکردن مقادیر گمشده و مهندسی ویژگی‌ها

جزئیات دوره

تو این دوره کاربردی، مدرس حرفه‌ای دیوید مرتز (David Mertz) همه چیز درباره ورود داده‌ها (data ingestion)، شناسایی داده‌های ناهنجار (anomaly detection)، جایگزینی داده‌های گمشده (value imputation)، و مهندسی ویژگی‌ها (feature engineering) بهت یاد می‌ده. یاد می‌گیری چطور داده‌ها رو از فرمت‌های مختلف مثل JSON، CSV، دیتابیس‌های SQL و NoSQL، HDF5 و داده‌های باینری پردازش کنی.

مالکوم در این دوره توضیح می‌ده چرا بعضی مشکلات مربوط به نحوه نمایش داده‌هاست و چرا بعضی مشکلات از ذات داده‌ها ناشی می‌شه. تو یاد می‌گیری چطور داده‌های نامرتب رو مرتب کنی، داده‌های ناقص رو با مقادیر مناسب پر کنی، داده‌های نادرست و ناهنجاری‌های آماری رو تشخیص بدی و ویژگی‌های مصنوعی بسازی که برای تحلیل و مدل‌سازی یادگیری ماشین حیاتی هستن.

با پایان این دوره، مهارت‌هایی به دست میاری که بازار کار شدیدا دنبال‌شونه، مثل تحلیل داده‌های تمیز، بهبود کیفیت داده‌ها، و آماده‌سازی داده‌ها برای مدل‌های پیشرفته یادگیری ماشین.

🎯 اهداف یادگیری:
درک و پردازش داده‌های جدولی (tabular) و داده‌های سلسله‌مراتبی (hierarchical)
شناسایی خطاها، سوگیری‌ها و ناهنجاری‌های آماری در داده‌ها و رفع آن‌ها
وارد کردن داده‌ها از فرمت‌ها و منابع متنوع مثل JSON، CSV، SQL، NoSQL، HDF5 و داده‌های باینری
جایگزینی مقادیر گمشده (imputation) به روشی متناسب با کاربرد و هدف تحلیلی
ساخت و مهندسی ویژگی‌های جدید برای استفاده در مدل‌های یادگیری ماشین

سرفصل ها

۰. مقدمه

01 - پاکسازی داده‌ها برای علم داده مؤثر
02 - مقدمه
03 - انجام ۸۰ کار دیگر
04 - انواع کثیفی
05 - نامگذاری
06 - رندر بصری
07 - بهداشت داده‌ها

۱. دریافت داده‌ها - قالب‌های جدولی

08 - مباحث
09 - CSV
10 - صفحات گسترده مضر تلقی می‌شوند
11 - سایر قالب‌ها

۲. دریافت داده‌ها - قالب‌های سلسله مراتبی

12 - مباحث
13 - XML
14 - جی‌سان
15 - پایگاه‌های داده NoSQL

۳. دریافت داده‌ها - تغییر کاربری منابع داده

16 - مباحث
17 - وب اسکرپینگ
18- قالب سند قابل حمل
19 - قالب‌های تصویر

۴. تشخیص ناهنجاری

20 - مباحث
21 - داده‌های از دست رفته
22 - SQL
23 - قالب‌های سلسله مراتبی
24- نگهبانان
25 - داده‌های کدگذاری‌شده‌ی اشتباه
26 - مرزهای ثابت
27 - داده‌های پرت

۵. کیفیت داده‌ها

28 - مباحث
29 - داده‌های گمشده
30- سوگیری در روندها
31- قانون بنفورد
32 - عدم تعادل طبقاتی
33 - نرمال‌سازی و مقیاس‌بندی

۶. نسبت‌دهی ارزش

34 - مباحث
35 - مقداردهی اولیه
36 - انتساب روند
37- نمونه‌برداری

نتیجه‌گیری

38 - خلاصه

دوره آموزشی پاک‌سازی داده‌ها برای علم داده مؤثر: واردکردن داده‌ها، تشخیص ناهنجاری، پرکردن مقادیر گمشده و مهندسی ویژگی‌ها

مدرسین

Pearson

David Mertz