دوره آموزشی پاکسازی دادهها برای علم داده مؤثر: واردکردن دادهها، تشخیص ناهنجاری، پرکردن مقادیر گمشده و مهندسی ویژگیها
4 ساعت 50 دقیقهمتوسط2025-07-11
مدرسین

Pearson

David Mertz
جزئیات دوره
تو این دوره کاربردی، مدرس حرفهای دیوید مرتز (David Mertz) همه چیز درباره ورود دادهها (data ingestion)، شناسایی دادههای ناهنجار (anomaly detection)، جایگزینی دادههای گمشده (value imputation)، و مهندسی ویژگیها (feature engineering) بهت یاد میده. یاد میگیری چطور دادهها رو از فرمتهای مختلف مثل JSON، CSV، دیتابیسهای SQL و NoSQL، HDF5 و دادههای باینری پردازش کنی.
مالکوم در این دوره توضیح میده چرا بعضی مشکلات مربوط به نحوه نمایش دادههاست و چرا بعضی مشکلات از ذات دادهها ناشی میشه. تو یاد میگیری چطور دادههای نامرتب رو مرتب کنی، دادههای ناقص رو با مقادیر مناسب پر کنی، دادههای نادرست و ناهنجاریهای آماری رو تشخیص بدی و ویژگیهای مصنوعی بسازی که برای تحلیل و مدلسازی یادگیری ماشین حیاتی هستن.
با پایان این دوره، مهارتهایی به دست میاری که بازار کار شدیدا دنبالشونه، مثل تحلیل دادههای تمیز، بهبود کیفیت دادهها، و آمادهسازی دادهها برای مدلهای پیشرفته یادگیری ماشین.
🎯 اهداف یادگیری:
درک و پردازش دادههای جدولی (tabular) و دادههای سلسلهمراتبی (hierarchical)
شناسایی خطاها، سوگیریها و ناهنجاریهای آماری در دادهها و رفع آنها
وارد کردن دادهها از فرمتها و منابع متنوع مثل JSON، CSV، SQL، NoSQL، HDF5 و دادههای باینری
جایگزینی مقادیر گمشده (imputation) به روشی متناسب با کاربرد و هدف تحلیلی
ساخت و مهندسی ویژگیهای جدید برای استفاده در مدلهای یادگیری ماشین
مالکوم در این دوره توضیح میده چرا بعضی مشکلات مربوط به نحوه نمایش دادههاست و چرا بعضی مشکلات از ذات دادهها ناشی میشه. تو یاد میگیری چطور دادههای نامرتب رو مرتب کنی، دادههای ناقص رو با مقادیر مناسب پر کنی، دادههای نادرست و ناهنجاریهای آماری رو تشخیص بدی و ویژگیهای مصنوعی بسازی که برای تحلیل و مدلسازی یادگیری ماشین حیاتی هستن.
با پایان این دوره، مهارتهایی به دست میاری که بازار کار شدیدا دنبالشونه، مثل تحلیل دادههای تمیز، بهبود کیفیت دادهها، و آمادهسازی دادهها برای مدلهای پیشرفته یادگیری ماشین.
🎯 اهداف یادگیری:
درک و پردازش دادههای جدولی (tabular) و دادههای سلسلهمراتبی (hierarchical)
شناسایی خطاها، سوگیریها و ناهنجاریهای آماری در دادهها و رفع آنها
وارد کردن دادهها از فرمتها و منابع متنوع مثل JSON، CSV، SQL، NoSQL، HDF5 و دادههای باینری
جایگزینی مقادیر گمشده (imputation) به روشی متناسب با کاربرد و هدف تحلیلی
ساخت و مهندسی ویژگیهای جدید برای استفاده در مدلهای یادگیری ماشین
مهارت ها
Data Science FoundationsData EngineeringData AnalysisData ScienceBusiness Analysis and StrategyBusiness Software and ToolsOne-Off
سرفصل ها
۰. مقدمه
- 01 - پاکسازی دادهها برای علم داده مؤثر
- 02 - مقدمه
- 03 - انجام ۸۰ کار دیگر
- 04 - انواع کثیفی
- 05 - نامگذاری
- 06 - رندر بصری
- 07 - بهداشت دادهها
۱. دریافت دادهها - قالبهای جدولی
- 08 - مباحث
- 09 - CSV
- 10 - صفحات گسترده مضر تلقی میشوند
- 11 - سایر قالبها
۲. دریافت دادهها - قالبهای سلسله مراتبی
- 12 - مباحث
- 13 - XML
- 14 - جیسان
- 15 - پایگاههای داده NoSQL
۳. دریافت دادهها - تغییر کاربری منابع داده
- 16 - مباحث
- 17 - وب اسکرپینگ
- 18- قالب سند قابل حمل
- 19 - قالبهای تصویر
۴. تشخیص ناهنجاری
- 20 - مباحث
- 21 - دادههای از دست رفته
- 22 - SQL
- 23 - قالبهای سلسله مراتبی
- 24- نگهبانان
- 25 - دادههای کدگذاریشدهی اشتباه
- 26 - مرزهای ثابت
- 27 - دادههای پرت
۵. کیفیت دادهها
- 28 - مباحث
- 29 - دادههای گمشده
- 30- سوگیری در روندها
- 31- قانون بنفورد
- 32 - عدم تعادل طبقاتی
- 33 - نرمالسازی و مقیاسبندی
۶. نسبتدهی ارزش
- 34 - مباحث
- 35 - مقداردهی اولیه
- 36 - انتساب روند
- 37- نمونهبرداری
نتیجهگیری
- 38 - خلاصه
دوره های مرتبط
- دوره آموزشی یادگیری جامع پایتون برای علم داده و یادگیری ماشین بخش اول
- دوره آموزشی تسلط بر داده ها: کاوش و توصیف داده ها
- دوره آموزشی کلانداده در عصر هوش مصنوعی
- دوره آموزشی مبانی علوم تصمیمگیری
- دوره آموزشی آیا نتیجه داد؟ ارزیابی برنامه در علم داده
- دوره آموزشی ارزیابی برنامه برای علم داده
- دوره آموزشی یادگیری جامع اسکالا برای علوم داده
- دوره آموزشی گزارشنویسی دادهکاوی با Quarto برای پایتون