دوره آموزشی پای‌اسپارک پر‌قدرت: راهکارهای پیشرفته برای پردازش بهینه داده‌ها

جزئیات دوره

استاد داده‌ها شو با دوره پیشرفته PySpark!
اگر می‌خوای توی پردازش داده‌های بزرگ حرفه‌ای بشی، این دوره مخصوص مهندس‌های داده مثل تو طراحی شده. با استاد آمینا انصاری همراه شو و یاد بگیر چطور داده‌ها رو سریع و تمیز کنی، ساختارهای درست تعریف کنی و فرمت‌ها و روش‌های فشرده‌سازی مختلف رو به کار ببری تا هر چقدر داده هم داشته باشی، سیستم‌ت روان و بهینه کار کنه.

در پایان این دوره، می‌تونی با استفاده از PySpark، پایپلاین‌های پردازش داده‌ای بسازی که هم مقیاس‌پذیر باشن و هم کارآمد.

اهداف یادگیری
تسلط به تکنیک‌های پاک‌سازی داده، از جمله مقابله با مقادیر گمشده، شناسایی داده‌های پرت، نرمال‌سازی و تبدیل داده‌ها
تعریف ساختارهای داده (Schema) به‌گونه‌ای که عملکرد و مقیاس‌پذیری افزایش پیدا کنه
آشنایی با فرمت‌های مختلف داده مثل Parquet، ORC، Avro، JSON و CSV و استفاده بهینه از هر کدوم
استفاده از تکنیک‌های فشرده‌سازی مثل Gzip، Snappy و LZO برای صرفه‌جویی در فضا و افزایش سرعت پردازش
به حداقل رساندن مشکلاتی مثل داده‌های نابرابر (Skew) و جابجایی بیش از حد داده‌ها (Shuffle) و بهینه‌سازی عملیات Join، Aggregation و Repartition

سرفصل ها

0. مقدمه

01 - مهندسی داده با کارایی بالا با PySpark

1. مقدمه ای بر پاکسازی داده با کارایی بالا در PySpark

02 - پاکسازی داده‌ها چیست
03 - مسائل رایج کیفیت داده ها
04 - چالش در پاکسازی داده ها
05 - چرا PySpark برای پاکسازی داده ها

2. تکنیک‌های پاکسازی داده‌ها با PySpark

06 - کار با فضاهای کد GitHub
07 - کیفیت داده‌ها در PySpark - شناسایی مسائل و تکنیک‌های تمیز کردن مؤثر
08 - تشخیص و مدیریت مقادیر تهی در PySpark
09 - تکنیک‌هایی برای شناسایی و حذف داده‌های ناسازگار در PySpark
10 - تقسیم ستون‌های داده ترکیبی در PySpark

3. ساختار طرحواره‌های داده

11 - اهمیت طراحی طرحواره در مهندسی داده
12 - استفاده از PySpark برای اجرای طرح و اعتبار
13 - مدیریت طرحواره در دریاچه‌ها و انبارهای داده

4. فرمت‌های داده و تکنیک‌های فشرده سازی

14 - مقدمه ای بر فرمت‌های داده - درک JSON و CSV
15 - کاوش JSON
16 - کاوش Avro
17 - Avro چگونه سریال سازی و سریال سازی را مدیریت می‌کند
18 - تکامل طرحواره Avro - مدیریت تغییرات در ساختار داده ها
19 - Avro جوانب مثبت و منفی
20 - درک ORC - ذخیره‌سازی ستونی ردیف بهینه شده
21 - مزایا و معایب ORC
22 - پارکت - قالب ستونی برای تجزیه‌و‌تحلیل با کارایی بالا
23 - الگوریتم‌های فشرده سازی در Spark - مقایسه Zstd، Snappy و LZ4

5. مدیریت درهم ریختگی داده‌ها و انحراف

24 - آشنایی با تکنیک‌های درهم ریختن داده‌ها برای به حداقل رساندن درهم ریختن داده ها
25 - آدرس دادن به انحراف داده ها

دوره آموزشی پای‌اسپارک پر‌قدرت: راهکارهای پیشرفته برای پردازش بهینه داده‌ها

مدرسین

Ameena Ansari