دوره آموزشی پایاسپارک پرقدرت: راهکارهای پیشرفته برای پردازش بهینه دادهها
1 ساعت 22 دقیقهپیشرفته2025-04-16
مدرسین

Ameena Ansari
جزئیات دوره
استاد دادهها شو با دوره پیشرفته PySpark!
اگر میخوای توی پردازش دادههای بزرگ حرفهای بشی، این دوره مخصوص مهندسهای داده مثل تو طراحی شده. با استاد آمینا انصاری همراه شو و یاد بگیر چطور دادهها رو سریع و تمیز کنی، ساختارهای درست تعریف کنی و فرمتها و روشهای فشردهسازی مختلف رو به کار ببری تا هر چقدر داده هم داشته باشی، سیستمت روان و بهینه کار کنه.
در پایان این دوره، میتونی با استفاده از PySpark، پایپلاینهای پردازش دادهای بسازی که هم مقیاسپذیر باشن و هم کارآمد.
اهداف یادگیری
تسلط به تکنیکهای پاکسازی داده، از جمله مقابله با مقادیر گمشده، شناسایی دادههای پرت، نرمالسازی و تبدیل دادهها
تعریف ساختارهای داده (Schema) بهگونهای که عملکرد و مقیاسپذیری افزایش پیدا کنه
آشنایی با فرمتهای مختلف داده مثل Parquet، ORC، Avro، JSON و CSV و استفاده بهینه از هر کدوم
استفاده از تکنیکهای فشردهسازی مثل Gzip، Snappy و LZO برای صرفهجویی در فضا و افزایش سرعت پردازش
به حداقل رساندن مشکلاتی مثل دادههای نابرابر (Skew) و جابجایی بیش از حد دادهها (Shuffle) و بهینهسازی عملیات Join، Aggregation و Repartition
اگر میخوای توی پردازش دادههای بزرگ حرفهای بشی، این دوره مخصوص مهندسهای داده مثل تو طراحی شده. با استاد آمینا انصاری همراه شو و یاد بگیر چطور دادهها رو سریع و تمیز کنی، ساختارهای درست تعریف کنی و فرمتها و روشهای فشردهسازی مختلف رو به کار ببری تا هر چقدر داده هم داشته باشی، سیستمت روان و بهینه کار کنه.
در پایان این دوره، میتونی با استفاده از PySpark، پایپلاینهای پردازش دادهای بسازی که هم مقیاسپذیر باشن و هم کارآمد.
اهداف یادگیری
تسلط به تکنیکهای پاکسازی داده، از جمله مقابله با مقادیر گمشده، شناسایی دادههای پرت، نرمالسازی و تبدیل دادهها
تعریف ساختارهای داده (Schema) بهگونهای که عملکرد و مقیاسپذیری افزایش پیدا کنه
آشنایی با فرمتهای مختلف داده مثل Parquet، ORC، Avro، JSON و CSV و استفاده بهینه از هر کدوم
استفاده از تکنیکهای فشردهسازی مثل Gzip، Snappy و LZO برای صرفهجویی در فضا و افزایش سرعت پردازش
به حداقل رساندن مشکلاتی مثل دادههای نابرابر (Skew) و جابجایی بیش از حد دادهها (Shuffle) و بهینهسازی عملیات Join، Aggregation و Repartition
مهارت ها
Data EngineeringData ScienceOne-Off
سرفصل ها
0. مقدمه
- 01 - مهندسی داده با کارایی بالا با PySpark
1. مقدمه ای بر پاکسازی داده با کارایی بالا در PySpark
- 02 - پاکسازی دادهها چیست
- 03 - مسائل رایج کیفیت داده ها
- 04 - چالش در پاکسازی داده ها
- 05 - چرا PySpark برای پاکسازی داده ها
2. تکنیکهای پاکسازی دادهها با PySpark
- 06 - کار با فضاهای کد GitHub
- 07 - کیفیت دادهها در PySpark - شناسایی مسائل و تکنیکهای تمیز کردن مؤثر
- 08 - تشخیص و مدیریت مقادیر تهی در PySpark
- 09 - تکنیکهایی برای شناسایی و حذف دادههای ناسازگار در PySpark
- 10 - تقسیم ستونهای داده ترکیبی در PySpark
3. ساختار طرحوارههای داده
- 11 - اهمیت طراحی طرحواره در مهندسی داده
- 12 - استفاده از PySpark برای اجرای طرح و اعتبار
- 13 - مدیریت طرحواره در دریاچهها و انبارهای داده
4. فرمتهای داده و تکنیکهای فشرده سازی
- 14 - مقدمه ای بر فرمتهای داده - درک JSON و CSV
- 15 - کاوش JSON
- 16 - کاوش Avro
- 17 - Avro چگونه سریال سازی و سریال سازی را مدیریت میکند
- 18 - تکامل طرحواره Avro - مدیریت تغییرات در ساختار داده ها
- 19 - Avro جوانب مثبت و منفی
- 20 - درک ORC - ذخیرهسازی ستونی ردیف بهینه شده
- 21 - مزایا و معایب ORC
- 22 - پارکت - قالب ستونی برای تجزیهوتحلیل با کارایی بالا
- 23 - الگوریتمهای فشرده سازی در Spark - مقایسه Zstd، Snappy و LZ4
5. مدیریت درهم ریختگی دادهها و انحراف
- 24 - آشنایی با تکنیکهای درهم ریختن دادهها برای به حداقل رساندن درهم ریختن داده ها
- 25 - آدرس دادن به انحراف داده ها
دوره های مرتبط
- دوره آموزشی کلانداده در عصر هوش مصنوعی
- دوره آموزشی راهنمای کامل مهندسی تحلیل دادهها
- دوره آموزشی مهندسی تحلیل پیشرفته: تمرینهای دنیای واقعی
- دوره آموزشی راهنمای کامل Google BigQuery برای مهندسان داده و یادگیری ماشین
- دوره آموزشی یادگیری اصولی PySpark: معرفی ساخت خطوط پردازش داده
- دوره آموزشی پاکسازی دادهها برای علم داده مؤثر: واردکردن دادهها، تشخیص ناهنجاری، پرکردن مقادیر گمشده و مهندسی ویژگیها
- دوره آموزشی یادگیری جامع اسکالا برای علوم داده
- دوره آموزشی SPSS: آمادهسازی، مصورسازی و مدلسازی دادهها