دوره آموزشی یادگیری اصولی PySpark: معرفی ساخت خطوط پردازش داده

جزئیات دوره

کتابخانه‌ی PySpark توانمندی‌های محاسبات توزیع‌شده‌ی Apache Spark را به زبان پایتون می‌آورد و ابزاری کلیدی برای پردازش داده‌های بزرگ و مقیاس‌پذیر به شکلی کارآمد است.
در این دوره، مهندس داده و تحلیلگر، Sam Bail، یک معرفی ساختاریافته و عملی از PySpark ارائه می‌دهد. دوره با مروری بر Apache Spark، معماری آن و اکوسیستم مربوطه آغاز می‌شود.
شما با مفاهیم پایه‌ای Spark مانند API دیتافریم‌ها، تبدیلات (transformations)، ارزیابی تنبل (lazy evaluation) و عملیات (actions) آشنا می‌شوید، سپس محیط آزمایشی (lab) راه‌اندازی کرده و روی یک مجموعه داده واقعی کار خواهید کرد.
همچنین، نکاتی درباره جایگاه PySpark در اکوسیستم مهندسی داده و بهترین روش‌ها برای اجرای PySpark در محیط تولید (production) ارائه می‌شود.

اهداف یادگیری
درک عمیق مفاهیم اصلی Spark و PySpark
یادگیری نصب PySpark، بارگذاری، دستکاری و تحلیل داده‌های بزرگ در محیط نوت‌بوک
آشنایی با جایگاه PySpark در اکوسیستم گسترده‌تر مهندسی داده
آشنایی با بهترین شیوه‌های اجرای PySpark در محیط تولید

سرفصل ها

۰. مقدمه

01 - مرور کلی دوره
02 - پیش نیازها
03 - استفاده از مخزن گیت‌هاب

۱. مقدمه‌ای بر اسپارک و پای‌اسپارک

04 - مقدمه‌ای بر آپاچی اسپارک - پایه و اساس PySpark
05 - اکوسیستم آپاچی اسپارک
06 - اسپارک در مقابل پای‌اسپارک

۲. راه‌اندازی PySpark

07 - راه‌اندازی نوت بوک گوگل کولب
08 - دانلود یک مجموعه داده

۳. کار با دیتافریم‌های PySpark

09 - مقدمه‌ای بر DataFrames در PySpark
10 - قالب‌های داده و بارگذاری داده‌ها
11 - طرحواره و انواع داده
12 - پرس‌وجوهای پایه (انتخاب، فیلتر و مرتب‌سازی)
13- چالش - کوئری زدن روی یک DataFrame
14 - راهکار - کوئری گرفتن از یک DataFrame

۴. دستکاری داده‌های ضروری در PySpark

15 - مدیریت داده‌های از دست رفته
16 - ایجاد ستون‌های جدید
17 - اتحادیه‌ها و انجمن‌ها
18 - تجمیع
19 - نوشتن داده‌ها
20- چالش - دستکاری داده‌های ضروری
21 - راهکار - دستکاری داده‌های ضروری

۵. پای‌اسپارک اس‌کیوال

22-پای‌اسپارک اس‌کیوال چیست؟
23- ایجاد نماهای موقت
24- استفاده از کوئری‌های SQL
25- چالش - SQL در PySpark
26 - راهکار - PySpark SQL

۶. پای‌اسپارک در یک محیط عملیاتی

27 - الزامات محیط تولید
28 - نمونه تنظیمات محیط تولید
29 - یک گردش کار تولید معمولی در PySpark
30 - سرویس‌های ابری

نتیجه‌گیری

31 - خلاصه مفاهیم کلیدی و مراحل بعدی