دوره آموزشی یادگیری اصولی PySpark: معرفی ساخت خطوط پردازش داده
1 ساعت 8 دقیقهمتوسط2025-08-07
مدرسین

Sam Bail
جزئیات دوره
کتابخانهی PySpark توانمندیهای محاسبات توزیعشدهی Apache Spark را به زبان پایتون میآورد و ابزاری کلیدی برای پردازش دادههای بزرگ و مقیاسپذیر به شکلی کارآمد است.
در این دوره، مهندس داده و تحلیلگر، Sam Bail، یک معرفی ساختاریافته و عملی از PySpark ارائه میدهد. دوره با مروری بر Apache Spark، معماری آن و اکوسیستم مربوطه آغاز میشود.
شما با مفاهیم پایهای Spark مانند API دیتافریمها، تبدیلات (transformations)، ارزیابی تنبل (lazy evaluation) و عملیات (actions) آشنا میشوید، سپس محیط آزمایشی (lab) راهاندازی کرده و روی یک مجموعه داده واقعی کار خواهید کرد.
همچنین، نکاتی درباره جایگاه PySpark در اکوسیستم مهندسی داده و بهترین روشها برای اجرای PySpark در محیط تولید (production) ارائه میشود.
اهداف یادگیری
درک عمیق مفاهیم اصلی Spark و PySpark
یادگیری نصب PySpark، بارگذاری، دستکاری و تحلیل دادههای بزرگ در محیط نوتبوک
آشنایی با جایگاه PySpark در اکوسیستم گستردهتر مهندسی داده
آشنایی با بهترین شیوههای اجرای PySpark در محیط تولید
در این دوره، مهندس داده و تحلیلگر، Sam Bail، یک معرفی ساختاریافته و عملی از PySpark ارائه میدهد. دوره با مروری بر Apache Spark، معماری آن و اکوسیستم مربوطه آغاز میشود.
شما با مفاهیم پایهای Spark مانند API دیتافریمها، تبدیلات (transformations)، ارزیابی تنبل (lazy evaluation) و عملیات (actions) آشنا میشوید، سپس محیط آزمایشی (lab) راهاندازی کرده و روی یک مجموعه داده واقعی کار خواهید کرد.
همچنین، نکاتی درباره جایگاه PySpark در اکوسیستم مهندسی داده و بهترین روشها برای اجرای PySpark در محیط تولید (production) ارائه میشود.
اهداف یادگیری
درک عمیق مفاهیم اصلی Spark و PySpark
یادگیری نصب PySpark، بارگذاری، دستکاری و تحلیل دادههای بزرگ در محیط نوتبوک
آشنایی با جایگاه PySpark در اکوسیستم گستردهتر مهندسی داده
آشنایی با بهترین شیوههای اجرای PySpark در محیط تولید
مهارت ها
Data EngineeringPythonEssential TrainingData ScienceOpen Source
سرفصل ها
۰. مقدمه
- 01 - مرور کلی دوره
- 02 - پیش نیازها
- 03 - استفاده از مخزن گیتهاب
۱. مقدمهای بر اسپارک و پایاسپارک
- 04 - مقدمهای بر آپاچی اسپارک - پایه و اساس PySpark
- 05 - اکوسیستم آپاچی اسپارک
- 06 - اسپارک در مقابل پایاسپارک
۲. راهاندازی PySpark
- 07 - راهاندازی نوت بوک گوگل کولب
- 08 - دانلود یک مجموعه داده
۳. کار با دیتافریمهای PySpark
- 09 - مقدمهای بر DataFrames در PySpark
- 10 - قالبهای داده و بارگذاری دادهها
- 11 - طرحواره و انواع داده
- 12 - پرسوجوهای پایه (انتخاب، فیلتر و مرتبسازی)
- 13- چالش - کوئری زدن روی یک DataFrame
- 14 - راهکار - کوئری گرفتن از یک DataFrame
۴. دستکاری دادههای ضروری در PySpark
- 15 - مدیریت دادههای از دست رفته
- 16 - ایجاد ستونهای جدید
- 17 - اتحادیهها و انجمنها
- 18 - تجمیع
- 19 - نوشتن دادهها
- 20- چالش - دستکاری دادههای ضروری
- 21 - راهکار - دستکاری دادههای ضروری
۵. پایاسپارک اسکیوال
- 22-پایاسپارک اسکیوال چیست؟
- 23- ایجاد نماهای موقت
- 24- استفاده از کوئریهای SQL
- 25- چالش - SQL در PySpark
- 26 - راهکار - PySpark SQL
۶. پایاسپارک در یک محیط عملیاتی
- 27 - الزامات محیط تولید
- 28 - نمونه تنظیمات محیط تولید
- 29 - یک گردش کار تولید معمولی در PySpark
- 30 - سرویسهای ابری
نتیجهگیری
- 31 - خلاصه مفاهیم کلیدی و مراحل بعدی
دوره های مرتبط
- دوره آموزشی کلانداده در عصر هوش مصنوعی
- دوره آموزشی راهنمای کامل مهندسی تحلیل دادهها
- دوره آموزشی مهندسی تحلیل پیشرفته: تمرینهای دنیای واقعی
- دوره آموزشی راهنمای کامل Google BigQuery برای مهندسان داده و یادگیری ماشین
- دوره آموزشی پاکسازی دادهها برای علم داده مؤثر: واردکردن دادهها، تشخیص ناهنجاری، پرکردن مقادیر گمشده و مهندسی ویژگیها
- دوره آموزشی یادگیری جامع اسکالا برای علوم داده
- دوره آموزشی SPSS: آمادهسازی، مصورسازی و مدلسازی دادهها
- دوره آموزشی ساختارهای داده در جاوااسکریپت: درختها و گرافها