دوره آموزشی Apache PySpark با مثال
1 ساعت 58 دقیقهمتوسط2019-01-31
مدرسین

Jonathan Fernandes
Consultant focusing on data science, AI, and big data
جزئیات دوره
آیا می خواهید در اسرع وقت با Apache Spark شروع به کار کنید؟ اگر به پایتون مسلط هستید، Spark Python API (PySpark) بلیط شما برای دسترسی به قدرت این پلت فرم بسیار محبوب کلان داده است. این دوره عملی و عملی به شما کمک می کند تا با PySpark راحت باشید و توضیح دهد که چه چیزی ارائه می دهد و چگونه می تواند کار علم داده شما را بهبود بخشد. برای شروع، مربی جاناتان فرناندز به بررسی اکوسیستم اسپارک می پردازد و مزایای آن را نسبت به سایر پلتفرم های علم داده، API ها و مجموعه ابزارها شرح می دهد. در مرحله بعد، او به DataFrame API و چگونگی پاسخ پلتفرم به بسیاری از چالش های کلان داده نگاه می کند. در نهایت، او به مجموعه دادههای توزیعشده انعطافپذیر (RDDs)، بلوکهای سازنده Spark میپردازد.
اهداف یادگیری
مزایای اکوسیستم آپاچی اسپارک
کار با DataFrame API
کار با ستون ها و ردیف ها
استفاده از عملکردهای داخلی Spark
ایجاد توابع خود در Spark
کار با مجموعه داده های توزیع شده انعطاف پذیر (RDD)
اهداف یادگیری
مزایای اکوسیستم آپاچی اسپارک
کار با DataFrame API
کار با ستون ها و ردیف ها
استفاده از عملکردهای داخلی Spark
ایجاد توابع خود در Spark
کار با مجموعه داده های توزیع شده انعطاف پذیر (RDD)
مهارت ها
Spark DataFramesData EngineeringData ScienceOne-Off
سرفصل ها
0. مقدمه
- 01 - آپاچی PySpark
- 02 - آنچه باید بدانید
1. مقدمه ای بر آپاچی اسپارک
- 03 - اکوسیستم آپاچی اسپارک
- 04 - چرا اسپارک
- 05 - مبدا اسپارک و Databricks
- 06 - اجزای جرقه
- 07 - پارتیشن ها، دگرگونی ها، ارزیابی های تنبل و اقدامات
2. راه اندازی فنی
- 08 - محیط آزمایشگاه را تنظیم کنید
- 09 - یک مجموعه داده را دانلود کنید
- 10 - واردات
3. کار با DataFrame API
- 11 - API DataFrame
- 12 - کار با DataFrames
- 13 - طرحواره ها
- 14 - کار با ستون
- 15 - کار با ردیف
- 16 - چالش
- 17 - راه حل
4. توابع
- 18 - توابع داخلی
- 19 - کار با dates
- 20 - توابع تعریف شده توسط کاربر
- 21 - کار با اتصالات
- 22 - چالش
- 23 - راه حل
5. مجموعه داده های توزیع شده انعطاف پذیر (RDD)
- 24 - RDDs
- 25 - کار با RDD
نتیجه
- 26 - مراحل بعدی