دوره آموزشی Cloud Hadoop: پیمایش آپاچی اسپارک
3 ساعت 16 دقیقهمبتدی2025-02-07
مدرسین

Lynn Langit
Cloud Architect
جزئیات دوره
فناوریهای Apache Hadoop و Apache Spark امکان استخراج بینشهای ارزشمند کسبوکار از کلاندادهها (Big Data) را فراهم میکنند. با توجه به اینکه رایانش ابری آمازون (AWS) مجموعهای از خدمات متنوع برای پردازش دادههای حجیم ارائه میدهد، این پلتفرم به گزینهای طبیعی و ایدهآل برای اجرای این ابزارهای قدرتمند تبدیل شده است.
در این دوره، لین لانگیت، معمار کلانداده، نحوه پیادهسازی جریانهای کاری Hadoop و Spark در AWS را آموزش میدهد. شما یاد خواهید گرفت که چگونه وظایف پردازشی مقیاسپذیر را با روشهای مختلف اجرا کنید، از جمله:
ماشینهای مجازی (EC2) برای اجرای بارهای کاری
خوشههای Spark مدیریتشده (EMR) برای پردازش کارآمد دادهها
کانتینرهای Kubernetes (EKS) برای انعطافپذیری بیشتر
علاوه بر این، این دوره نحوه پیکربندی و مدیریت خوشههای Hadoop و Spark را با استفاده از Databricks بررسی کرده و چگونگی وارد کردن دادهها، اجرای وظایف پردازشی با Python یا سایر زبانهای برنامهنویسی را آموزش میدهد.
آنچه در این دوره خواهید آموخت:
آشنایی با سیستمهای فایل Hadoop و Spark
کار با پلتفرم Databricks برای مدیریت پردازشهای دادهای
بارگذاری دادهها در جداول برای پردازشهای تحلیلی
راهاندازی خوشههای Hadoop و Spark در محیط ابری
اجرای وظایف Spark با کارایی بالا
وارد کردن و صادر کردن دفترچههای Python (Python Notebooks)
اجرای وظایف Spark در Databricks با Python و Scala
پیادهسازی تحولات (Transformations) و عملیات (Actions) Spark
کش کردن دادهها (Data Caching) برای پردازشهای بهینه
استفاده از کتابخانههای Spark شامل:
Spark SQL برای تحلیل داده
SparkR برای پردازش دادههای آماری
Spark ML برای یادگیری ماشین
Spark Streaming برای پردازش دادههای جریانی
مقیاسگذاری Spark در AWS و GCP برای پردازشهای سنگین داده
این دوره به شما کمک میکند تا بهترین گزینه استقرار Hadoop و Spark را متناسب با بار کاری (Workload) و نیازهای پروژه خود انتخاب کنید و به طور کارآمد از فناوریهای پیشرفته برای پردازش و تحلیل دادههای کلان بهره ببرید.
در این دوره، لین لانگیت، معمار کلانداده، نحوه پیادهسازی جریانهای کاری Hadoop و Spark در AWS را آموزش میدهد. شما یاد خواهید گرفت که چگونه وظایف پردازشی مقیاسپذیر را با روشهای مختلف اجرا کنید، از جمله:
ماشینهای مجازی (EC2) برای اجرای بارهای کاری
خوشههای Spark مدیریتشده (EMR) برای پردازش کارآمد دادهها
کانتینرهای Kubernetes (EKS) برای انعطافپذیری بیشتر
علاوه بر این، این دوره نحوه پیکربندی و مدیریت خوشههای Hadoop و Spark را با استفاده از Databricks بررسی کرده و چگونگی وارد کردن دادهها، اجرای وظایف پردازشی با Python یا سایر زبانهای برنامهنویسی را آموزش میدهد.
آنچه در این دوره خواهید آموخت:
آشنایی با سیستمهای فایل Hadoop و Spark
کار با پلتفرم Databricks برای مدیریت پردازشهای دادهای
بارگذاری دادهها در جداول برای پردازشهای تحلیلی
راهاندازی خوشههای Hadoop و Spark در محیط ابری
اجرای وظایف Spark با کارایی بالا
وارد کردن و صادر کردن دفترچههای Python (Python Notebooks)
اجرای وظایف Spark در Databricks با Python و Scala
پیادهسازی تحولات (Transformations) و عملیات (Actions) Spark
کش کردن دادهها (Data Caching) برای پردازشهای بهینه
استفاده از کتابخانههای Spark شامل:
Spark SQL برای تحلیل داده
SparkR برای پردازش دادههای آماری
Spark ML برای یادگیری ماشین
Spark Streaming برای پردازش دادههای جریانی
مقیاسگذاری Spark در AWS و GCP برای پردازشهای سنگین داده
این دوره به شما کمک میکند تا بهترین گزینه استقرار Hadoop و Spark را متناسب با بار کاری (Workload) و نیازهای پروژه خود انتخاب کنید و به طور کارآمد از فناوریهای پیشرفته برای پردازش و تحلیل دادههای کلان بهره ببرید.
مهارت ها
Apache SparkApacheData EngineeringData ScienceDeep Dive (X:Y)
سرفصل ها
0. مقدمه
- 01 - مقیاس گذاری آپاچی هادوپ و اسپارک
1. Hadoop and Spark Fundamentals
- 02 - هادوپ و اسپارک مدرن
- 03 - سیستمهای فایل مورد استفاده با Hadoop و Spark
- 04 - آپاچی یا توزیعهای تجاری Hadoop
- 05 - کتابخانههای هادوپ و اسپارک
- 06 - Hadoop در Google Cloud Platform
- 07 - Spark Job در Google Cloud Platform
2. AWS Cloud Spark Environments
- 08 - برای Databricks Community Edition ثبت نام کنید
- 09 - کتابخانههای Hadoop را اضافه کنید
- 10 - Databricks AWS Community Edition
- 11 - بارگذاری دادهها در جداول
- 12 - خوشه Hadoop و Spark در AWS EMR
- 13 - کار Spark را روی AWS EMR اجرا کنید
- 14 - معماری دسته ای را برای ETL در AWS مرور کنید
3. مبانی جرقه
- 15 - کتابخانههای آپاچی اسپارک
- 16 - واسطهای داده اسپارک
- 17 - زبان برنامه نویسی خود را انتخاب کنید
- 18 - اشیاء جلسه جرقه
- 19 - پوسته جرقه ای
4. استفاده از Spark
- 20 - محیط Databricks را بگردید
- 21 - نوت بوک را بگردید
- 22 - دفاتر Import و صادرات
- 23 - عدد پی را روی اسپارک محاسبه کنید
- 24 - WordCount of Spark را با Scala اجرا کنید
- 25 - دادهها را وارد کنید
- 26 - دگرگونیها و اعمال
- 27 - Caching و DAG
- 28 - معماری - جریان برای پیش بینی
5. کتابخانههای اسپارک
- 29 - Spark SQL
- 30 - SparkR
- 31 - Spark ML - آماده سازی داده ها
- 32 - Spark ML - ساخت مدل
- 33 - Spark ML - ارزیابی مدل
- 34 - یادگیری ماشینی پیشرفته در Spark
- 35 - MXNet
- 36 - جرقه با ADAM برای ژنومیک
- 37 - معماری جرقه برای ژنومیک
6. جرقه جرقه
- 38 - خطوط لوله جریان را دوباره بررسی کنید
- 39 - جرقه جرقه
- 40 - خدمات دریافت جریانی
- 41 - جریان جرقه پیشرفته با MLeap
7. Scaling Spark در AWS و GCP
- 42 - Scale Spark در ابر با مثال
- 43 - با Databricks AWS یک شروع سریع بسازید
- 44 - محاسبات ابری Spark را با ماشینهای مجازی مقیاس کنید
- 45 - بهینهسازی ماشینهای مجازی ابری Spark
- 46 - از کانتینرهای AWS EKS و data lake استفاده کنید
- 47 - سطوح داده ابری Spark را در Kubernetes بهینه کنید
- 48 - ساخت زیرساخت ابری قابل تکرار
- 49 - مقیاس بر روی GCP Dataproc یا Terra.bio
- 50 - Spark بدون سرور با نوت بوک Dataproc
نتیجه گیری
- 51 - به یادگیری برای مقیاس بندی ادامه دهید
دوره های مرتبط
- دوره آموزشی یادگیری جامع اسکالا برای علوم داده
- دوره آموزشی DataOps با Apache Iceberg با استفاده از Spark، Nessie و Dremio
- دوره آموزشی یادگیری جامع Azure Spark Databricks
- دوره آموزشی تحلیل دادههای کلان با Hadoop و Apache Spark
- دوره آموزشی پلتفرمهای داده: از Spark تا Snowflake
- دوره آموزشی آمادگی گواهینامه Databricks Certified Data Engineer Associate: بخش دوم ELT با Spark SQL و Python
- دورهی آموزشی مقدماتی آپاچی اسپارک: مهندسی دادههای بزرگ
- دوره آموزشی معماری برنامه های کاربردی داده های بزرگ: مهندسی کاربرد حالت دسته ای