دوره آموزشی Cloud Hadoop: پیمایش آپاچی اسپارک

جزئیات دوره

فناوری‌های Apache Hadoop و Apache Spark امکان استخراج بینش‌های ارزشمند کسب‌وکار از کلان‌داده‌ها (Big Data) را فراهم می‌کنند. با توجه به اینکه رایانش ابری آمازون (AWS) مجموعه‌ای از خدمات متنوع برای پردازش داده‌های حجیم ارائه می‌دهد، این پلتفرم به گزینه‌ای طبیعی و ایده‌آل برای اجرای این ابزارهای قدرتمند تبدیل شده است.

در این دوره، لین لانگیت، معمار کلان‌داده، نحوه پیاده‌سازی جریان‌های کاری Hadoop و Spark در AWS را آموزش می‌دهد. شما یاد خواهید گرفت که چگونه وظایف پردازشی مقیاس‌پذیر را با روش‌های مختلف اجرا کنید، از جمله:

ماشین‌های مجازی (EC2) برای اجرای بارهای کاری
خوشه‌های Spark مدیریت‌شده (EMR) برای پردازش کارآمد داده‌ها
کانتینرهای Kubernetes (EKS) برای انعطاف‌پذیری بیشتر
علاوه بر این، این دوره نحوه پیکربندی و مدیریت خوشه‌های Hadoop و Spark را با استفاده از Databricks بررسی کرده و چگونگی وارد کردن داده‌ها، اجرای وظایف پردازشی با Python یا سایر زبان‌های برنامه‌نویسی را آموزش می‌دهد.

آنچه در این دوره خواهید آموخت:
آشنایی با سیستم‌های فایل Hadoop و Spark
کار با پلتفرم Databricks برای مدیریت پردازش‌های داده‌ای
بارگذاری داده‌ها در جداول برای پردازش‌های تحلیلی
راه‌اندازی خوشه‌های Hadoop و Spark در محیط ابری
اجرای وظایف Spark با کارایی بالا
وارد کردن و صادر کردن دفترچه‌های Python (Python Notebooks)
اجرای وظایف Spark در Databricks با Python و Scala
پیاده‌سازی تحولات (Transformations) و عملیات (Actions) Spark
کش کردن داده‌ها (Data Caching) برای پردازش‌های بهینه
استفاده از کتابخانه‌های Spark شامل:
Spark SQL برای تحلیل داده
SparkR برای پردازش داده‌های آماری
Spark ML برای یادگیری ماشین
Spark Streaming برای پردازش داده‌های جریانی
مقیاس‌گذاری Spark در AWS و GCP برای پردازش‌های سنگین داده
این دوره به شما کمک می‌کند تا بهترین گزینه استقرار Hadoop و Spark را متناسب با بار کاری (Workload) و نیازهای پروژه خود انتخاب کنید و به طور کارآمد از فناوری‌های پیشرفته برای پردازش و تحلیل داده‌های کلان بهره ببرید.

سرفصل ها

0. مقدمه

01 - مقیاس گذاری آپاچی هادوپ و اسپارک

1. Hadoop and Spark Fundamentals

02 - هادوپ و اسپارک مدرن
03 - سیستم‌های فایل مورد استفاده با Hadoop و Spark
04 - آپاچی یا توزیع‌های تجاری Hadoop
05 - کتابخانه‌های هادوپ و اسپارک
06 - Hadoop در Google Cloud Platform
07 - Spark Job در Google Cloud Platform

2. AWS Cloud Spark Environments

08 - برای Databricks Community Edition ثبت نام کنید
09 - کتابخانه‌های Hadoop را اضافه کنید
10 - Databricks AWS Community Edition
11 - بارگذاری داده‌ها در جداول
12 - خوشه Hadoop و Spark در AWS EMR
13 - کار Spark را روی AWS EMR اجرا کنید
14 - معماری دسته ای را برای ETL در AWS مرور کنید

3. مبانی جرقه

15 - کتابخانه‌های آپاچی اسپارک
16 - واسط‌های داده اسپارک
17 - زبان برنامه نویسی خود را انتخاب کنید
18 - اشیاء جلسه جرقه
19 - پوسته جرقه ای

4. استفاده از Spark

20 - محیط Databricks را بگردید
21 - نوت بوک را بگردید
22 - دفاتر Import و صادرات
23 - عدد پی را روی اسپارک محاسبه کنید
24 - WordCount of Spark را با Scala اجرا کنید
25 - داده‌ها را وارد کنید
26 - دگرگونی‌ها و اعمال
27 - Caching و DAG
28 - معماری - جریان برای پیش بینی

5. کتابخانه‌های اسپارک

29 - Spark SQL
30 - SparkR
31 - Spark ML - آماده سازی داده ها
32 - Spark ML - ساخت مدل
33 - Spark ML - ارزیابی مدل
34 - یادگیری ماشینی پیشرفته در Spark
35 - MXNet
36 - جرقه با ADAM برای ژنومیک
37 - معماری جرقه برای ژنومیک

6. جرقه جرقه

38 - خطوط لوله جریان را دوباره بررسی کنید
39 - جرقه جرقه
40 - خدمات دریافت جریانی
41 - جریان جرقه پیشرفته با MLeap

7. Scaling Spark در AWS و GCP

42 - Scale Spark در ابر با مثال
43 - با Databricks AWS یک شروع سریع بسازید
44 - محاسبات ابری Spark را با ماشین‌های مجازی مقیاس کنید
45 - بهینه‌سازی ماشین‌های مجازی ابری Spark
46 - از کانتینرهای AWS EKS و data lake استفاده کنید
47 - سطوح داده ابری Spark را در Kubernetes بهینه کنید
48 - ساخت زیرساخت ابری قابل تکرار
49 - مقیاس بر روی GCP Dataproc یا Terra.bio
50 - Spark بدون سرور با نوت بوک Dataproc

نتیجه گیری

51 - به یادگیری برای مقیاس بندی ادامه دهید