دوره‌ی آموزشی مقدماتی آپاچی اسپارک: مهندسی داده‌های بزرگ

جزئیات دوره

مهندسی داده، پایه و اساس ساخت برنامه‌های تحلیلی و علوم داده تو دنیای بزرگ داده‌ها (Big Data) امروزی محسوب می‌شه. تو این حوزه، باید چندتا تکنولوژی بزرگ داده رو با هم ترکیب کنی تا بتونی خطوط داده‌ای (Data Pipelines) و شبکه‌هایی بسازی که داده‌ها رو به صورت زنده یا دسته‌ای پردازش، انتقال و ذخیره کنن.

تو این دوره، یاد می‌گیری چطور راهکارهای کامل بسازی که Apache Spark رو با ابزارهای بزرگ داده دیگه ترکیب می‌کنن تا خطوط داده‌ای انتها به انتها (End-to-End) درست کنی. استاد دوره، کوماران پوننامبالم، اول با تعریف مهندسی داده، وظایف و مفاهیم کلیدی شروع می‌کنه. بعد می‌ره سراغ قابلیت‌های اسپارک مثل پردازش موازی، طرح‌های اجرایی، مدیریت وضعیت (State Management) و کاربرد یادگیری ماشین در فرآیندهای ETL (استخراج، تبدیل و بارگذاری داده‌ها).

کوماران بهت نشون می‌ده چطوری از پردازش دسته‌ای (Batch Processing) استفاده کنی و هم‌چنین چطور خطوط پردازش بلادرنگ (Real-time Processing Pipelines) بسازی. در نهایت، چندتا بهترین روش‌ها (Best Practices) رو یاد می‌گیری و دوره با یک پروژه عملی پایان می‌یابد که همه موارد رو تو قالب یک تمرین واقعی بهم می‌چسبونه.

اهداف یادگیری
درک کامل مفاهیم و وظایف مهندسی داده در دنیای Big Data.
آشنایی با ابزار Apache Spark و قابلیت‌های کلیدی آن.
یادگیری ساخت خطوط داده‌ای انتها به انتها با ترکیب چند ابزار Big Data.
فهم فرآیندهای ETL و کاربرد آن‌ها در مهندسی داده.
توانایی پیاده‌سازی پردازش دسته‌ای و بلادرنگ روی داده‌ها.
یادگیری بهترین روش‌ها و تکنیک‌های ساخت داده‌پایپ‌لاین حرفه‌ای.
انجام پروژه عملی برای تسلط کامل روی مطالب دوره.

سرفصل ها

۰. مقدمه

01 - هدایت مهندسی کلان داده با آپاچی اسپارک
02 - پیش نیازهای دوره
03 - تنظیم فایل‌های تمرین

۱. مفاهیم مهندسی داده

04 - مهندسی داده چیست؟
05 - مهندسی داده در مقابل تحلیل داده در مقابل علم داده
06 - توابع مهندسی داده
07 - پردازش دسته‌ای در مقابل پردازش بلادرنگ
08 - مهندسی داده با اسپارک

۲. قابلیت‌های اسپارک برای ETL

09 - بررسی معماری اسپارک
10 - پردازش موازی با اسپارک
11 - طرح اجرایی اسپارک
12 - پردازش جریان با وضعیت
13 - تجزیه‌و‌تحلیل اسپارک و یادگیری ماشین

۳. خطوط لوله پردازش دسته‌ای

14 - مورد کاربرد پردازش دسته‌ای - بیان مسئله
15 - مورد کاربرد پردازش دسته‌ای - طراحی
16 - راه‌اندازی پایگاه داده محلی
17 - بارگذاری موجودی در فروشگاه مرکزی
18 - تجمیع موجودی در انبارها

۴. خطوط پردازش بلادرنگ

19 - مورد استفاده بلادرنگ - مشکل
20 - مورد استفاده بلادرنگ - طراحی
21 - ایجاد جریان داده بازدیدها
22- ایجاد شغل تجزیه‌و‌تحلیل وب‌سایت
23 - اجرای خط لوله بلادرنگ

۵. مهندسی داده با اسپارک - بهترین شیوه‌ها

24 - گزینه‌های دسته‌ای در مقابل گزینه‌های بلادرنگ
25 - عملیات استخراج و دانلود مقیاس بندی
26 - عملیات پردازش مقیاس‌بندی
27- ایجاد تاب‌آوری

۶. پروژه تمرینی از ابتدا تا انتها

28 - الزامات اجرای پروژه
29 - طراحی راهکار
30 - استخراج اقدامات طولانی مدت
31 - ساخت کارت امتیازی

نتیجه‌گیری

32 - اطلاعات بیشتر در مورد آپاچی اسپارک

دوره‌ی آموزشی مقدماتی آپاچی اسپارک: مهندسی داده‌های بزرگ

مدرسین

Kumaran Ponnambalam