دورهی آموزشی مقدماتی آپاچی اسپارک: مهندسی دادههای بزرگ
1 ساعت 5 دقیقهمتوسط2024-01-01
مدرسین

Kumaran Ponnambalam
Working with data for 20+ years
جزئیات دوره
مهندسی داده، پایه و اساس ساخت برنامههای تحلیلی و علوم داده تو دنیای بزرگ دادهها (Big Data) امروزی محسوب میشه. تو این حوزه، باید چندتا تکنولوژی بزرگ داده رو با هم ترکیب کنی تا بتونی خطوط دادهای (Data Pipelines) و شبکههایی بسازی که دادهها رو به صورت زنده یا دستهای پردازش، انتقال و ذخیره کنن.
تو این دوره، یاد میگیری چطور راهکارهای کامل بسازی که Apache Spark رو با ابزارهای بزرگ داده دیگه ترکیب میکنن تا خطوط دادهای انتها به انتها (End-to-End) درست کنی. استاد دوره، کوماران پوننامبالم، اول با تعریف مهندسی داده، وظایف و مفاهیم کلیدی شروع میکنه. بعد میره سراغ قابلیتهای اسپارک مثل پردازش موازی، طرحهای اجرایی، مدیریت وضعیت (State Management) و کاربرد یادگیری ماشین در فرآیندهای ETL (استخراج، تبدیل و بارگذاری دادهها).
کوماران بهت نشون میده چطوری از پردازش دستهای (Batch Processing) استفاده کنی و همچنین چطور خطوط پردازش بلادرنگ (Real-time Processing Pipelines) بسازی. در نهایت، چندتا بهترین روشها (Best Practices) رو یاد میگیری و دوره با یک پروژه عملی پایان مییابد که همه موارد رو تو قالب یک تمرین واقعی بهم میچسبونه.
اهداف یادگیری
درک کامل مفاهیم و وظایف مهندسی داده در دنیای Big Data.
آشنایی با ابزار Apache Spark و قابلیتهای کلیدی آن.
یادگیری ساخت خطوط دادهای انتها به انتها با ترکیب چند ابزار Big Data.
فهم فرآیندهای ETL و کاربرد آنها در مهندسی داده.
توانایی پیادهسازی پردازش دستهای و بلادرنگ روی دادهها.
یادگیری بهترین روشها و تکنیکهای ساخت دادهپایپلاین حرفهای.
انجام پروژه عملی برای تسلط کامل روی مطالب دوره.
تو این دوره، یاد میگیری چطور راهکارهای کامل بسازی که Apache Spark رو با ابزارهای بزرگ داده دیگه ترکیب میکنن تا خطوط دادهای انتها به انتها (End-to-End) درست کنی. استاد دوره، کوماران پوننامبالم، اول با تعریف مهندسی داده، وظایف و مفاهیم کلیدی شروع میکنه. بعد میره سراغ قابلیتهای اسپارک مثل پردازش موازی، طرحهای اجرایی، مدیریت وضعیت (State Management) و کاربرد یادگیری ماشین در فرآیندهای ETL (استخراج، تبدیل و بارگذاری دادهها).
کوماران بهت نشون میده چطوری از پردازش دستهای (Batch Processing) استفاده کنی و همچنین چطور خطوط پردازش بلادرنگ (Real-time Processing Pipelines) بسازی. در نهایت، چندتا بهترین روشها (Best Practices) رو یاد میگیری و دوره با یک پروژه عملی پایان مییابد که همه موارد رو تو قالب یک تمرین واقعی بهم میچسبونه.
اهداف یادگیری
درک کامل مفاهیم و وظایف مهندسی داده در دنیای Big Data.
آشنایی با ابزار Apache Spark و قابلیتهای کلیدی آن.
یادگیری ساخت خطوط دادهای انتها به انتها با ترکیب چند ابزار Big Data.
فهم فرآیندهای ETL و کاربرد آنها در مهندسی داده.
توانایی پیادهسازی پردازش دستهای و بلادرنگ روی دادهها.
یادگیری بهترین روشها و تکنیکهای ساخت دادهپایپلاین حرفهای.
انجام پروژه عملی برای تسلط کامل روی مطالب دوره.
مهارت ها
Apache SparkApacheData EngineeringData AnalysisData ScienceBusiness Analysis and StrategyBusiness Software and ToolsOne-Off
سرفصل ها
۰. مقدمه
- 01 - هدایت مهندسی کلان داده با آپاچی اسپارک
- 02 - پیش نیازهای دوره
- 03 - تنظیم فایلهای تمرین
۱. مفاهیم مهندسی داده
- 04 - مهندسی داده چیست؟
- 05 - مهندسی داده در مقابل تحلیل داده در مقابل علم داده
- 06 - توابع مهندسی داده
- 07 - پردازش دستهای در مقابل پردازش بلادرنگ
- 08 - مهندسی داده با اسپارک
۲. قابلیتهای اسپارک برای ETL
- 09 - بررسی معماری اسپارک
- 10 - پردازش موازی با اسپارک
- 11 - طرح اجرایی اسپارک
- 12 - پردازش جریان با وضعیت
- 13 - تجزیهوتحلیل اسپارک و یادگیری ماشین
۳. خطوط لوله پردازش دستهای
- 14 - مورد کاربرد پردازش دستهای - بیان مسئله
- 15 - مورد کاربرد پردازش دستهای - طراحی
- 16 - راهاندازی پایگاه داده محلی
- 17 - بارگذاری موجودی در فروشگاه مرکزی
- 18 - تجمیع موجودی در انبارها
۴. خطوط پردازش بلادرنگ
- 19 - مورد استفاده بلادرنگ - مشکل
- 20 - مورد استفاده بلادرنگ - طراحی
- 21 - ایجاد جریان داده بازدیدها
- 22- ایجاد شغل تجزیهوتحلیل وبسایت
- 23 - اجرای خط لوله بلادرنگ
۵. مهندسی داده با اسپارک - بهترین شیوهها
- 24 - گزینههای دستهای در مقابل گزینههای بلادرنگ
- 25 - عملیات استخراج و دانلود مقیاس بندی
- 26 - عملیات پردازش مقیاسبندی
- 27- ایجاد تابآوری
۶. پروژه تمرینی از ابتدا تا انتها
- 28 - الزامات اجرای پروژه
- 29 - طراحی راهکار
- 30 - استخراج اقدامات طولانی مدت
- 31 - ساخت کارت امتیازی
نتیجهگیری
- 32 - اطلاعات بیشتر در مورد آپاچی اسپارک
دوره های مرتبط
- دوره آموزشی یادگیری جامع اسکالا برای علوم داده
- دوره آموزشی DataOps با Apache Iceberg با استفاده از Spark، Nessie و Dremio
- دوره آموزشی Cloud Hadoop: پیمایش آپاچی اسپارک
- دوره آموزشی یادگیری جامع Azure Spark Databricks
- دوره آموزشی تحلیل دادههای کلان با Hadoop و Apache Spark
- دوره آموزشی پلتفرمهای داده: از Spark تا Snowflake
- دوره آموزشی آمادگی گواهینامه Databricks Certified Data Engineer Associate: بخش دوم ELT با Spark SQL و Python
- دوره آموزشی معماری برنامه های کاربردی داده های بزرگ: مهندسی کاربرد حالت دسته ای