دوره آموزشی تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark آپدیت (2020)

جزئیات دوره

Apache Hadoop در دنیای فناوری های کلان داده پیشگام بود و همچنان در ذخیره سازی داده های بزرگ سازمانی پیشرو است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را فراهم می کند. هنگامی که با هم استفاده می شود ، سیستم پرونده توزیع شده Hadoop (HDFS) و Spark می توانند یک تنظیم تجزیه و تحلیل داده های بزرگ واقعاً مقیاس پذیر را ارائه دهند. در این دوره ، یاد بگیرید چگونه از این دو فناوری برای ساخت خطوط لوله تجزیه و تحلیل مقیاس پذیر و بهینه استفاده کنید. مربی Kumaran Ponnambalam روش هایی را برای بهینه سازی مدل سازی و ذخیره سازی داده ها در HDFS بررسی می کند. در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark بحث می کند. و نکاتی را برای بهینه سازی پردازش داده ها در Spark ارائه می دهد. به علاوه ، او یک پروژه مورد استفاده را فراهم می کند که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.
موضوعات مورد بحث عبارتند از:
- توضیح دهید که Apache Spark داده های خود را در کجا ذخیره می کند.
- بین انواع داده ها برای کار تفاوت قائل شوید.
- نحوه استفاده از سطل برای پارتیشن بندی داده ها را توضیح دهید.
- هنگام خواندن پرونده های HDFS با طرح ، برنامه اجرا را تجزیه و تحلیل کنید.
- تعیین زمان و چگونگی اعمال بهترین روشها برای پردازش داده ها.
- از ابزارها و تکنیک های مختلف برای ساختن راه حل با استفاده از Apache Spark و Hadoop استفاده کنید.

سرفصل ها

0. مقدمه

01-قدرت ترکیبی Spark و Hadoop Distributed File System (HDFS)

1. معرفی و راه اندازی

02-Apache Hadoop نمای کلی
03-Apache Spark نمای کلی
04-یکپارچه سازی هادوپ و اسپارک
05-تنظیم محیط
06-استفاده از فایل های تمرینی

2. مدل سازی داده HDFS برای تجزیه و تحلیل

07-فرمت های ذخیره سازی
08-فشرده سازی
09-پارتیشن بندی
10-سطوبندی
11- بهترین روش ها برای ذخیره سازی داده ها

3. بلع داده ها با Spark

12-خواندن فایل های خارجی در Spark
13-نوشتن به HDFS
14-موازی می نویسد با پارتیشن بندی
15-موازی با سطل می نویسد
16-بهترین شیوه ها برای بلع

4. استخراج داده ها با اسپارک

17-چگونه اسپارک کار می کند
18-خواندن فایل های HDFS با طرحواره
19-خواندن داده های پارتیشن بندی شده
20-خواندن داده های سطلی
21- بهترین روش ها برای استخراج داده ها

5. بهینه سازی پردازش جرقه

22- فشار دادن به پایین برآمدگی ها
23-فیلترها را فشار دهید
24-مدیریت پارتیشن ها
25-مدیریت زدن
26-بهبود اتصالات
27-ذخیره نتایج میانی
28-بهترین شیوه ها برای پردازش داده ها

6. از پروژه Case استفاده کنید

29-تعریف مسئله
30-بارگذاری داده ها
31-تحلیل نمره کل
32-تحلیل میانگین امتیاز
33-تحلیل دانش آموزان برتر

نتیجه

34- مراحل بعدی

دوره آموزشی تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark آپدیت (2020)

مدرسین

Kumaran Ponnambalam