دوره آموزشی تجزیه و تحلیل داده های بزرگ با Hadoop و Apache Spark آپدیت (2020)
1 ساعت 2 دقیقهمتوسط2020-02-24
مدرسین

Kumaran Ponnambalam
Working with data for 20+ years
جزئیات دوره
Apache Hadoop در دنیای فناوری های کلان داده پیشگام بود و همچنان در ذخیره سازی داده های بزرگ سازمانی پیشرو است. Apache Spark برترین موتور پردازش داده های بزرگ است و مجموعه ای چشمگیر از ویژگی ها و قابلیت ها را فراهم می کند. هنگامی که با هم استفاده می شود ، سیستم پرونده توزیع شده Hadoop (HDFS) و Spark می توانند یک تنظیم تجزیه و تحلیل داده های بزرگ واقعاً مقیاس پذیر را ارائه دهند. در این دوره ، یاد بگیرید چگونه از این دو فناوری برای ساخت خطوط لوله تجزیه و تحلیل مقیاس پذیر و بهینه استفاده کنید. مربی Kumaran Ponnambalam روش هایی را برای بهینه سازی مدل سازی و ذخیره سازی داده ها در HDFS بررسی می کند. در مورد مصرف و استخراج داده های مقیاس پذیر با استفاده از Spark بحث می کند. و نکاتی را برای بهینه سازی پردازش داده ها در Spark ارائه می دهد. به علاوه ، او یک پروژه مورد استفاده را فراهم می کند که به شما امکان می دهد تکنیک های جدید خود را تمرین کنید.
موضوعات مورد بحث عبارتند از:
- توضیح دهید که Apache Spark داده های خود را در کجا ذخیره می کند.
- بین انواع داده ها برای کار تفاوت قائل شوید.
- نحوه استفاده از سطل برای پارتیشن بندی داده ها را توضیح دهید.
- هنگام خواندن پرونده های HDFS با طرح ، برنامه اجرا را تجزیه و تحلیل کنید.
- تعیین زمان و چگونگی اعمال بهترین روشها برای پردازش داده ها.
- از ابزارها و تکنیک های مختلف برای ساختن راه حل با استفاده از Apache Spark و Hadoop استفاده کنید.
موضوعات مورد بحث عبارتند از:
- توضیح دهید که Apache Spark داده های خود را در کجا ذخیره می کند.
- بین انواع داده ها برای کار تفاوت قائل شوید.
- نحوه استفاده از سطل برای پارتیشن بندی داده ها را توضیح دهید.
- هنگام خواندن پرونده های HDFS با طرح ، برنامه اجرا را تجزیه و تحلیل کنید.
- تعیین زمان و چگونگی اعمال بهترین روشها برای پردازش داده ها.
- از ابزارها و تکنیک های مختلف برای ساختن راه حل با استفاده از Apache Spark و Hadoop استفاده کنید.
مهارت ها
HadoopApache SparkApacheData EngineeringData AnalysisData ScienceBusiness Analysis and StrategyBusiness Software and ToolsDeep Dive (X:Y)
سرفصل ها
0. مقدمه
- 01-قدرت ترکیبی Spark و Hadoop Distributed File System (HDFS)
1. معرفی و راه اندازی
- 02-Apache Hadoop نمای کلی
- 03-Apache Spark نمای کلی
- 04-یکپارچه سازی هادوپ و اسپارک
- 05-تنظیم محیط
- 06-استفاده از فایل های تمرینی
2. مدل سازی داده HDFS برای تجزیه و تحلیل
- 07-فرمت های ذخیره سازی
- 08-فشرده سازی
- 09-پارتیشن بندی
- 10-سطوبندی
- 11- بهترین روش ها برای ذخیره سازی داده ها
3. بلع داده ها با Spark
- 12-خواندن فایل های خارجی در Spark
- 13-نوشتن به HDFS
- 14-موازی می نویسد با پارتیشن بندی
- 15-موازی با سطل می نویسد
- 16-بهترین شیوه ها برای بلع
4. استخراج داده ها با اسپارک
- 17-چگونه اسپارک کار می کند
- 18-خواندن فایل های HDFS با طرحواره
- 19-خواندن داده های پارتیشن بندی شده
- 20-خواندن داده های سطلی
- 21- بهترین روش ها برای استخراج داده ها
5. بهینه سازی پردازش جرقه
- 22- فشار دادن به پایین برآمدگی ها
- 23-فیلترها را فشار دهید
- 24-مدیریت پارتیشن ها
- 25-مدیریت زدن
- 26-بهبود اتصالات
- 27-ذخیره نتایج میانی
- 28-بهترین شیوه ها برای پردازش داده ها
6. از پروژه Case استفاده کنید
- 29-تعریف مسئله
- 30-بارگذاری داده ها
- 31-تحلیل نمره کل
- 32-تحلیل میانگین امتیاز
- 33-تحلیل دانش آموزان برتر
نتیجه
- 34- مراحل بعدی