دوره آموزشی تحلیل دادههای کلان با Hadoop و Apache Spark
52 دقیقهمتوسط2024-10-02
مدرسین

Kumaran Ponnambalam
Working with data for 20+ years
جزئیات دوره
Apache Hadoop و Apache Spark دو ابزار مهم در دنیای فناوری دادههای کلان هستند که همافزایی آنها میتواند قدرت پردازش دادههای حجیم را به سطحی جدید برساند. Hadoop به عنوان یک سیستم ذخیرهسازی مقیاسپذیر، پایهگذار ذخیرهسازی دادهها در مقیاس وسیع است، در حالی که Spark به عنوان موتور پردازش دادههای کلان توانمندیهای پردازشی گستردهای را فراهم میآورد. استفاده همزمان از این دو فناوری در تجزیهوتحلیل دادهها میتواند راهحلهای مقیاسپذیر و بهینه برای پردازش حجم عظیمی از دادهها ایجاد کند.
در این دوره، شما یاد خواهید گرفت که چگونه از این دو ابزار برای ساخت خطوط لوله دادهای مقیاسپذیر استفاده کنید و فرآیندهای پردازش دادهها را بهینهسازی کنید. با بررسی انواع دادهها و نحوه پردازش آنها در سیستم فایل توزیعشده HDFS، همچنین با مفاهیمی مانند Bucketing آشنا خواهید شد که به شما کمک میکند دادهها را به بخشهای مقیاسپذیر تقسیم کنید. علاوه بر این، شما یاد خواهید گرفت که چگونه از تکنیکهای مختلف برای بهبود کارایی پردازش دادهها در Spark بهره ببرید.
در این دوره، شما یاد خواهید گرفت که چگونه از این دو ابزار برای ساخت خطوط لوله دادهای مقیاسپذیر استفاده کنید و فرآیندهای پردازش دادهها را بهینهسازی کنید. با بررسی انواع دادهها و نحوه پردازش آنها در سیستم فایل توزیعشده HDFS، همچنین با مفاهیمی مانند Bucketing آشنا خواهید شد که به شما کمک میکند دادهها را به بخشهای مقیاسپذیر تقسیم کنید. علاوه بر این، شما یاد خواهید گرفت که چگونه از تکنیکهای مختلف برای بهبود کارایی پردازش دادهها در Spark بهره ببرید.
مهارت ها
HadoopApache SparkApacheData EngineeringData AnalysisData ScienceBusiness Analysis and StrategyBusiness Software and ToolsOne-Off
سرفصل ها
0. مقدمه
- 01 - قدرت ترکیبی Spark و Hadoop Distributed File System (HDFS)
1. معرفی و راه اندازی
- 02 - مرور کلی آپاچی هادوپ
- 03 - مروری بر آپاچی اسپارک
- 04 - ادغام Spark و Hadoop
- 05 - استفاده از فایلهای تمرینی
2. مدل سازی دادههای HDFS برای تجزیه و تحلیل
- 06 - فرمتهای ذخیره سازی
- 07 - فشرده سازی
- 08 - پارتیشن بندی
- 09 - سطل سازی
- 10 - بهترین روشها برای ذخیرهسازی داده ها
3. بلع دادهها با Spark
- 11 - خواندن فایلهای خارجی در Spark
- 12 - نوشتن به HDFS
- 13 - نوشتن موازی با پارتیشن بندی
- 14 - موازی مینویسد با سطل
- 15 - بهترین شیوهها برای بلع
4. استخراج دادهها با اسپارک
- 16 - نحوه عملکرد اسپارک
- 17 - خواندن فایلهای HDFS با طرحواره
- 18 - خواندن دادههای پارتیشن بندی شده
- 19 - خواندن دادههای سطلی
- 20 - بهترین شیوهها برای استخراج داده ها
5. بهینهسازی پردازش جرقه
- 21 - فشار دادن به پایین برآمدگی ها
- 22 - فشار دادن فیلترها به پایین
- 23 - مدیریت پارتیشن ها
- 24 - بهبود اتصالات
- 25 - ذخیرهسازی نتایج میانی
- 26 - بهترین شیوهها برای پردازش داده ها
6. از پروژه Case استفاده کنید
- 27 - تعریف مسئله
- 28 - بارگذاری داده ها
- 29 - تجزیهوتحلیل نمره کل
- 30 - تجزیهوتحلیل میانگین امتیاز
- 31 - تجزیهوتحلیل دانش آموزان برتر
نتیجه گیری
- 32 - با تجزیهوتحلیل دادههای بزرگ ادامه دهید