دوره آموزشی تحلیل داده‌های کلان با Hadoop و Apache Spark

جزئیات دوره

Apache Hadoop و Apache Spark دو ابزار مهم در دنیای فناوری داده‌های کلان هستند که هم‌افزایی آن‌ها می‌تواند قدرت پردازش داده‌های حجیم را به سطحی جدید برساند. Hadoop به عنوان یک سیستم ذخیره‌سازی مقیاس‌پذیر، پایه‌گذار ذخیره‌سازی داده‌ها در مقیاس وسیع است، در حالی که Spark به عنوان موتور پردازش داده‌های کلان توانمندی‌های پردازشی گسترده‌ای را فراهم می‌آورد. استفاده هم‌زمان از این دو فناوری در تجزیه‌وتحلیل داده‌ها می‌تواند راه‌حل‌های مقیاس‌پذیر و بهینه برای پردازش حجم عظیمی از داده‌ها ایجاد کند.

در این دوره، شما یاد خواهید گرفت که چگونه از این دو ابزار برای ساخت خطوط لوله داده‌ای مقیاس‌پذیر استفاده کنید و فرآیندهای پردازش داده‌ها را بهینه‌سازی کنید. با بررسی انواع داده‌ها و نحوه پردازش آن‌ها در سیستم فایل توزیع‌شده HDFS، همچنین با مفاهیمی مانند Bucketing آشنا خواهید شد که به شما کمک می‌کند داده‌ها را به بخش‌های مقیاس‌پذیر تقسیم کنید. علاوه بر این، شما یاد خواهید گرفت که چگونه از تکنیک‌های مختلف برای بهبود کارایی پردازش داده‌ها در Spark بهره ببرید.

سرفصل ها

0. مقدمه

01 - قدرت ترکیبی Spark و Hadoop Distributed File System (HDFS)

1. معرفی و راه اندازی

02 - مرور کلی آپاچی هادوپ
03 - مروری بر آپاچی اسپارک
04 - ادغام Spark و Hadoop
05 - استفاده از فایل‌های تمرینی

2. مدل سازی داده‌های HDFS برای تجزیه و تحلیل

06 - فرمت‌های ذخیره سازی
07 - فشرده سازی
08 - پارتیشن بندی
09 - سطل سازی
10 - بهترین روش‌ها برای ذخیره‌سازی داده ها

3. بلع داده‌ها با Spark

11 - خواندن فایل‌های خارجی در Spark
12 - نوشتن به HDFS
13 - نوشتن موازی با پارتیشن بندی
14 - موازی می‌نویسد با سطل
15 - بهترین شیوه‌ها برای بلع

4. استخراج داده‌ها با اسپارک

16 - نحوه عملکرد اسپارک
17 - خواندن فایل‌های HDFS با طرحواره
18 - خواندن داده‌های پارتیشن بندی شده
19 - خواندن داده‌های سطلی
20 - بهترین شیوه‌ها برای استخراج داده ها

5. بهینه‌سازی پردازش جرقه

21 - فشار دادن به پایین برآمدگی ها
22 - فشار دادن فیلترها به پایین
23 - مدیریت پارتیشن ها
24 - بهبود اتصالات
25 - ذخیره‌سازی نتایج میانی
26 - بهترین شیوه‌ها برای پردازش داده ها

6. از پروژه Case استفاده کنید

27 - تعریف مسئله
28 - بارگذاری داده ها
29 - تجزیه‌و‌تحلیل نمره کل
30 - تجزیه‌و‌تحلیل میانگین امتیاز
31 - تجزیه‌و‌تحلیل دانش آموزان برتر

نتیجه گیری

32 - با تجزیه‌و‌تحلیل داده‌های بزرگ ادامه دهید