تخفیف ویژه همین الان — دوره‌های تخفیف‌دار را ببینید.
روز
:
ساعت
:
دقیقه
:
ثانیه
تخفیف‌های ویژه
دوره آموزشی پای‌اسپارک پر‌قدرت: راهکارهای پیشرفته برای پردازش بهینه داده‌ها

دوره آموزشی پای‌اسپارک پر‌قدرت: راهکارهای پیشرفته برای پردازش بهینه داده‌ها

1 ساعت 22 دقیقهپیشرفته2025-04-16

مدرسین

Ameena Ansari

Ameena Ansari

جزئیات دوره

استاد داده‌ها شو با دوره پیشرفته PySpark!
اگر می‌خوای توی پردازش داده‌های بزرگ حرفه‌ای بشی، این دوره مخصوص مهندس‌های داده مثل تو طراحی شده. با استاد آمینا انصاری همراه شو و یاد بگیر چطور داده‌ها رو سریع و تمیز کنی، ساختارهای درست تعریف کنی و فرمت‌ها و روش‌های فشرده‌سازی مختلف رو به کار ببری تا هر چقدر داده هم داشته باشی، سیستم‌ت روان و بهینه کار کنه.

در پایان این دوره، می‌تونی با استفاده از PySpark، پایپلاین‌های پردازش داده‌ای بسازی که هم مقیاس‌پذیر باشن و هم کارآمد.

اهداف یادگیری
تسلط به تکنیک‌های پاک‌سازی داده، از جمله مقابله با مقادیر گمشده، شناسایی داده‌های پرت، نرمال‌سازی و تبدیل داده‌ها
تعریف ساختارهای داده (Schema) به‌گونه‌ای که عملکرد و مقیاس‌پذیری افزایش پیدا کنه
آشنایی با فرمت‌های مختلف داده مثل Parquet، ORC، Avro، JSON و CSV و استفاده بهینه از هر کدوم
استفاده از تکنیک‌های فشرده‌سازی مثل Gzip، Snappy و LZO برای صرفه‌جویی در فضا و افزایش سرعت پردازش
به حداقل رساندن مشکلاتی مثل داده‌های نابرابر (Skew) و جابجایی بیش از حد داده‌ها (Shuffle) و بهینه‌سازی عملیات Join، Aggregation و Repartition

مهارت ها

Data EngineeringData ScienceOne-Off

سرفصل ها

0. مقدمه

  • 01 - مهندسی داده با کارایی بالا با PySpark

1. مقدمه ای بر پاکسازی داده با کارایی بالا در PySpark

  • 02 - پاکسازی داده‌ها چیست
  • 03 - مسائل رایج کیفیت داده ها
  • 04 - چالش در پاکسازی داده ها
  • 05 - چرا PySpark برای پاکسازی داده ها

2. تکنیک‌های پاکسازی داده‌ها با PySpark

  • 06 - کار با فضاهای کد GitHub
  • 07 - کیفیت داده‌ها در PySpark - شناسایی مسائل و تکنیک‌های تمیز کردن مؤثر
  • 08 - تشخیص و مدیریت مقادیر تهی در PySpark
  • 09 - تکنیک‌هایی برای شناسایی و حذف داده‌های ناسازگار در PySpark
  • 10 - تقسیم ستون‌های داده ترکیبی در PySpark

3. ساختار طرحواره‌های داده

  • 11 - اهمیت طراحی طرحواره در مهندسی داده
  • 12 - استفاده از PySpark برای اجرای طرح و اعتبار
  • 13 - مدیریت طرحواره در دریاچه‌ها و انبارهای داده

4. فرمت‌های داده و تکنیک‌های فشرده سازی

  • 14 - مقدمه ای بر فرمت‌های داده - درک JSON و CSV
  • 15 - کاوش JSON
  • 16 - کاوش Avro
  • 17 - Avro چگونه سریال سازی و سریال سازی را مدیریت می‌کند
  • 18 - تکامل طرحواره Avro - مدیریت تغییرات در ساختار داده ها
  • 19 - Avro جوانب مثبت و منفی
  • 20 - درک ORC - ذخیره‌سازی ستونی ردیف بهینه شده
  • 21 - مزایا و معایب ORC
  • 22 - پارکت - قالب ستونی برای تجزیه‌و‌تحلیل با کارایی بالا
  • 23 - الگوریتم‌های فشرده سازی در Spark - مقایسه Zstd، Snappy و LZ4

5. مدیریت درهم ریختگی داده‌ها و انحراف

  • 24 - آشنایی با تکنیک‌های درهم ریختن داده‌ها برای به حداقل رساندن درهم ریختن داده ها
  • 25 - آدرس دادن به انحراف داده ها

دوره های مرتبط

درباره ما

لینداکده یک بستر یادگیری پیشرو است که به افراد کمک می کند تا کسب و کار ، نرم افزار ، فناوری و مهارت‌های خلاقانه را برای دستیابی به اهداف شخصی و حرفه ای بیاموزد.

شماره تلفنکانال آپاراتپشتیبانی تلگرامکانال تلگرامپیج اینستاگرام

کلیه‌ی حقوق این سایت متعلق به لینداکده می باشد

قوانین و شرایط|حریم خصوصی

نماد الکترونیک enamad در صورت اتصال با آی‌پی داخل کشور، نمایش داده خواهد شد.
logo-samandehi - لوگو ساماندهی
zarinpal
zibal