دوره آموزشی مهندسی قابلیت اطمینان در فضای ابری
4 ساعت 55 دقیقهمتوسط2026-02-19
مدرسین

Pearson
جزئیات دوره
در این دوره یاد میگیری چطور مهارتهای مهم و پرتقاضای مهندس قابلیت اطمینان (Reliability Engineer / SRE) را در دنیای واقعی بهکار بگیری.
تمرکز اصلی دوره روی ساخت سیستمهای پایدار، سریع و قابل اعتماد در محیطهای ابری و نرمافزارهای Cloud-Native است.
در طول آموزش با مفاهیم کلیدی مثل Chaos Engineering (مهندسی آشوب)، مانیتورینگ و Observability، تستهای بازیابی بحران (Disaster Recovery) و معیارهای سنجش پایداری سیستم آشنا میشوی.
همچنین یاد میگیری چطور با استفاده از دادههای واقعی و ابزارهای مدرن (از جمله Cloud Services و حتی LLMها) تصمیمهای سریعتر و دقیقتری بگیری.
یکی از بخشهای مهم دوره، یادگیری اتوماسیون عملیات است؛ یعنی کاهش زمان تشخیص خطا (MTTD) و زمان رفع مشکل (MTTR) با کمک ابزارهای هوشمند.
این دوره برای مهندسان نرمافزار و تیمهایی طراحی شده که مسئول طراحی، توسعه و نگهداری سیستمهای ابری هستند و میخواهند سیستمهایی پایدارتر، مقیاسپذیرتر و قابل اعتمادتر بسازند.
🎯 اهداف یادگیری
طراحی استراتژی سازمانی برای مهندسی قابلیت اطمینان (CRE / SRE)
بهبود پایداری و مقیاسپذیری سیستمهای ابری
کاهش زمان تشخیص خطا (MTTD)
کاهش زمان بازیابی سرویس (MTTR)
پیادهسازی Chaos Engineering در سیستمها
استفاده از Observability برای تحلیل سیستمها
طراحی سیستمهای مانیتورینگ پیشرفته
اجرای تستهای Disaster Recovery
بهبود تصمیمگیری دادهمحور در عملیات
اتوماسیون عملیات IT و DevOps
افزایش تابآوری سیستمها (Resilience)
طراحی معماری پایدار برای Cloud Applications
تحلیل خطاها و Incident Response
بهبود سرعت واکنش در رخدادهای سیستمی
استفاده از ابزارهای Cloud برای مانیتورینگ
استفاده از LLMها در عملیات مهندسی
بهبود همکاری بین تیمهای توسعه و عملیات
ایجاد فرهنگ بهبود مستمر (Continuous Improvement)
طراحی معیارهای Reliability Metrics
بهینهسازی عملکرد سیستمهای توزیعشده
تمرکز اصلی دوره روی ساخت سیستمهای پایدار، سریع و قابل اعتماد در محیطهای ابری و نرمافزارهای Cloud-Native است.
در طول آموزش با مفاهیم کلیدی مثل Chaos Engineering (مهندسی آشوب)، مانیتورینگ و Observability، تستهای بازیابی بحران (Disaster Recovery) و معیارهای سنجش پایداری سیستم آشنا میشوی.
همچنین یاد میگیری چطور با استفاده از دادههای واقعی و ابزارهای مدرن (از جمله Cloud Services و حتی LLMها) تصمیمهای سریعتر و دقیقتری بگیری.
یکی از بخشهای مهم دوره، یادگیری اتوماسیون عملیات است؛ یعنی کاهش زمان تشخیص خطا (MTTD) و زمان رفع مشکل (MTTR) با کمک ابزارهای هوشمند.
این دوره برای مهندسان نرمافزار و تیمهایی طراحی شده که مسئول طراحی، توسعه و نگهداری سیستمهای ابری هستند و میخواهند سیستمهایی پایدارتر، مقیاسپذیرتر و قابل اعتمادتر بسازند.
🎯 اهداف یادگیری
طراحی استراتژی سازمانی برای مهندسی قابلیت اطمینان (CRE / SRE)
بهبود پایداری و مقیاسپذیری سیستمهای ابری
کاهش زمان تشخیص خطا (MTTD)
کاهش زمان بازیابی سرویس (MTTR)
پیادهسازی Chaos Engineering در سیستمها
استفاده از Observability برای تحلیل سیستمها
طراحی سیستمهای مانیتورینگ پیشرفته
اجرای تستهای Disaster Recovery
بهبود تصمیمگیری دادهمحور در عملیات
اتوماسیون عملیات IT و DevOps
افزایش تابآوری سیستمها (Resilience)
طراحی معماری پایدار برای Cloud Applications
تحلیل خطاها و Incident Response
بهبود سرعت واکنش در رخدادهای سیستمی
استفاده از ابزارهای Cloud برای مانیتورینگ
استفاده از LLMها در عملیات مهندسی
بهبود همکاری بین تیمهای توسعه و عملیات
ایجاد فرهنگ بهبود مستمر (Continuous Improvement)
طراحی معیارهای Reliability Metrics
بهینهسازی عملکرد سیستمهای توزیعشده
سرفصل ها
مقدمه
- مهندسی قابلیت اطمینان مبتنی بر ابر
نحوه طراحی، ساخت، بهرهبرداری و تست استرس سیستمهای بسیار قابل اعتماد
- اهداف یادگیری
- تعریف تابآوری، قابلیت اطمینان، مهندسی و تعالی مهندسی
- تضمین برتری مهندسی در فضای ابری - چرا کسب و کار شما بدون آن نمیتواند موفق شود
- درک چگونگی طراحی و ساخت سیستمهای انعطافپذیر و قابل اعتماد
- آشنایی با نحوه آزمایش مقاومت برنامههای کاربردی شما
- پاسخ به مشکلات احتمالی و کاهش آنها
- درک چگونگی بهرهگیری از هوش مصنوعی (AI) و مدلهای زبانی بزرگ (LLM)
- مرور درس 1 و یک تمرین
تعریف استراتژیهای مهندسی برای ساخت سیستمهای انعطافپذیر، در دسترس و مقیاسپذیر
- اهداف یادگیری
- مفاهیم اساسی قابلیت اطمینان، مانند تحمل خطا، دسترسیپذیری بالا، مقیاسپذیری و بازیابی را درک کنید
- انتخاب بین گزینههای مختلف برای زمان آماده به کار و طراحی معماری
- پیادهسازی اهداف سطح خدمات (SLO) و شاخصهای سطح خدمات (SLI) به عنوان معیارهای عملکرد
- بررسی زیرساخت تغییرناپذیر، کانتینرسازی و معماری رویدادمحور
- اعتبارسنجی تابآوری برنامه و زیرساخت با مهندسی آشوب و سایر تکنیکهای مدرن
- مرور درس ۲ و یک تمرین
قدرت هوش مصنوعی، جریانهای ارزش و مهندسی قابلیت اطمینان ابری (CRE)
- اهداف یادگیری
- درک اجزای اساسی هوش مصنوعی
- اعمال ML و GenAI به CRE
- تلفیق جریانهای ارزش و استراتژی CRE
- پرورش فرهنگ نوآوری - رهبری، مالکیت و تصمیمگیری سریع
- مرور درس ۳ و یک تمرین
استفاده از معیارهای مشاهدهپذیری، نظارت و قابلیت اطمینان
- اهداف یادگیری
- تعریف مشاهدهپذیری و پایش
- بهکارگیری یک فرآیند ۱۰ مرحلهای برای ایجاد نظارت مؤثر
- ابزارهای نظارت و هشدار نقشهبرداری از ارائهدهندگان پیشرو در حوزه ابر
- شناسایی و کاهش پیشگیرانه اختلالات شناخته شده خدمات
- تعیین اهداف و نتایج کلیدی (OKR)
- مرور درس ۴ و یک تمرین
ابزارسازی CRE و مهندسی آشوب
- اهداف یادگیری
- توزیع بار با مقیاسبندی خودکار و متعادلسازی بار
- فعال کردن failoverهای خودکار برای دسترسی بالا
- پیادهسازی استقرارهای مداوم با استراتژیهای بازگشت به عقب
- استفاده از مهندسی آشوب برای آزمایش تابآوری
- مرور درس ۵ و یک تمرین
واکنش به حادثه برای بازیابی سریع
- اهداف یادگیری
- درک مفاهیم بنیادی پاسخ به حادثه
- پیادهسازی یک رویکرد ساختاریافته برای پاسخ به حوادث و ابزارهای CRE
- آشنایی با مدیریت حوادث در CRE
- تعریف زمان تشخیص (TTD) و زمان بازیابی (TTR)
- آشنایی با Playbookها و Runbookها
- مرور درس ۶ و یک تمرین
تعالی عملیاتی و مدیریت تغییر
- اهداف یادگیری
- تعریف تعالی عملیاتی در CRE
- شناسایی فرآیندها، افراد و ابزارهای تعالی عملیاتی
- تعیین شاخصهای کلیدی عملکرد
- آشنایی با فرم تحلیل ریشهای علت (RCA) و اصلاح خطا (CoE)
- شناسایی ابزارهای ارزیابی تعالی عملیاتی
- مرور درس ۷ و یک تمرین
نتیجهگیری
- خلاصه و مراحل بعدی
دوره های مرتبط
- دوره آموزشی مهندسی پلتفرم ابری بومی
- دوره آموزشی توسعه فرهنگ مهندسی قابلیت اطمینان سامانهها (SRE) بر اساس رویکرد گوگل
- دوره آموزشی آمادگی گواهینامه Google Cloud Digital Leader: بخش چهارم آشنایی با امنیت و عملیات Google Cloud
- دوره آموزشی الگوهای طراحی همکاری انسان و عامل در هوش مصنوعی عاملمحور
- دوره آموزشی آمادگی برای مدرک Google Cloud Professional Cloud Architect
- دوره آموزشی تکنیکهای پیشرفته Playwright: بهینهسازی سرعت، پایداری و تست ابری
- دوره آموزشی آمادگی گواهینامه Google Cloud Professional Data Engineer: بخش اول طراحی سیستم های پردازش داده
- دوره آموزشی GitHub Actions برای CI/CD: ساخت، تست و استقرار