دوره آموزشی یادگیری اصولی مهندسی قابلیت اطمینان سایت
4 ساعت 10 دقیقهمتوسط2025-07-01
مدرسین

Pearson

Karun Subramanian
جزئیات دوره
با این دوره ویدیویی جامع، قدرت مهندسی اطمینان سایت یا همون Site Reliability Engineering (SRE) رو باز کن! مهندسی اطمینان سایت یه رشته خیلی مهم و حیاتی توی دنیای فناوریه که ترکیبی از مهندسی نرمافزار و عملیات IT هست تا سیستمها رو همیشه پایدار، مقیاسپذیر و با بهترین عملکرد نگه داره.
تو این دوره قراره عمیقاً با اصول و روشهای پایهای SRE آشنا بشی و یاد بگیری چطوری با استفاده از ابزارها و تکنیکها، سیستمهای قابل اعتماد بسازی و کارایی عملیات رو به شکل چشمگیری بالا ببری.
از مفاهیم کلیدی SRE مثل اهداف سطح سرویس (SLO)، شاخصهای سطح سرویس (SLI) و بودجه خطا (Error Budget) گرفته، تا مثالهای عملی که بتونی همین اصول رو تو سازمان خودت به کار بگیری.
همچنین یاد میگیری چطوری مدیریت رخدادها یا incident management رو به بهترین شکل انجام بدی؛ چطوری شیفتهای آنکال (on-call) رو اداره کنی، اتاقهای بحران (war rooms) برای اتفاقات حساس راه بندازی و جلسات بازنگری بدون مقصر (blameless postmortems) برگزار کنی تا از اشتباهات و شکستها درس بگیری.
علاوه بر این، با استراتژیهای مدیریت انتشار نرمافزار آشنا میشی که باعث میشه در زمان بهروزرسانیها کمترین تاثیر منفی رو روی کاربران داشته باشی، پایپلاین CI/CD رو مانیتور کنی و انتشار تدریجی (progressive rollouts) رو پیاده سازی کنی.
اهداف یادگیری این دوره:
اصول پایه و مهم SRE رو پیادهسازی کنی تا سیستمهات همیشه پایدار و با عملکرد بالا باشن.
یه سیستم قوی برای نظارت و دیدهبانی (monitoring و observability) با استفاده از دادههای مهم مثل لاگها، متریکها و ترِیسها بسازی و بهینه کنی.
سلامت سیستم رو به بهترین شکل با استفاده از پلتفرمهای دیدهبانی بررسی کنی و عملکردش رو حفظ کنی.
از مفاهیم SLO، SLI و بودجه خطا استفاده کنی تا عملکرد و اطمینان سیستم رو بهتر کنی.
مدیریت رخدادها رو خوب یاد بگیری، اتاقهای بحران راه بندازی و بدون مقصر جلسه بررسی شکستها برگزار کنی تا یادگیری واقعی اتفاق بیفته.
معماری سیستمهای قابل اعتماد طراحی کنی؛ شامل بارگذاری متعادل (load balancing)، مقیاسپذیری خودکار (auto-scaling) و پیادهسازی تئوری CAP برای استحکام سیستم.
تو این دوره قراره عمیقاً با اصول و روشهای پایهای SRE آشنا بشی و یاد بگیری چطوری با استفاده از ابزارها و تکنیکها، سیستمهای قابل اعتماد بسازی و کارایی عملیات رو به شکل چشمگیری بالا ببری.
از مفاهیم کلیدی SRE مثل اهداف سطح سرویس (SLO)، شاخصهای سطح سرویس (SLI) و بودجه خطا (Error Budget) گرفته، تا مثالهای عملی که بتونی همین اصول رو تو سازمان خودت به کار بگیری.
همچنین یاد میگیری چطوری مدیریت رخدادها یا incident management رو به بهترین شکل انجام بدی؛ چطوری شیفتهای آنکال (on-call) رو اداره کنی، اتاقهای بحران (war rooms) برای اتفاقات حساس راه بندازی و جلسات بازنگری بدون مقصر (blameless postmortems) برگزار کنی تا از اشتباهات و شکستها درس بگیری.
علاوه بر این، با استراتژیهای مدیریت انتشار نرمافزار آشنا میشی که باعث میشه در زمان بهروزرسانیها کمترین تاثیر منفی رو روی کاربران داشته باشی، پایپلاین CI/CD رو مانیتور کنی و انتشار تدریجی (progressive rollouts) رو پیاده سازی کنی.
اهداف یادگیری این دوره:
اصول پایه و مهم SRE رو پیادهسازی کنی تا سیستمهات همیشه پایدار و با عملکرد بالا باشن.
یه سیستم قوی برای نظارت و دیدهبانی (monitoring و observability) با استفاده از دادههای مهم مثل لاگها، متریکها و ترِیسها بسازی و بهینه کنی.
سلامت سیستم رو به بهترین شکل با استفاده از پلتفرمهای دیدهبانی بررسی کنی و عملکردش رو حفظ کنی.
از مفاهیم SLO، SLI و بودجه خطا استفاده کنی تا عملکرد و اطمینان سیستم رو بهتر کنی.
مدیریت رخدادها رو خوب یاد بگیری، اتاقهای بحران راه بندازی و بدون مقصر جلسه بررسی شکستها برگزار کنی تا یادگیری واقعی اتفاق بیفته.
معماری سیستمهای قابل اعتماد طراحی کنی؛ شامل بارگذاری متعادل (load balancing)، مقیاسپذیری خودکار (auto-scaling) و پیادهسازی تئوری CAP برای استحکام سیستم.
مهارت ها
DevOps FoundationsServer AdministrationDevOpsNetwork and System AdministrationOne-Off
سرفصل ها
۰. مقدمه
- 01 - مقدمه
۱. مقدمهای بر مهندسی قابلیت اطمینان سایت
- 02 - اهداف یادگیری
- 03 - مهندسی قابلیت اطمینان سایت چیست؟
- 04 - اصول اساسی SRE
- 05 - مزایای SRE
- 06 - DevOps در مقابل SRE در مقابل مهندسی پلتفرم
- 07 - یک روز معمولی از یک SRE
۲. مشاهدهپذیری
- 08 - اهداف یادگیری
- 09 - چه چیزی را باید نظارت کرد
- 10 - گزارشها، معیارها و ردپاها
- 11 - چهار سیگنال طلایی
- 12 - سکوهای رصد
- 13 - نسخه آزمایشی - مانیتورینگ با استفاده از Splunk
۳. SLO، SLI و SLA
- 14 - اهداف یادگیری
- 15 - اهداف سطح خدمات (SLO)
- 16 - شاخصهای سطح خدمات (SLI) و توافقنامههای سطح خدمات (SLA)
- 17- پیادهسازی SLOها - مثالهای دنیای واقعی
- 18 - استفاده از بودجهبندی خطا
- 19 - نسخه آزمایشی - SLO SLI
۴. مدیریت حادثه، سبک SRE
- 20 - اهداف یادگیری
- 21- حوادث مدیریتشده در مقابل حوادث مدیریتنشده
- 22 - اداره اتاقهای جنگ
- 23- انجام کالبدشکافی بیگناه
- 24- استفاده از قالبهای پس از مرگ
- 25 - آماده به کار بودن
۵. معماریهای سیستم قابل اعتماد
- 26 - اهداف یادگیری
- 27 - متعادلسازی بار
- 28 - مدیریت خطاها
- 29 - قضیه CAP و پیادهسازی آن
- 30 - مقیاسبندی خودکار
۶. مدیریت انتشار
- 31 - اهداف یادگیری
- 32 - انتشار تدریجی
- 33 - به حداقل رساندن تأثیر کاربر در طول انتشارها
- 34 - نظارت بر خط لوله CI CD
- 35 - برگرداندن تغییرات به حالت قبل
۷. پیادهسازی SRE
- 36 - اهداف یادگیری
- 37 - چهار روش برای پیادهسازی در سازمان شما
- 38- مزایای یک تیم مرکزی SRE
- 39- بررسی آمادگی تولید
۸. نتیجهگیری دوره و مراحل بعدی
- 40 - اهداف یادگیری
- 41 - خلاصه دوره
- 42 - مراحل بعدی
نتیجهگیری
- 43 - جمعبندی
دوره های مرتبط
- دوره آموزشی آمادگی برای مدرک AWS DevOps Engineer Professional (DOP-C02)
- دوره آموزشی اصول و مبانی DevSecOps در DevOps
- دوره آموزشی توسعه مبتنی بر تست در دنیای هوش مصنوعی
- دوره آموزشی ایجاد برنامه امنیتی چندابری: استراتژی، پیادهسازی و روندهای نوظهور
- دوره آموزشی کارگاه امنیت میکروسرویسها: از ساخت تا استقرار در محیط عملیاتی
- دوره آموزشی بهبود جلسات با استفاده از تفکر لین (Lean Thinking)
- دوره آموزشی مقدمهای بر Azure Bicep: ایجاد و استقرار منابع
- دوره آموزشی مدلسازی تهدید پیشرفته و ارزیابی ریسک در DevSecOps