دوره آموزشی یادگیری اصولی مهندسی قابلیت اطمینان سایت

جزئیات دوره

با این دوره ویدیویی جامع، قدرت مهندسی اطمینان سایت یا همون Site Reliability Engineering (SRE) رو باز کن! مهندسی اطمینان سایت یه رشته خیلی مهم و حیاتی توی دنیای فناوریه که ترکیبی از مهندسی نرم‌افزار و عملیات IT هست تا سیستم‌ها رو همیشه پایدار، مقیاس‌پذیر و با بهترین عملکرد نگه داره.

تو این دوره قراره عمیقاً با اصول و روش‌های پایه‌ای SRE آشنا بشی و یاد بگیری چطوری با استفاده از ابزارها و تکنیک‌ها، سیستم‌های قابل اعتماد بسازی و کارایی عملیات رو به شکل چشمگیری بالا ببری.
از مفاهیم کلیدی SRE مثل اهداف سطح سرویس (SLO)، شاخص‌های سطح سرویس (SLI) و بودجه خطا (Error Budget) گرفته، تا مثال‌های عملی که بتونی همین اصول رو تو سازمان خودت به کار بگیری.

همچنین یاد می‌گیری چطوری مدیریت رخدادها یا incident management رو به بهترین شکل انجام بدی؛ چطوری شیفت‌های آن‌کال (on-call) رو اداره کنی، اتاق‌های بحران (war rooms) برای اتفاقات حساس راه بندازی و جلسات بازنگری بدون مقصر (blameless postmortems) برگزار کنی تا از اشتباهات و شکست‌ها درس بگیری.
علاوه بر این، با استراتژی‌های مدیریت انتشار نرم‌افزار آشنا می‌شی که باعث می‌شه در زمان به‌روزرسانی‌ها کمترین تاثیر منفی رو روی کاربران داشته باشی، پایپ‌لاین CI/CD رو مانیتور کنی و انتشار تدریجی (progressive rollouts) رو پیاده سازی کنی.

اهداف یادگیری این دوره:
اصول پایه و مهم SRE رو پیاده‌سازی کنی تا سیستم‌هات همیشه پایدار و با عملکرد بالا باشن.
یه سیستم قوی برای نظارت و دیده‌بانی (monitoring و observability) با استفاده از داده‌های مهم مثل لاگ‌ها، متریک‌ها و ترِیس‌ها بسازی و بهینه کنی.
سلامت سیستم رو به بهترین شکل با استفاده از پلتفرم‌های دیده‌بانی بررسی کنی و عملکردش رو حفظ کنی.
از مفاهیم SLO، SLI و بودجه خطا استفاده کنی تا عملکرد و اطمینان سیستم رو بهتر کنی.
مدیریت رخدادها رو خوب یاد بگیری، اتاق‌های بحران راه بندازی و بدون مقصر جلسه بررسی شکست‌ها برگزار کنی تا یادگیری واقعی اتفاق بیفته.
معماری سیستم‌های قابل اعتماد طراحی کنی؛ شامل بارگذاری متعادل (load balancing)، مقیاس‌پذیری خودکار (auto-scaling) و پیاده‌سازی تئوری CAP برای استحکام سیستم.

سرفصل ها

۰. مقدمه

01 - مقدمه

۱. مقدمه‌ای بر مهندسی قابلیت اطمینان سایت

02 - اهداف یادگیری
03 - مهندسی قابلیت اطمینان سایت چیست؟
04 - اصول اساسی SRE
05 - مزایای SRE
06 - DevOps در مقابل SRE در مقابل مهندسی پلتفرم
07 - یک روز معمولی از یک SRE

۲. مشاهده‌پذیری

08 - اهداف یادگیری
09 - چه چیزی را باید نظارت کرد
10 - گزارش‌ها، معیارها و ردپاها
11 - چهار سیگنال طلایی
12 - سکوهای رصد
13 - نسخه آزمایشی - مانیتورینگ با استفاده از Splunk

۳. SLO، SLI و SLA

14 - اهداف یادگیری
15 - اهداف سطح خدمات (SLO)
16 - شاخص‌های سطح خدمات (SLI) و توافق‌نامه‌های سطح خدمات (SLA)
17- پیاده‌سازی SLOها - مثال‌های دنیای واقعی
18 - استفاده از بودجه‌بندی خطا
19 - نسخه آزمایشی - SLO SLI

۴. مدیریت حادثه، سبک SRE

20 - اهداف یادگیری
21- حوادث مدیریت‌شده در مقابل حوادث مدیریت‌نشده
22 - اداره اتاق‌های جنگ
23- انجام کالبدشکافی بی‌گناه
24- استفاده از قالب‌های پس از مرگ
25 - آماده به کار بودن

۵. معماری‌های سیستم قابل اعتماد

26 - اهداف یادگیری
27 - متعادل‌سازی بار
28 - مدیریت خطاها
29 - قضیه CAP و پیاده‌سازی آن
30 - مقیاس‌بندی خودکار

۶. مدیریت انتشار

31 - اهداف یادگیری
32 - انتشار تدریجی
33 - به حداقل رساندن تأثیر کاربر در طول انتشارها
34 - نظارت بر خط لوله CI CD
35 - برگرداندن تغییرات به حالت قبل

۷. پیاده‌سازی SRE

36 - اهداف یادگیری
37 - چهار روش برای پیاده‌سازی در سازمان شما
38- مزایای یک تیم مرکزی SRE
39- بررسی آمادگی تولید

۸. نتیجه‌گیری دوره و مراحل بعدی

40 - اهداف یادگیری
41 - خلاصه دوره
42 - مراحل بعدی

نتیجه‌گیری

43 - جمع‌بندی