دوره آموزشی تسلط بر مدلهای استدلال: الگوریتمها، بهینهسازی و کاربردها
1 ساعت 20 دقیقهپیشرفته2025-10-06
مدرسین

Nayan Saxena
جزئیات دوره
این دوره یک بررسی کامل و عملی از مدلهای استدلالی مدرن ارائه میده و روی نوآوریهای الگوریتمی تمرکز میکنه که پشت مدلهایی مثل DeepSeek R1، OpenAI o1 و نسخههای متنباز مشابه قرار دارن.
توی این دوره، چهار روش اصلی برای ساخت مدلهای بزرگ زبانی استدلالی (Reasoning LLMs) رو یاد میگیری: افزایش مقیاس زمان اجرا (inference-time scaling)، یادگیری تقویتی خالص (pure RL)، SFT+RL و Knowledge Distillation.
با مثالهای واقعی و تحلیلهای فنی، یاد میگیری چطور مقیاسدهی محاسباتی هنگام تست، مکانیکهای Group Relative Policy Optimization (GRPO) و پیادهسازی خطوط پردازشی مؤثر برای وظایف استدلالی رو انجام بدی.
در پایان، هم دانش نظری و هم مهارت عملی لازم برای استفاده از این تکنیکهای پیشرفته در پروژههای خودت رو داری، چه منابع محاسباتی سازمانی داشته باشی و چه بودجه محاسباتی محدود.
🎯 اهداف یادگیری
تشخیص و مقایسه روشهای مختلف ساخت مدلهای استدلالی و بررسی مزایا و معایب هر کدام
پیادهسازی و بهینهسازی تکنیکهای مقیاسدهی محاسباتی هنگام تست شامل Majority Voting، Best-of-N و Beam Search
درک اصول Group Relative Policy Optimization (GRPO) و تفاوت آن با روشهای استاندارد RLHF
استفاده از دانش معماریهای مختلف مدلهای استدلالی برای تصمیمگیری هوشمندانه در پیادهسازی
انتخاب تکنیک استدلال مناسب با توجه به محدودیتهای محاسباتی و نیازهای کاربردی
توی این دوره، چهار روش اصلی برای ساخت مدلهای بزرگ زبانی استدلالی (Reasoning LLMs) رو یاد میگیری: افزایش مقیاس زمان اجرا (inference-time scaling)، یادگیری تقویتی خالص (pure RL)، SFT+RL و Knowledge Distillation.
با مثالهای واقعی و تحلیلهای فنی، یاد میگیری چطور مقیاسدهی محاسباتی هنگام تست، مکانیکهای Group Relative Policy Optimization (GRPO) و پیادهسازی خطوط پردازشی مؤثر برای وظایف استدلالی رو انجام بدی.
در پایان، هم دانش نظری و هم مهارت عملی لازم برای استفاده از این تکنیکهای پیشرفته در پروژههای خودت رو داری، چه منابع محاسباتی سازمانی داشته باشی و چه بودجه محاسباتی محدود.
🎯 اهداف یادگیری
تشخیص و مقایسه روشهای مختلف ساخت مدلهای استدلالی و بررسی مزایا و معایب هر کدام
پیادهسازی و بهینهسازی تکنیکهای مقیاسدهی محاسباتی هنگام تست شامل Majority Voting، Best-of-N و Beam Search
درک اصول Group Relative Policy Optimization (GRPO) و تفاوت آن با روشهای استاندارد RLHF
استفاده از دانش معماریهای مختلف مدلهای استدلالی برای تصمیمگیری هوشمندانه در پیادهسازی
انتخاب تکنیک استدلال مناسب با توجه به محدودیتهای محاسباتی و نیازهای کاربردی
سرفصل ها
مقدمه
- چرا به مدلهای استدلال نیاز دارید؟
قدرت مدلهای استدلال
- تغییر به مدلهای استدلالی
- چشمانداز استدلال
چهار رویکرد برای ساخت مدلهای استدلال
- مقیاسبندی زمان استنتاج
- یادگیری تقویتی محض (RL)
- تنظیم دقیق تحت نظارت (SFT) و RL
- تقطیر و SFT خالص
بررسی عمیق مقیاسپذیری محاسباتی زمان آزمون
- رأی اکثریت و خود-سازگاری
- بهترین از n و تجمیع وزنی
- جستجوی پرتو با مدلهای پاداش فرآیند
- جستجوی درخت تأییدکننده متنوع (DVTS)
یادگیری تقویتی برای استدلال
- فراتر از RLHF - بهینهسازی سیاست نسبی گروهی (GRPO)
- توابع پاداش برای استدلال
- لحظهی کشف حقیقت - خود-تاییدی از طریق یادگیری تقویتی
ساخت سیستمهای استدلال کارآمد
- محاسبه مقیاسبندی بهینه در تولید
- مدلهای استدلال مقرونبهصرفه
- ایجاد تعادل بین هزینه و عملکرد
نتیجهگیری
- مسیرهای آینده در LLMهای استدلال
دوره های مرتبط
- دوره آموزشی تسلط بر سوالات رایج مصاحبه
- دوره آموزشی تسلط بر مکالمات در خرده فروشی
- دوره آموزشی تسلط بر Selections در فتوشاپ CC
- دوره آموزشی تسلط بر گزارشات گرافیکی پروژه مایکروسافت
- دوره آموزشی تسلط بر پنل صوتی در پریمیر پرو
- دوره آموزشی تسلط بر پنل گرافیک در پریمیر پرو
- دوره آموزشی تسلط بر نقشه برداری UVW در هودینی 16.5
- دوره آموزشی تسلط بر ادوبی کمرا راو (2021)