دوره آموزشی تسلط بر مدل‌های استدلال: الگوریتم‌ها، بهینه‌سازی و کاربردها

جزئیات دوره

این دوره یک بررسی کامل و عملی از مدل‌های استدلالی مدرن ارائه می‌ده و روی نوآوری‌های الگوریتمی تمرکز می‌کنه که پشت مدل‌هایی مثل DeepSeek R1، OpenAI o1 و نسخه‌های متن‌باز مشابه قرار دارن.

توی این دوره، چهار روش اصلی برای ساخت مدل‌های بزرگ زبانی استدلالی (Reasoning LLMs) رو یاد می‌گیری: افزایش مقیاس زمان اجرا (inference-time scaling)، یادگیری تقویتی خالص (pure RL)، SFT+RL و Knowledge Distillation.
با مثال‌های واقعی و تحلیل‌های فنی، یاد می‌گیری چطور مقیاس‌دهی محاسباتی هنگام تست، مکانیک‌های Group Relative Policy Optimization (GRPO) و پیاده‌سازی خطوط پردازشی مؤثر برای وظایف استدلالی رو انجام بدی.

در پایان، هم دانش نظری و هم مهارت عملی لازم برای استفاده از این تکنیک‌های پیشرفته در پروژه‌های خودت رو داری، چه منابع محاسباتی سازمانی داشته باشی و چه بودجه محاسباتی محدود.

🎯 اهداف یادگیری
تشخیص و مقایسه روش‌های مختلف ساخت مدل‌های استدلالی و بررسی مزایا و معایب هر کدام
پیاده‌سازی و بهینه‌سازی تکنیک‌های مقیاس‌دهی محاسباتی هنگام تست شامل Majority Voting، Best-of-N و Beam Search
درک اصول Group Relative Policy Optimization (GRPO) و تفاوت آن با روش‌های استاندارد RLHF
استفاده از دانش معماری‌های مختلف مدل‌های استدلالی برای تصمیم‌گیری هوشمندانه در پیاده‌سازی
انتخاب تکنیک استدلال مناسب با توجه به محدودیت‌های محاسباتی و نیازهای کاربردی

سرفصل ها

مقدمه

چرا به مدل‌های استدلال نیاز دارید؟

قدرت مدل‌های استدلال

تغییر به مدل‌های استدلالی
چشم‌انداز استدلال

چهار رویکرد برای ساخت مدل‌های استدلال

مقیاس‌بندی زمان استنتاج
یادگیری تقویتی محض (RL)
تنظیم دقیق تحت نظارت (SFT) و RL
تقطیر و SFT خالص

بررسی عمیق مقیاس‌پذیری محاسباتی زمان آزمون

رأی اکثریت و خود-سازگاری
بهترین از n و تجمیع وزنی
جستجوی پرتو با مدل‌های پاداش فرآیند
جستجوی درخت تأییدکننده متنوع (DVTS)

یادگیری تقویتی برای استدلال

فراتر از RLHF - بهینه‌سازی سیاست نسبی گروهی (GRPO)
توابع پاداش برای استدلال
لحظه‌ی کشف حقیقت - خود-تاییدی از طریق یادگیری تقویتی

ساخت سیستم‌های استدلال کارآمد

محاسبه مقیاس‌بندی بهینه در تولید
مدل‌های استدلال مقرون‌به‌صرفه
ایجاد تعادل بین هزینه و عملکرد

نتیجه‌گیری

مسیرهای آینده در LLM‌های استدلال