تخفیف ویژه همین الان — دوره‌های تخفیف‌دار را ببینید.
روز
:
ساعت
:
دقیقه
:
ثانیه
تخفیف‌های ویژه
دوره آموزشی تسلط بر مدل‌های استدلال: الگوریتم‌ها، بهینه‌سازی و کاربردها

دوره آموزشی تسلط بر مدل‌های استدلال: الگوریتم‌ها، بهینه‌سازی و کاربردها

1 ساعت 20 دقیقهپیشرفته2025-10-06

مدرسین

Nayan Saxena

Nayan Saxena

جزئیات دوره

این دوره یک بررسی کامل و عملی از مدل‌های استدلالی مدرن ارائه می‌ده و روی نوآوری‌های الگوریتمی تمرکز می‌کنه که پشت مدل‌هایی مثل DeepSeek R1، OpenAI o1 و نسخه‌های متن‌باز مشابه قرار دارن.

توی این دوره، چهار روش اصلی برای ساخت مدل‌های بزرگ زبانی استدلالی (Reasoning LLMs) رو یاد می‌گیری: افزایش مقیاس زمان اجرا (inference-time scaling)، یادگیری تقویتی خالص (pure RL)، SFT+RL و Knowledge Distillation.
با مثال‌های واقعی و تحلیل‌های فنی، یاد می‌گیری چطور مقیاس‌دهی محاسباتی هنگام تست، مکانیک‌های Group Relative Policy Optimization (GRPO) و پیاده‌سازی خطوط پردازشی مؤثر برای وظایف استدلالی رو انجام بدی.

در پایان، هم دانش نظری و هم مهارت عملی لازم برای استفاده از این تکنیک‌های پیشرفته در پروژه‌های خودت رو داری، چه منابع محاسباتی سازمانی داشته باشی و چه بودجه محاسباتی محدود.

🎯 اهداف یادگیری
تشخیص و مقایسه روش‌های مختلف ساخت مدل‌های استدلالی و بررسی مزایا و معایب هر کدام
پیاده‌سازی و بهینه‌سازی تکنیک‌های مقیاس‌دهی محاسباتی هنگام تست شامل Majority Voting، Best-of-N و Beam Search
درک اصول Group Relative Policy Optimization (GRPO) و تفاوت آن با روش‌های استاندارد RLHF
استفاده از دانش معماری‌های مختلف مدل‌های استدلالی برای تصمیم‌گیری هوشمندانه در پیاده‌سازی
انتخاب تکنیک استدلال مناسب با توجه به محدودیت‌های محاسباتی و نیازهای کاربردی

سرفصل ها

مقدمه

  • چرا به مدل‌های استدلال نیاز دارید؟

قدرت مدل‌های استدلال

  • تغییر به مدل‌های استدلالی
  • چشم‌انداز استدلال

چهار رویکرد برای ساخت مدل‌های استدلال

  • مقیاس‌بندی زمان استنتاج
  • یادگیری تقویتی محض (RL)
  • تنظیم دقیق تحت نظارت (SFT) و RL
  • تقطیر و SFT خالص

بررسی عمیق مقیاس‌پذیری محاسباتی زمان آزمون

  • رأی اکثریت و خود-سازگاری
  • بهترین از n و تجمیع وزنی
  • جستجوی پرتو با مدل‌های پاداش فرآیند
  • جستجوی درخت تأییدکننده متنوع (DVTS)

یادگیری تقویتی برای استدلال

  • فراتر از RLHF - بهینه‌سازی سیاست نسبی گروهی (GRPO)
  • توابع پاداش برای استدلال
  • لحظه‌ی کشف حقیقت - خود-تاییدی از طریق یادگیری تقویتی

ساخت سیستم‌های استدلال کارآمد

  • محاسبه مقیاس‌بندی بهینه در تولید
  • مدل‌های استدلال مقرون‌به‌صرفه
  • ایجاد تعادل بین هزینه و عملکرد

نتیجه‌گیری

  • مسیرهای آینده در LLM‌های استدلال

دوره های مرتبط

درباره ما

لینداکده یک بستر یادگیری پیشرو است که به افراد کمک می کند تا کسب و کار ، نرم افزار ، فناوری و مهارت‌های خلاقانه را برای دستیابی به اهداف شخصی و حرفه ای بیاموزد.

شماره تلفنکانال آپاراتپشتیبانی تلگرامکانال تلگرامپیج اینستاگرام

کلیه‌ی حقوق این سایت متعلق به لینداکده می باشد

قوانین و شرایط|حریم خصوصی

نماد الکترونیک enamad در صورت اتصال با آی‌پی داخل کشور، نمایش داده خواهد شد.
logo-samandehi - لوگو ساماندهی
zarinpal
zibal