دوره آموزشی راهنمای کامل ارزیابی مدل‌های زبان بزرگ (LLMها)

جزئیات دوره

تو این دوره جامع، سینان اوزدمیر، کارشناس خبره در هوش مصنوعی و مدل‌های زبانی بزرگ (LLM)، همه چیز رو درباره ارزیابی عملکرد این مدل‌ها بهت آموزش می‌ده. از آشنایی کامل با فرآیند ارزیابی مدل‌های زبانی بزرگ، هوش مصنوعی چندرسانه‌ای (Multimodal AI)، و برنامه‌های هوشمند مبتنی بر AI مثل ایجنت‌ها و RAG (تولید با بازیابی) گرفته تا روش‌های دقیق و حرفه‌ای برای سنجش و بهبود این ابزارهای قدرتمند اما پیچیده. با یادگیری این دوره، می‌تونی مطمئن بشی که مدل‌ها و برنامه‌های هوش مصنوعی که استفاده می‌کنی، بهترین عملکرد و کیفیت رو تو دنیای واقعی دارن.

با این مهارت‌ها، آماده می‌شی تا مدل‌های زبانی بزرگ رو به درستی ارزیابی و بهینه کنی و بهترین برنامه‌های هوش مصنوعی روز رو بسازی.

اهداف یادگیری:
تفاوت بین کارهای تولید محتوا و درک متن رو بفهمی
با معیارهای مهم ارزیابی برای انواع وظایف آشنا بشی
یاد بگیری چطور آزمون‌های چندگزینه‌ای (multiple-choice) رو ارزیابی کنی
بتونی پاسخ‌های متنی آزاد (free text) رو سنجش کنی
ارزیابی وظایف جاسازی (embedding) رو انجام بدی
کارهای دسته‌بندی (classification) رو ارزیابی کنی
با استفاده از BERT و ChatGPT یک دسته‌بند (classifier) مدل بسازی
مدل‌ها رو با بنچمارک‌ها (benchmark) بسنجی
مدل‌های زبانی رو به صورت عمیق بررسی کنی (probe)
تکنیک‌های تنظیم دقیق (fine-tuning) مدل‌ها رو یاد بگیری
داده‌ها رو برای کیفیت بهتر پاکسازی و ارزیابی کنی
عملکرد ایجنت‌های هوشمند رو بسنجی
سیستم‌های تولید همراه با بازیابی (RAG) رو ارزیابی کنی
موتورهای پیشنهاددهی (recommendation engines) رو بررسی کنی
با استفاده از ارزیابی، پدیده کاهش کیفیت AI یا AI drift رو کنترل کنی

سرفصل ها

۰. مقدمه

01 - ارزیابی LLM‌ها - مقدمه

1. مبانی ارزیابی LLM

02 - مباحث
03 - مقدمه‌ای بر ارزیابی - چرا اهمیت دارد
04 - وظایف تولیدی در مقابل وظایف فهمیدنی
05 - معیارهای کلیدی برای وظایف رایج

۲. ارزیابی وظایف تولیدی

06 - مباحث
07 - ارزیابی وظایف چند گزینه‌ای
08 - ارزیابی وظایف پاسخ متنی رایگان، بخش ۱
09 - ارزیابی وظایف پاسخ متنی رایگان، بخش ۲
10 - هوش مصنوعی ناظر بر هوش مصنوعی - کارشناسی ارشد حقوق به عنوان قاضی

۳. ارزیابی وظایف درک مطلب

11 - مباحث
12- ارزیابی وظایف جاسازی
13- ارزیابی وظایف طبقه‌بندی
14 - ساخت یک طبقه‌بندی‌کننده LLM با BERT و GPT

۴. استفاده مؤثر از معیارها

15 - مباحث
16 - نقش معیارها
17 - بررسی معیارهای رایج
18- ارزیابی LLM‌ها با معیارها

۵. بررسی LLM‌ها برای یک مدل جهانی

19 - مباحث
20- جستجوی دانش در LLM ها
21- تلاش برای بازی کردن LLM ها

۶. ارزیابی تنظیم دقیق LLM

22 - مباحث
23 - تنظیم دقیق اهداف
24 - معیارهایی برای موفقیت در تنظیم دقیق
25 - نمایش عملی - ارزیابی تنظیم دقیق
26 - ارزیابی و پاکسازی داده‌ها

۷. مطالعات موردی

27 - مباحث
28- ارزیابی عامل‌های هوش مصنوعی - اتوماسیون وظایف و یکپارچه‌سازی ابزار
29- سیستم‌های تولید افزوده بازیابی اندازه‌گیری (RAG)
30- ساخت و ارزیابی یک موتور پیشنهاد با استفاده از LLMها
31 - استفاده از ارزیابی برای مقابله با رانش هوش مصنوعی
32 - رگرسیون سری زمانی

۸. خلاصه ارزیابی و نگاه به آینده

33 - مباحث
34 - چه زمانی و چگونه ارزیابی کنیم
35- نگاهی به آینده - روندهای ارزیابی LLM

نتیجه‌گیری

36- ارزیابی دوره‌های کارشناسی ارشد حقوق - خلاصه