دوره آموزشی برنامه نویسی هوش مصنوعی مولد: از رمزگذارهای خودکار متغیر تا انتشار پایدار با PyTorch و Hugging Face

18 ساعت 17 دقیقهمتوسط2025-02-04

مدرسین

Pearson

Jonathan Dinu

جزئیات دوره

در این دوره، جاناتان دینو—آموزگار متعهد، نویسنده، و سخنران—یک تور تعاملی از مدل‌سازی تولیدی عمیق را ارائه می‌دهد. یاد بگیرید که چگونه مدل‌های تولیدی خود را از ابتدا آموزش دهید تا تصاویری بی‌نهایت ایجاد کنید. کشف کنید که چگونه می‌توانید متن تولید کنید با استفاده از مدل‌های زبان بزرگ مشابه آنچه که برنامه‌هایی مانند ChatGPT را قدرت می‌بخشند. خط لوله متن به تصویر خود را بنویسید تا درک کنید مدل‌های تولیدی مبتنی بر دستور چگونه کار می‌کنند. علاوه بر این، مدل‌های پیش‌آموزش داده شده مانند Stable Diffusion را شخصی‌سازی کنید تا تصاویر سوژه‌های جدید را با سبک‌های بصری منحصر به فرد تولید کنید. این دوره منبعی کاربردی برای تکمیل هر گونه دانش نظری یا مفهومی که دارید، به شما ارائه می‌دهد.

اهداف یادگیری:
✅ آموزش یک خودرمزگذار متغیر با PyTorch برای یادگیری فضای فشرده و نهفته تصاویر.
✅ تعریف چگونگی تولید و ویرایش چهره‌های انسانی واقع‌گرایانه با استفاده از مدل‌های دیفیوژن بدون شرط و SDEdit.
✅ استفاده از مدل‌های زبان بزرگ مانند GPT2 برای تولید متن با استفاده از Hugging Face Transformers.
✅ جستجوی معنایی تصاویر مبتنی بر متن با استفاده از مدل‌های چندمدلی مانند CLIP.
✅ نوشتن خط لوله متن به تصویر خودتان برای درک نحوه کار مدل‌های تولیدی مبتنی بر دستور مانند Stable Diffusion.
✅ ارزیابی مدل‌های تولیدی، هم از نظر کیفی و هم کمی.
✅ شناسایی نحوه نوشتن توضیحات برای تصاویر با استفاده از مدل‌های پایه پیش‌آموزش داده شده.
✅ توضیح نحوه تولید تصاویر در یک سبک بصری خاص با استفاده مؤثر از LoRA برای فاین‌تیونینگ Stable Diffusion.
✅ ایجاد آواتارهای AI شخصی‌سازی شده با آموزش مدل‌های پیش‌آموزش داده شده برای سوژه‌ها و مفاهیم جدید با استفاده از Dreambooth.
✅ هدایت ساختار و ترکیب تصاویر تولیدی با استفاده از ControlNets شرطی بر اساس عمق و لبه‌ها.
✅ انجام استنتاج تقریباً در زمان واقعی با SDXL Turbo برای ترجمه ویدیو به ویدیو مبتنی بر فریم.

مهارت ها

Hugging FacePyTorchArtificial Intelligence for DesignNatural Language Processing (NLP)Programming FoundationsGenerative AIVideoPhotographyGraphic DesignArtificial Intelligence (AI)Animation and IllustrationOpen SourceSoftware DevelopmentOne-Off

سرفصل ها

0. مقدمه

01 - برنامه نویسی مولد AI - مقدمه

1. چیستی، چرایی و چگونگی هوش مصنوعی مولد

02 - موضوعات
03 - هوش مصنوعی مولد در طبیعت
04 - تعریف هوش مصنوعی مولد
05 - انبوهی از رسانه ها
06 - ماشین‌ها چگونه ایجاد می‌کنند
07 - رسمی کردن مدل‌های مولد
08 - مدل‌های مولد در مقابل تمایز
09 - سه گانه مدل سازی مولد
10 - مقدمه ای بر Google Colab

2. PyTorch برای بی صبران

11 - موضوعات
12 - PyTorch چیست
13 - کیک لایه PyTorch
14 - سه راه نرم‌افزار یادگیری عمیق
15 - واقعاً تانسورها چیست
16 - تنسورها در PyTorch
17 - مقدمه ای بر نمودارهای محاسباتی
18 - تکثیر پشت سر فقط قانون زنجیره است
19 - انتشار بدون زحمت با torch.autograd
20 - انتزاع دستگاه PyTorch (یعنی GPU)
21 - کار با دستگاه ها
22 - اجزای یک الگوریتم یادگیری
23 - مقدمه ای بر شیب نزول
24 - رسیدن به شیب نزولی تصادفی (SGD)
25 - مقایسه نزول گرادیان و SGD
26 - رگرسیون خطی با PyTorch
27 - پرسپترون‌ها و نورون ها
28 - لایه‌ها و فعال سازی با torch.nn
29 - شبکه‌های عصبی پیشخور چند لایه (MLP)

3. فضای پنهان بر همه چیز در اطراف من حکومت می‌کند

30 - موضوعات
31 - نمایش تصاویر به صورت تانسور
32 - Desiderata برای بینایی کامپیوتری
33 - ویژگی‌های شبکه‌های عصبی کانولوشن
34 - کار با تصاویر در پایتون
35 - مجموعه داده Fashion-MNIST
36 - شبکه‌های عصبی کانولوشن در PyTorch
37 - اجزای یک مدل متغیر پنهان (LVM)
38 - رمزگذار خودکار فروتن
39 - تعریف رمزگذار خودکار با PyTorch
40 - راه‌اندازی حلقه آموزشی
41 - استنباط با رمزگذار خودکار
42 - نگاه کن مادر، هیچ ویژگی
43 - افزودن احتمال به رمزگذارهای خودکار (VAE)
44 - استنتاج متغیر - نه فقط برای رمزگذارهای خودکار
45 - تبدیل خودکار رمزگذار به VAE
46 - آموزش VAE با PyTorch
47 - کاوش در فضای نهفته
48 - درونیابی فضای پنهان و بردارهای صفت

4. راز زدایی از انتشار

49 - موضوعات
50 - تولید به عنوان یک فرآیند برگشت پذیر
51 - نمونه برداری به عنوان حذف نویز تکراری
52 - Diffusers and the Hugging Face اکوسیستم
53 - تولید تصاویر با خطوط لوله دیفیوزر
54 - ساختارشکنی فرآیند انتشار
55 - فرآیند فوروارد به عنوان رمزگذار
56 - فرآیند معکوس به عنوان رمزگشا
57 - مدل‌های نفوذ درون یابی
58 - ترجمه تصویر به تصویر با SDEdit
59 - بازیابی و بهبود تصویر

5. تولید و کدگذاری متن با ترانسفورماتورها

60 - موضوعات
61 - خط لوله پردازش زبان طبیعی
62 - مدل‌های زاینده زبان
63 - تولید متن با خطوط لوله ترانسفورماتور
64 - تخریب خطوط لوله ترانسفورماتور
65 - راهبردهای رمزگشایی
66 - ترانسفورماتورها فقط مدلهای متغیر پنهان برای دنباله‌ها هستند
67 - تجسم و درک توجه
68 - تبدیل کلمات به بردار
69 - مدل فضای برداری
70 - تعبیه توالی با ترانسفورماتور
71 - محاسبه شباهت بین تعبیه ها
72 - جستجوی معنایی با جاسازی
73 - تعبیه‌های متضاد با ترانسفورماتور جمله

6. اتصال متن و تصاویر

74 - موضوعات
75 - اجزای یک مدل چندوجهی
76 - درک بینایی-زبان
77 - پیش آموزش زبان-تصویر متضاد
78 - تعبیه متن و تصاویر با CLIP
79 - طبقه بندی تصاویر صفر شات با CLIP
80 - جستجوی تصویر معنایی با CLIP
81 - مدل‌های مولد مشروط
82 - مقدمه ای بر مدل‌های انتشار نهفته
83 - معماری مدل انتشار پنهان
84 - حالت‌های خرابی و ابزار اضافی
85 - انتشار پایدار تجزیه شد
86 - نوشتن خط لوله انتشار پایدار خود
87 - رمزگشایی تصاویر از فضای نهفته انتشار پایدار
88 - بهبود نسل با راهنمایی
89 - بازی با دستورات

7. رویه‌های پس از آموزش برای مدل‌های انتشار

90 - موضوعات
91 - روش‌ها و معیارهای ارزیابی هوش مصنوعی مولد
92 - ارزیابی دستی انتشار پایدار با DrawBench
93 - ارزیابی کمی مدل‌های انتشار با پیش‌بینی کننده‌های ترجیح انسانی
94 - مروری بر روش‌های تنظیم دقیق مدل‌های انتشار
95 - منبع یابی و آماده سازی مجموعه داده‌های تصویری برای تنظیم دقیق
96 - ایجاد شرح خودکار با BLIP-2
97 - تنظیم دقیق کارآمد پارامتر با LoRa
98 - بازرسی از نتایج تنظیم دقیق
99 - استنتاج با LoRas برای تولید سبک خاص
100 - مرور مفهومی وارونگی متنی
101 - شخصی سازی موضوعی خاص با DreamBooth
102 - DreamBooth در مقابل تنظیم دقیق LoRa
103 - تنظیم دقیق DreamBooth با Hugging Face
104 - استنتاج با DreamBooth برای ایجاد آواتارهای هوش مصنوعی شخصی
105 - افزودن کنترل شرطی به مدل‌های انتشار متن به تصویر
106 - ایجاد نقشه‌های لبه و عمق برای تهویه
107 - انتشار پایدار عمقی و لبه با ControlNet
108 - درک و آزمایش پارامترهای ControlNet
109 - جلوه‌های متنی تولیدی با نقشه‌های عمق فونت
110 - تولید چند مرحله ای با تقطیر انتشار مخالف (ADD)
111 - دلایل تقطیر
112 - مقایسه SDXL و SDXL Turbo
113 - ترجمه تصویر به تصویر با هدایت متن
114 - تولید فریم به فریم مبتنی بر ویدئو با SDXL Turbo
115 - استنتاج در زمان واقعی با بهینه‌سازی عملکرد PyTorch

نتیجه گیری

116 - برنامه نویسی مولد AI - خلاصه