دوره آموزشی برنامه نویسی هوش مصنوعی مولد: از رمزگذارهای خودکار متغیر تا انتشار پایدار با PyTorch و Hugging Face
18 ساعت 17 دقیقهمتوسط2025-02-04
مدرسین

Pearson

Jonathan Dinu
جزئیات دوره
در این دوره، جاناتان دینو—آموزگار متعهد، نویسنده، و سخنران—یک تور تعاملی از مدلسازی تولیدی عمیق را ارائه میدهد. یاد بگیرید که چگونه مدلهای تولیدی خود را از ابتدا آموزش دهید تا تصاویری بینهایت ایجاد کنید. کشف کنید که چگونه میتوانید متن تولید کنید با استفاده از مدلهای زبان بزرگ مشابه آنچه که برنامههایی مانند ChatGPT را قدرت میبخشند. خط لوله متن به تصویر خود را بنویسید تا درک کنید مدلهای تولیدی مبتنی بر دستور چگونه کار میکنند. علاوه بر این، مدلهای پیشآموزش داده شده مانند Stable Diffusion را شخصیسازی کنید تا تصاویر سوژههای جدید را با سبکهای بصری منحصر به فرد تولید کنید. این دوره منبعی کاربردی برای تکمیل هر گونه دانش نظری یا مفهومی که دارید، به شما ارائه میدهد.
اهداف یادگیری:
✅ آموزش یک خودرمزگذار متغیر با PyTorch برای یادگیری فضای فشرده و نهفته تصاویر.
✅ تعریف چگونگی تولید و ویرایش چهرههای انسانی واقعگرایانه با استفاده از مدلهای دیفیوژن بدون شرط و SDEdit.
✅ استفاده از مدلهای زبان بزرگ مانند GPT2 برای تولید متن با استفاده از Hugging Face Transformers.
✅ جستجوی معنایی تصاویر مبتنی بر متن با استفاده از مدلهای چندمدلی مانند CLIP.
✅ نوشتن خط لوله متن به تصویر خودتان برای درک نحوه کار مدلهای تولیدی مبتنی بر دستور مانند Stable Diffusion.
✅ ارزیابی مدلهای تولیدی، هم از نظر کیفی و هم کمی.
✅ شناسایی نحوه نوشتن توضیحات برای تصاویر با استفاده از مدلهای پایه پیشآموزش داده شده.
✅ توضیح نحوه تولید تصاویر در یک سبک بصری خاص با استفاده مؤثر از LoRA برای فاینتیونینگ Stable Diffusion.
✅ ایجاد آواتارهای AI شخصیسازی شده با آموزش مدلهای پیشآموزش داده شده برای سوژهها و مفاهیم جدید با استفاده از Dreambooth.
✅ هدایت ساختار و ترکیب تصاویر تولیدی با استفاده از ControlNets شرطی بر اساس عمق و لبهها.
✅ انجام استنتاج تقریباً در زمان واقعی با SDXL Turbo برای ترجمه ویدیو به ویدیو مبتنی بر فریم.
اهداف یادگیری:
✅ آموزش یک خودرمزگذار متغیر با PyTorch برای یادگیری فضای فشرده و نهفته تصاویر.
✅ تعریف چگونگی تولید و ویرایش چهرههای انسانی واقعگرایانه با استفاده از مدلهای دیفیوژن بدون شرط و SDEdit.
✅ استفاده از مدلهای زبان بزرگ مانند GPT2 برای تولید متن با استفاده از Hugging Face Transformers.
✅ جستجوی معنایی تصاویر مبتنی بر متن با استفاده از مدلهای چندمدلی مانند CLIP.
✅ نوشتن خط لوله متن به تصویر خودتان برای درک نحوه کار مدلهای تولیدی مبتنی بر دستور مانند Stable Diffusion.
✅ ارزیابی مدلهای تولیدی، هم از نظر کیفی و هم کمی.
✅ شناسایی نحوه نوشتن توضیحات برای تصاویر با استفاده از مدلهای پایه پیشآموزش داده شده.
✅ توضیح نحوه تولید تصاویر در یک سبک بصری خاص با استفاده مؤثر از LoRA برای فاینتیونینگ Stable Diffusion.
✅ ایجاد آواتارهای AI شخصیسازی شده با آموزش مدلهای پیشآموزش داده شده برای سوژهها و مفاهیم جدید با استفاده از Dreambooth.
✅ هدایت ساختار و ترکیب تصاویر تولیدی با استفاده از ControlNets شرطی بر اساس عمق و لبهها.
✅ انجام استنتاج تقریباً در زمان واقعی با SDXL Turbo برای ترجمه ویدیو به ویدیو مبتنی بر فریم.
مهارت ها
Hugging FacePyTorchArtificial Intelligence for DesignNatural Language Processing (NLP)Programming FoundationsGenerative AIVideoPhotographyGraphic DesignArtificial Intelligence (AI)Animation and IllustrationOpen SourceSoftware DevelopmentOne-Off
سرفصل ها
0. مقدمه
- 01 - برنامه نویسی مولد AI - مقدمه
1. چیستی، چرایی و چگونگی هوش مصنوعی مولد
- 02 - موضوعات
- 03 - هوش مصنوعی مولد در طبیعت
- 04 - تعریف هوش مصنوعی مولد
- 05 - انبوهی از رسانه ها
- 06 - ماشینها چگونه ایجاد میکنند
- 07 - رسمی کردن مدلهای مولد
- 08 - مدلهای مولد در مقابل تمایز
- 09 - سه گانه مدل سازی مولد
- 10 - مقدمه ای بر Google Colab
2. PyTorch برای بی صبران
- 11 - موضوعات
- 12 - PyTorch چیست
- 13 - کیک لایه PyTorch
- 14 - سه راه نرمافزار یادگیری عمیق
- 15 - واقعاً تانسورها چیست
- 16 - تنسورها در PyTorch
- 17 - مقدمه ای بر نمودارهای محاسباتی
- 18 - تکثیر پشت سر فقط قانون زنجیره است
- 19 - انتشار بدون زحمت با torch.autograd
- 20 - انتزاع دستگاه PyTorch (یعنی GPU)
- 21 - کار با دستگاه ها
- 22 - اجزای یک الگوریتم یادگیری
- 23 - مقدمه ای بر شیب نزول
- 24 - رسیدن به شیب نزولی تصادفی (SGD)
- 25 - مقایسه نزول گرادیان و SGD
- 26 - رگرسیون خطی با PyTorch
- 27 - پرسپترونها و نورون ها
- 28 - لایهها و فعال سازی با torch.nn
- 29 - شبکههای عصبی پیشخور چند لایه (MLP)
3. فضای پنهان بر همه چیز در اطراف من حکومت میکند
- 30 - موضوعات
- 31 - نمایش تصاویر به صورت تانسور
- 32 - Desiderata برای بینایی کامپیوتری
- 33 - ویژگیهای شبکههای عصبی کانولوشن
- 34 - کار با تصاویر در پایتون
- 35 - مجموعه داده Fashion-MNIST
- 36 - شبکههای عصبی کانولوشن در PyTorch
- 37 - اجزای یک مدل متغیر پنهان (LVM)
- 38 - رمزگذار خودکار فروتن
- 39 - تعریف رمزگذار خودکار با PyTorch
- 40 - راهاندازی حلقه آموزشی
- 41 - استنباط با رمزگذار خودکار
- 42 - نگاه کن مادر، هیچ ویژگی
- 43 - افزودن احتمال به رمزگذارهای خودکار (VAE)
- 44 - استنتاج متغیر - نه فقط برای رمزگذارهای خودکار
- 45 - تبدیل خودکار رمزگذار به VAE
- 46 - آموزش VAE با PyTorch
- 47 - کاوش در فضای نهفته
- 48 - درونیابی فضای پنهان و بردارهای صفت
4. راز زدایی از انتشار
- 49 - موضوعات
- 50 - تولید به عنوان یک فرآیند برگشت پذیر
- 51 - نمونه برداری به عنوان حذف نویز تکراری
- 52 - Diffusers and the Hugging Face اکوسیستم
- 53 - تولید تصاویر با خطوط لوله دیفیوزر
- 54 - ساختارشکنی فرآیند انتشار
- 55 - فرآیند فوروارد به عنوان رمزگذار
- 56 - فرآیند معکوس به عنوان رمزگشا
- 57 - مدلهای نفوذ درون یابی
- 58 - ترجمه تصویر به تصویر با SDEdit
- 59 - بازیابی و بهبود تصویر
5. تولید و کدگذاری متن با ترانسفورماتورها
- 60 - موضوعات
- 61 - خط لوله پردازش زبان طبیعی
- 62 - مدلهای زاینده زبان
- 63 - تولید متن با خطوط لوله ترانسفورماتور
- 64 - تخریب خطوط لوله ترانسفورماتور
- 65 - راهبردهای رمزگشایی
- 66 - ترانسفورماتورها فقط مدلهای متغیر پنهان برای دنبالهها هستند
- 67 - تجسم و درک توجه
- 68 - تبدیل کلمات به بردار
- 69 - مدل فضای برداری
- 70 - تعبیه توالی با ترانسفورماتور
- 71 - محاسبه شباهت بین تعبیه ها
- 72 - جستجوی معنایی با جاسازی
- 73 - تعبیههای متضاد با ترانسفورماتور جمله
6. اتصال متن و تصاویر
- 74 - موضوعات
- 75 - اجزای یک مدل چندوجهی
- 76 - درک بینایی-زبان
- 77 - پیش آموزش زبان-تصویر متضاد
- 78 - تعبیه متن و تصاویر با CLIP
- 79 - طبقه بندی تصاویر صفر شات با CLIP
- 80 - جستجوی تصویر معنایی با CLIP
- 81 - مدلهای مولد مشروط
- 82 - مقدمه ای بر مدلهای انتشار نهفته
- 83 - معماری مدل انتشار پنهان
- 84 - حالتهای خرابی و ابزار اضافی
- 85 - انتشار پایدار تجزیه شد
- 86 - نوشتن خط لوله انتشار پایدار خود
- 87 - رمزگشایی تصاویر از فضای نهفته انتشار پایدار
- 88 - بهبود نسل با راهنمایی
- 89 - بازی با دستورات
7. رویههای پس از آموزش برای مدلهای انتشار
- 90 - موضوعات
- 91 - روشها و معیارهای ارزیابی هوش مصنوعی مولد
- 92 - ارزیابی دستی انتشار پایدار با DrawBench
- 93 - ارزیابی کمی مدلهای انتشار با پیشبینی کنندههای ترجیح انسانی
- 94 - مروری بر روشهای تنظیم دقیق مدلهای انتشار
- 95 - منبع یابی و آماده سازی مجموعه دادههای تصویری برای تنظیم دقیق
- 96 - ایجاد شرح خودکار با BLIP-2
- 97 - تنظیم دقیق کارآمد پارامتر با LoRa
- 98 - بازرسی از نتایج تنظیم دقیق
- 99 - استنتاج با LoRas برای تولید سبک خاص
- 100 - مرور مفهومی وارونگی متنی
- 101 - شخصی سازی موضوعی خاص با DreamBooth
- 102 - DreamBooth در مقابل تنظیم دقیق LoRa
- 103 - تنظیم دقیق DreamBooth با Hugging Face
- 104 - استنتاج با DreamBooth برای ایجاد آواتارهای هوش مصنوعی شخصی
- 105 - افزودن کنترل شرطی به مدلهای انتشار متن به تصویر
- 106 - ایجاد نقشههای لبه و عمق برای تهویه
- 107 - انتشار پایدار عمقی و لبه با ControlNet
- 108 - درک و آزمایش پارامترهای ControlNet
- 109 - جلوههای متنی تولیدی با نقشههای عمق فونت
- 110 - تولید چند مرحله ای با تقطیر انتشار مخالف (ADD)
- 111 - دلایل تقطیر
- 112 - مقایسه SDXL و SDXL Turbo
- 113 - ترجمه تصویر به تصویر با هدایت متن
- 114 - تولید فریم به فریم مبتنی بر ویدئو با SDXL Turbo
- 115 - استنتاج در زمان واقعی با بهینهسازی عملکرد PyTorch
نتیجه گیری
- 116 - برنامه نویسی مولد AI - خلاصه
دوره های مرتبط
- دوره آموزشی هوش مصنوعی عملی: ساخت اولین چتبات مکالمهای خودت
- دوره آموزشی ساخت برنامههای ارزیابی LLM با LangChain
- دوره آموزشی کارگاه هوش مصنوعی: ساخت برنامههای هوش مصنوعی با مدلهای Hugging Face
- دوره آموزشی تحلیل احساسات با هوش مصنوعی با استفاده از PyTorch و ترنسفورمرهای Hugging Face
- دوره آموزشی ساخت یک راهحل RAG از ابتدا
- دوره آموزشی مقدمه عملی بر Hugging Face برای توسعهدهندگان
- دوره آموزشی برنامههای پیشرفته RAG با پایگاههای داده برداری (Vector Databases)
- دوره آموزشی هوش مصنوعی تولیدی و مدلهای متنباز: تمرین عملی با مدلهای Hugging Face