دوره آموزشی اصول هوش مصنوعی چندرسانهای: ترکیب متن، تصویر و صدا برای برنامههای نسل بعدی هوش مصنوعی
5 ساعت 33 دقیقهمتوسط2025-07-02
مدرسین

Pearson

Sinan Ozdemir
جزئیات دوره
تو این دوره یاد میگیری چطوری با ترکیب چند نوع داده مثل متن، صدا، تصویر و ویدیو، سیستمهای هوش مصنوعی رو بسازی که تواناییهای خیلی خاص و پیشرفتهای داشته باشن. این دوره بهت فرصت میده که خودت به صورت عملی مدلهایی بسازی مثل سیستمهای پرسش و پاسخ تصویری (Visual Question Answering)، تولید تصاویر شخصیسازی شده با روش انتشار (Diffusion)، طراحی برنامههای چندرسانهای کامل و حتی تنظیم دقیق مدلهای چندرسانهای برای کارهای خاص.
با این آموزش، ابزارها، دانش و اعتماد به نفس لازم رو به دست میاری تا سیستمهای هوش مصنوعی چندرسانهای مدرن رو از صفر طراحی و اجرا کنی و قابلیتهای فوقالعادهای به پروژههات اضافه کنی.
اهداف یادگیری:
با مفاهیم هوش مصنوعی چندرسانهای آشنا بشی و بتونی اونها رو به کار ببری
برنامههای تبدیل صدا به صدا (Voice-to-Voice) بسازی
با معماری و مفاهیم سیستمهای پرسش و پاسخ تصویری (VQA) آشنا بشی
مدلهای انتشار (Diffusion) رو با استفاده از DreamBooth بسازی، تنظیم کنی و ارزیابی کنی
مدلهای تبدیل متن به گفتار (Text-to-Speech) رو با SpeechT5 دقیقتر کنی
عاملهای تصویری (Visual Agents) از پایه طراحی کنی
عملکرد مدلهای چندرسانهای رو ارزیابی کنی
سیستمهای چندرسانهای رو با تکنیکهای پیشرفته مثل کاربرد کامپیوتر گسترش بدی
با این آموزش، ابزارها، دانش و اعتماد به نفس لازم رو به دست میاری تا سیستمهای هوش مصنوعی چندرسانهای مدرن رو از صفر طراحی و اجرا کنی و قابلیتهای فوقالعادهای به پروژههات اضافه کنی.
اهداف یادگیری:
با مفاهیم هوش مصنوعی چندرسانهای آشنا بشی و بتونی اونها رو به کار ببری
برنامههای تبدیل صدا به صدا (Voice-to-Voice) بسازی
با معماری و مفاهیم سیستمهای پرسش و پاسخ تصویری (VQA) آشنا بشی
مدلهای انتشار (Diffusion) رو با استفاده از DreamBooth بسازی، تنظیم کنی و ارزیابی کنی
مدلهای تبدیل متن به گفتار (Text-to-Speech) رو با SpeechT5 دقیقتر کنی
عاملهای تصویری (Visual Agents) از پایه طراحی کنی
عملکرد مدلهای چندرسانهای رو ارزیابی کنی
سیستمهای چندرسانهای رو با تکنیکهای پیشرفته مثل کاربرد کامپیوتر گسترش بدی
مهارت ها
Neural Networks and Deep LearningAI Productivity ToolsArtificial Intelligence FoundationsArtificial Intelligence for BusinessArtificial Intelligence (AI)Business Software and ToolsOne-Off
سرفصل ها
۰. مقدمه
- 01 - ملزومات هوش مصنوعی چندوجهی - مقدمه
۱. مقدمهای بر هوش مصنوعی چندوجهی
- 02 - مباحث
- 03 - مروری بر مفاهیم هوش مصنوعی چندوجهی
- 04 - انواع دادهها در سیستمهای چندوجهی
- 05 - ساخت یک برنامه تبدیل صدا به صدا
۲. ساخت مدلهای پرسش و پاسخ بصری (VQA)
- 06 - مباحث
- 07 - درک VQA - مفاهیم و معماری
- 08 - ترکیب روشها برای انجام VQA، بخش ۱
- 09 - ترکیب روشها برای انجام VQA، بخش 2
- 10 - ترکیب روشها برای انجام VQA، بخش ۳
- 11 - ترکیب روشها برای انجام VQA، بخش ۱
- 12 - ترکیب روشها برای انجام VQA، بخش ۲
۳. بررسی مدلهای انتشار
- 13 - مباحث
- 14- مقدمهای بر مدلهای انتشار
- 15 - عملی - پیادهسازی مدلهای انتشار با DreamBooth
۴. توسعه سیستمهای هوش مصنوعی چندوجهی
- 16 - مباحث
- 17- طراحی سیستمهای هوش مصنوعی چندوجهی
- 18 - تنظیم دقیق مدل تبدیل متن به گفتار با T5
- 19- ساخت عوامل بصری
۵. ارزیابی و آزمایش سیستمهای هوش مصنوعی چندوجهی
- 20 - مباحث
- 21- ارزیابی مدلهای چندوجهی - دقت و عملکرد
- 22- تعصب و اخلاق در چندوجهی بودن
۶. گسترش و بهکارگیری هوش مصنوعی چندوجهی
- 23 - مباحث
- 24 - توسعه سیستمهای چندوجهی با تکنیکهای پیشرفته
- 25 - روندها و نوآوریهای آینده در هوش مصنوعی چندوجهی
نتیجهگیری
- 26 - ملزومات هوش مصنوعی چندوجهی - خلاصه
دوره های مرتبط
- دوره آموزشی مبانی هوش مصنوعی: شبکه های عصبی
- دوره آموزشی کارگاه هوش مصنوعی: ساخت شبکه عصبی با PyTorch Lightning
- دوره آموزشی کارگاه هوش مصنوعی: تمرین عملی با GANها با استفاده از شبکههای کانولوشنال عمیق
- دوره آموزشی معرفی عملی مدلهای ترنسفورمر برای بینایی کامپیوتری
- دوره آموزشی یادگیری عمیق با پایتون: شبکههای عصبی کانولوشنی
- دوره آموزشی هوش مصنوعی عملی: پردازش تصویر با پایتون
- دوره آموزشی یادگیری عمیق و بینایی ماشین: شناسایی اشیاء با استفاده از PyTorch
- دوره آموزشی هوش مصنوعی عملی: پروژههای بینایی کامپیوتری با Ultralytics و OpenCV