مسیر آموزشی Speech and Audio specialist
مسیر آموزشی Speech and Audio specialist
ساعت آموزشی مورد نیاز: 120 ساعت
مدرس: دکتر مهدی شکری زاده (دکتری پردازش سیگنال از امپریال کالج لندن)
مخاطبین: این دوره برای دانشجویان و فارغ التحصیلان رشته های مهندسی برق، کامپیوتر، هوش مصنوعی و سایر رشته های مرتبط که علاقه مند به فعالیت در زمینه پردازش گفتار و صوت هستند، مناسب است.
هدف برگزاری: این دوره جامع به شرکت کنندگان دانش و مهارت های لازم برای کار در زمینه پردازش گفتار و صوت با استفاده از تکنیک های پیشرفته یادگیری عمیق را ارائه می دهد. شرکت کنندگان با مبانی نظری و عملی پردازش سیگنال های صوتی، تکنیک های یادگیری ماشین و شبکه های عصبی عمیق، و کاربردهای آنها در حوزه گفتار و صوت آشنا خواهند شد.
پیشنیاز:
- آشنایی با مبانی ریاضیات (حسابان، جبر خطی، احتمالات)
- آشنایی با برنامهنویسی پایتون
- آشنایی با مبانی یادگیری ماشین
شرح سرفصلها:
بخش اول: مبانی پردازش سیگنال های صوتی
فصل 1: مقدمه ای بر صوت و گفتار
ماهیت صوت و گفتار
سیگنال های صوتی دیجیتال
تبدیل آنالوگ به دیجیتال و دیجیتال به آنالوگ
ویژگی های سیگنال های صوتی
فصل 2: تحلیل سیگنالهای صوتی در حوزه زمان
پارامترهای زمان سیگنال های صوتی (دامنه، فرکانس، طول)
پنجره زنی و تحلیل کوتاه مدت
انرژی و توان سیگنال های صوتی
فصل 3: تحلیل سیگنالهای صوتی در حوزه فرکانس
تبدیل فوریه گسسته (DFT) و FFT
طیف نگاشت (Spectrogram)
Melfrequency Cepstral Coefficients (MFCCs)
فصل 4: ویژگی های سیگنال های صوتی
ویژگی های زمان محور (Zero-Crossing Rate, Short-Time Energy)
ویژگی های فرکانس محور (Spectral Centroid, Spectral Bandwidth)
ویژگی های ادراکی (MFCCs, Chroma Features)
بخش دوم: یادگیری ماشین و یادگیری عمیق برای گفتار و صوت
فصل 5: یادگیری ماشین کلاسیک
یادگیری با نظارت، بدون نظارت و نیمه نظارت
الگوریتمهای دستهبندی (k-NN, SVM, Decision Tree)
الگوریتمهای رگرسیون (Linear Regression, Polynomial Regression)
معیارهای ارزیابی عملکرد مدلها
فصل 6: یادگیری عمیق
شبکههای عصبی مصنوعی (ANN)
شبکههای کانولوشنال (CNN)
شبکههای بازگشتی (RNN)
شبکه هایLSTM و GRU
Autoencoders
فصل 7: کاربردهای یادگیری عمیق در گفتار و صوت
تشخیص گفتار (Speech Recognition)
تشخیص گوینده (Speaker Recognition)
تبدیل متن به گفتار (Text-to-Speech)
کاهش نویز و بهبود کیفیت صدا
تشخیص احساسات از روی صدا
موسیقی و پردازش صدا
بخش سوم: پروژه های عملی و مباحث پیشرفته
فصل 8: پروژه های عملی
پروژه 1: تشخیص کلمات کلیدی
پروژه 2: تشخیص گوینده
پروژه 3: تبدیل متن به گفتار
پروژه 4: کاهش نویز صدا
فصل 9: مباحث پیشرفته
مدل های زبانی (Language Models)
توجه (Attention)
Transformer
مدل های مولد صدا (Generative Models for Audio)

دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.