مسیر آموزشی Speech and Audio specialist

توضیحات

مسیر آموزشی Speech and Audio specialist

ساعت آموزشی مورد نیاز: 120 ساعت

مدرس: دکتر مهدی شکری زاده (دکتری پردازش سیگنال از امپریال کالج لندن)

مخاطبین: این دوره برای دانشجویان و فارغ التحصیلان رشته های مهندسی برق، کامپیوتر، هوش مصنوعی و سایر رشته های مرتبط که علاقه مند به فعالیت در زمینه پردازش گفتار و صوت هستند، مناسب است.

هدف برگزاری:  این دوره جامع به شرکت کنندگان دانش و مهارت های لازم برای کار در زمینه پردازش گفتار و صوت با استفاده از تکنیک های پیشرفته یادگیری عمیق را ارائه می دهد. شرکت کنندگان با مبانی نظری و عملی پردازش سیگنال های صوتی، تکنیک های یادگیری ماشین و شبکه های عصبی عمیق، و کاربردهای آنها در حوزه گفتار و صوت آشنا خواهند شد.

پیش‌نیاز:

  • آشنایی با مبانی ریاضیات (حسابان، جبر خطی، احتمالات)
  • آشنایی با برنامه‌نویسی پایتون
  • آشنایی با مبانی یادگیری ماشین

شرح سرفصل‌ها:

بخش اول: مبانی پردازش سیگنال های صوتی

فصل 1: مقدمه ای بر صوت و گفتار

ماهیت صوت و گفتار

سیگنال های صوتی دیجیتال

تبدیل آنالوگ به دیجیتال و دیجیتال به آنالوگ

ویژگی های سیگنال های صوتی

 

فصل 2: تحلیل سیگنال‌های صوتی در حوزه زمان

پارامترهای زمان سیگنال های صوتی (دامنه، فرکانس، طول)

پنجره زنی و تحلیل کوتاه مدت

انرژی و توان سیگنال های صوتی

 

فصل 3: تحلیل سیگنال‌های صوتی در حوزه فرکانس

تبدیل فوریه گسسته (DFT) و FFT

طیف نگاشت (Spectrogram)

Melfrequency Cepstral Coefficients (MFCCs)

فصل 4: ویژگی های سیگنال های صوتی

ویژگی های زمان محور (Zero-Crossing Rate, Short-Time Energy)

ویژگی های فرکانس محور (Spectral Centroid, Spectral Bandwidth)

ویژگی های ادراکی (MFCCs, Chroma Features)

 

بخش دوم: یادگیری ماشین و یادگیری عمیق برای گفتار و صوت

 

فصل 5: یادگیری ماشین کلاسیک

یادگیری با نظارت، بدون نظارت و نیمه نظارت

الگوریتم‌های دسته‌بندی (k-NN, SVM, Decision Tree)

الگوریتم‌های رگرسیون (Linear Regression, Polynomial Regression)

معیارهای ارزیابی عملکرد مدل‌ها

 

فصل 6: یادگیری عمیق

شبکه‌های عصبی مصنوعی (ANN)

شبکه‌های کانولوشنال (CNN)

شبکه‌های بازگشتی (RNN)

شبکه هایLSTM  و  GRU

Autoencoders

 

فصل 7: کاربردهای یادگیری عمیق در گفتار و صوت

تشخیص گفتار (Speech Recognition)

تشخیص گوینده (Speaker Recognition)

تبدیل متن به گفتار (Text-to-Speech)

کاهش نویز و بهبود کیفیت صدا

تشخیص احساسات از روی صدا

موسیقی و پردازش صدا

 

 

بخش سوم: پروژه های عملی و مباحث پیشرفته

فصل 8: پروژه های عملی

پروژه 1: تشخیص کلمات کلیدی

پروژه 2: تشخیص گوینده

پروژه 3: تبدیل متن به گفتار

پروژه 4: کاهش نویز صدا

 

فصل 9: مباحث پیشرفته

مدل های زبانی (Language Models)

توجه (Attention)

Transformer

مدل های مولد صدا (Generative Models for Audio)

نظرات (0)

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “مسیر آموزشی Speech and Audio specialist”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *