Ariana TTS
مقاومسازی سیستم تشخیص گفتار به نویز محیط و صدای گوینده ۳.
تحلیل اجزای اصلی در بازشناسی گفتار پیوسته زبان فارسی برای مقاوم سازی ویژگیها و كاهش تعداد آنها
بخش سوم: ۳) دادگان، سیستم بازشناسی و نتایج ۳-۱) معرفی سیستم بازشناسی ۳-۲) معرفی دادگانهای گفتاری ۳-۳) نتایج بکارگیری روشهای مقاومسازی ۴) نتیجهگیری و جمعبندی ۵) منابع
بخش سوم:
۳) دادگان، سیستم بازشناسی و نتایج
۳-۱) معرفی سیستم بازشناسی
۳-۲) معرفی دادگانهای گفتاری
۳-۳) نتایج بکارگیری روشهای مقاومسازی
۴) نتیجهگیری و جمعبندی
۵) منابع
کلید واژه: بازشناسیمقاومگفتار، مقاومسازی به نویز و گوینده، استخراج ویژگیهای مقاوم، تطبیق مدل، پیشبینی مدل
در این بخش ابتدا به مرور سیستم بازشناسی مبنا به همراه دادگانهای گفتاری مورد استفاده در این آزمایشها پرداخته شده است. سپس نتایج مختلف بکارگیری روشهای مرور شده در بخش قبل در شرایط مختلف نویزی ارائه شده است.
برای انجام آزمایشها، از سیستم بازشناسی گفتار پیوسته زبان فارسی نویسا که در [۱~۵] شرح داده شدهاند، استفاده شده است. در این سیستم مستقل از گوینده با واژگان بزرگ، مدلسازی واحدهای آوایی با استفاده از مدل مخفی مارکوف (HMM) انجام میشود. مدلهای HMM به کار برده شده از نوع چگالی پیوسته و با تلفیقهای گاوسی میباشند كه پرش مجاز بین حالتهای آنها فقط به صورت چپ به راست میباشد. با استفاده از این مدلها سیستم مذکور تطبیق الگو را برای بازشناسی سیگنال گفتاری ورودی انجام میدهد و برای این منظور از روشهای مختلف جستجو برای یافتن بهترین دنبالة واحدهای آوایی متناظر با دنبالة آکوستیکی ورودی و در نهایت یافتن دنبالة کلمات بهره میگیرد. سیستم مذكور مستقل از گوینده و دارای اندازة مجموعة واژگان بزرگ است و میتوان به راحتی و با تغییر دادگان آنرا برای زبانهای دیگر نیز بكار برد، آنرا وابسته به گوینده كرد و اندازه واژگان را تغییر داد.
واحد استخراج ویژگی مورد استفاده مبنا در این سیستم MFCC است كه پارامترهای مختلف آن مانند طول فریمها و میزان همپوشانی بین آنها، تعداد ویژگیهای استخراج شده، نحوه محاسبه مشتقات (اول دوم) بر اساس دادگان فارسدات [۱۸] كه برای آموزش و آزمون در حالت تمیز استفاده شده است، بهینه شدهاند. در این سیستم، بردارهای ویژگی استخراج شده از فریمهای گفتار، شامل ۱۲ ضریب مل-كپستروم (C0-C11) همراه با مشتقات زمانی اول و دوم آنها و در مجموع ۳۶ ویژگی میباشد و از طول فریم ۲۰ و همپوشانی ۱۲ میلیثانیه استفاده شده است. پارامترهای مرحلة آموزش شامل تعداد حالتهای مدل مخفی ماركوف، حداكثرگام مجاز برای پرش بین حالتهای مدل (پرش درونی)، تعداد تلفیقها در هر حالت از HMM و تعداد تكرار الگوریتم آموزشی HMM و در مرحلة بازشناسی، حداكثر گام مجاز برای پرش بین حالتهای دو مدل مختلف (پرش بیرونی) و اندازة پشتة مربوط به نگهداری فرضیهها نیز بهینه شدهاند. مدلهای مخفی ماركوف با استفاده از الگوریتمsegmental k-means آموزش داده شدهاند و توپولوژی آنها برای تمام واجها یكسان در نظر گرفته شده است. مجموعة آموزش شامل کل دادگان فارسدات و مجموعة آزمون محیط تمیز، شامل ۱۴۰ جملة انتخابی از این دادگان است. در مرحلة جستجو نیز از الگوریتم جستجوی همزمان واج و کلمه، روش جستجوی شعاعی همزمان مبتنی بر درخت واژگان، برای یافتن بهترین دنبالة کلمات استفاده شده است. این جستجو از مدل زبانی آماری bi-gram در سطح کلمه نیز بهره میگیرد.
در این مقاله علاوه بر دادگان تمیز، از یک دادگان آزمون نویزی با چهار مجموعه مختلف استفاده شده است. همانگونه که در قسمت قبل اشاره شد، دادگان آموزش و آزمونِ محیط تمیز از دادگان فارسدات انتخاب شده است. مجموعة آموزش شامل ۶۰۸۰ جمله از ۳۰۴ گوینده با ۱۰ نوع لهجه رایج زبان فارسی و مجموعة آزمون شامل ۱۴۰ جمله از ۷ گوینده میباشد. از آنجا كه هدف مقاوم سازی و ارزیابی روشهای پیادهسازی شده در شرایط نویزی است، در اینجا از دادگان نویزی برای آزمون استفاده شده است. دادگان آزمون نویزی، شامل چهار مجموعه داده محیط واقعی و نویزی است كه در [۱، ۴، ۱۷] نیز مورد استفاده قرار گرفته است. از آنجا كه این دادگان به منظور آزمون كارایی روشهای تطبیق MAP و MLLR نیز جمعآوری شدهاند، شامل داده تطبیق و آزمون هستند. این دادگان شامل چهار مجموعه مختلف است كه دادههای هر مجموعه متشکل از دو مجموعه تطبیق و آزمون میباشد. در مجموعة تطبیق، ۱۷۵ جمله توسط ۷ گوینده (۵ مرد و ۲ زن) بیان شده است که ۱۰ جمله برای همه مشترک و ۱۵ جملة دیگر برای هر گوینده متفاوت میباشند. در مجموعة آزمون نیز در همان محیط، ۱۴۰ جمله توسط ۷ گوینده (۵ مرد و ۲ زن) و هر کدام ۲۰ جملة متفاوت بیان شده است. مجموعههای ۱ و ۲ این دادگان در محیط عادی اداره و به ترتیب با میكروفنهای خازنی و دینامیك ضبط شدهاند. دو مجموعه ۳ و ۴ نیز بصورتی مشابه و با میكروفن خازنی ضبط گردیده است اما در این دو مجموعه، به ترتیب سیگنالهای نویز نمایشگاه و ماشین همزمان با ضبط صدای گوینده پخش شده است تا محیطی نویزی ایجاد شده باشد. خلاصه مشخصات این دادگان به همراه مقادیر تقریبی SNR آنها در جدول ۱ آورده شده است. در این دادگان، محیط نمایشگاه به دلیل دربرداشتن نویز همهمه، نامطلوبترین محیط برای بازشناسی میباشد، هر چند SNR آن بهتر از محیط ماشین میباشد.
جدول ۱- مشخصات دادگان نویزی
در این بخش به ارائه نتایج آزمایشهای انجام شده روی روشهای مقاومسازی مرورشده قبلی پرداخته میشود. در نتایج این بخش ابتدا بکارگیری این روشها بصورت مجزا در سیستم مبنا مرور شدهاند و سپس اثر استفاده از این روشها بصورت ترکیبی با هم بررسی و مقایسه شدهاند. کلیه نتایج ارائه شده در این بخش روی کلمات و بصورت درصد دقت میباشند.
جدول ۲ نتایج روشهای مقاومسازی مختلف را در مقایسه با حالت مبنا روی مجموعه آزمون تمیز و نویزی نشان میدهد. بکارگیری روشهای CMS و PCA به عنوان واحدهایی مجزا در مراحل استخراج ویژگی MFCC باعث مقاومسازی قابلملاحظهای در این سیستم برای شرایط نویزی شده است. نتایج [۳] نشان میدهد که بکارگیری PCA به عنوان آخرین واحد مراحل پیشپردازش به نسبت سایر جاها بهتر عمل میکند از اینرو این واحد در سیستم بعد از محاسبه مشتقات بکار گرفته شده است. اعمال CMS نیز میتواند آخرین مرحله باشد که با توجه به ماهیت تبدیل PCA تفاوتی بکارگیری آن در بعد و یا قبل از این ندارد. روش CMS علیرغم سادگی، در شرایط نویزی بسیار موثر عمل میکند و امروزه در اغلب سیستمهای بازشناسی به عنوان یک شبهاستاندارد بکارگرفته میشود. علاوه بر بهبودهای قابل ملاحضه بکارگیری این روشها، استفاده از PCA منجر به کاهش ۳۳%ی تعداد ویژگیها از ۳۶ به ۲۵ ویژگی شده است. این مساله باعث بهبود سرعت پردازشی سیستم شده است. بعلاوه اعمال PCA مستقلتر کردن ویژگیها را در بردار ویژگی به همراه داشته است. کاهش اندک نتایج در حالت تمیز در جدول زیر ناشی از کاهش تعداد ویژگیها بوده است.
برای استفاده از روش VTLN در این سیستم، ابتدا از مدل گفتار تمیز اولیه یک مدل نرمالشده با توجه به ضرایب پیچش گویندگان آموزش فارس دات استخراج شده است و در هنگام استفاده نیز بعد از استخراج ضریب پیچش گوینده آزمون، با مدل نرمالشده کار بازشناسی انجام شده است.اعمال این روش به تنهایی در سیستم مبنای بازشناسی گفتار این آزمایشها منجر به بهبودهای در کارایی سیستم شده است همانطور که نتایج نشان میدهند، این بهبودها هم برای شرایط تمیز و هم برای شرایط نویزی بوده است. بایستی توجه داشت که در این روش تفاوتهای ناشی از اثر طول مسیر صوتی گویندههای مختلف جبران میشود و از اینرو بهبودهای این رویکرد خیلی چشمگیر نیست. استفاده از این روش در شرایط نویزی شدید مانند مجموعههای ۳ و ۴ در جدول دارای بهبود کمتری است. علت این مساله میتواند بعلت عدم تخمین دقیق طیف گفتار در شرایط نویزی باشد. نتایج استفاده از روشهای مقاومسازی مبتنی بر مدل MLLR و MAP بهبودهای چشمگیری را در شرایط نویزی مختلف به همراه داشته است. در این روش مدلهای تطبیقی بصورت باناظر از دادههای تطبیق هر مجموعه بدست آورده شدهاند. در روش PMC ابتدا از قسمتهای شروع جملات آزمون که غیرگفتار و در واقع نویز هستند، مدل نویز آن مجموعه ساخته شده است و به کمک روشهای لگاریتمی-نرمال و لگاریتمی-جمع با مدلهای گفتار تمیز ترکیب شدهاند. هردوی این روشها منجر به نتایج مشابهی شدهاند هر چند حجم محاسبات لگاریتمی-جمع کمتر است. کارایی این روش در مجموعههای ۳ و ۴ بر سایر روشها غلبه کرده است در حالیکه در مجموعههای ۱ و ۲ توانایی ان کتر از روشهایی مانند MLLR و MAP بوده است. علت این مساله این است که در این روش “نویز” جمعشونده محیط مدل شده است و اثر کانال و گوینده در نظرگرفته نشده است و از آنجا که مجموعههای ۳ و۴ نویز بیشتری دارند توانایی این روش مشهودتر است در حالیکه علت افت نتایج مجموعههای ۱ و ۲ عمدتاً ناسازگاریهای ناشی از اثر تفاوت گوینده و میکروفن است، این مساله در مجموعه ۲ که SNR آن نزدیک SNR دادههای آموزش است، بدیهی است.
تاثیر چشمگیر روشهای مبتنی بر مدل در مقاومسازی در این نتایج واضح است، هرچند این روشها نیازمند بار محاسباتی بیشتری هستند و به اطلاعات اضافی (داده تطبیق یا داده نویز) احتیاج دارند. استفاده از این روشها بصورت ترکیبی باهم و یا با ویژگیهای مقاوم یکی دیگر از حالات دیگری است که انتظار میرود منجر به بهبود نتایج بیشتری شود. ترکیب برخی از این روشها با هم در شکل ۴ نشان داده شده است. در این شکل برخی از ترکیبات ممکن این روشها برای چهار مجموعه ۱ تا ۴ (شکلهای الف تا د به ترتیب) بصورت نمودار جهت مقایسه با هم آورده شده است. این نتایج برای مجموعههای ۱ و ۲ مشابه هم هستند و دو مجموعه دیگر نیز رفتار مشابهی دارند. ترکیبهای PCA+CMS با MAP/MLLR در همه مجموعهها نتایج بهتری را به دنبال داشته است و ترکیب VTLN+MLLR+PMC در مجموعههای ۱ و ۲ و MAP+PMC برای دو مجموعه دیگر نیز عملکرد بهتری نسبت به سایر روشها داشتهاند. در این نتایج روش PMC مورد استفاده لگاریتمی-نرمال است.
شکل ۴: بکارگیری روشهای مقاومسازی بصورت ترکیبی روی دادگان تمیز و مجموعه نویزی الف
علاوه بر ترکیب کارای ویژگیهای مقاوم و روش های تطبیق، برای شرایط با نویز شدید مثل مجموعههای ۳ و ۴، روشهای تركیبی PMC و یكی از روشهای تطبیق و بویژه روش MAP، بدون اعمال VTLN جواب بهتری را منجر میشود. استفاده از VTLN در این شرایط منجر به کاهش نتایج میشود که این مساله به عدم توانایی این روش در حضور نویز برمیگردد. اما در شرایط نویزی با نویز كمتر این تركیب به همراه VTLN كارایی مناسبی را بههمراه دارد. توجه شود که نتایج بازشناسی برای دو مجموعه ۱ و ۲ در بهترین حالت به ۷۸٫۹۱ و ۷۷٫۷۶ رسیدهاند که حتی از حالت مبنای سیستم (۷۳٫۶۹ درصد) نیز بیشتر است! در دو مجموعه نویزی دوم نیز در بهترین حالات “افزایش”های ۷۴٫۱۵ و ۷۲٫۸۷ درصدی در دقت سیستم بدست آمده است.
مساله مقاومسازی سیستم بازشناسی گفتار پیوسته فارسی در این مقاله با ارزیابی روشهای مختلف استخراج ویژگی و مبتنیبرمدل در شرایط مختلف نویزی مورد بررسی قرار داده شد. استفاده از روش ساده و موثر CMS در حالت كلی باعث بهبود كارایی سیستمهای بازشناسی در شرایط نویزی میشود. روش PCA منجر به کاهش تعداد ویژگیها، مستقل کردن آنها و در نهایت بهبود دقت بازشاسی میشود. روش VTLN برای شرایط نویزی شدید كارایی بالایی ندارد ولی برای مواردی كه گفتار گوینده و طیف آن متفاوت از گوینده مبنا در آموزش است، مانند گفتار كودكان یا زنان، بهبود استفاده از آن كاملاً محسوس است، این اثر بویژه در ترکیب با روش های تطبیق مدل به خوبی نمایان است. توانایی روشهای مبتنی برمدل در جبران ناسازگاریهای گوینده و نویز بالاتر است ولی در عوض نیازمند اطلاعات اضافی و بار محاسباتی بیشتری هستند. روشهای MLLR و MAP هم برای تطبیق سیستم مستقل از گوینده به صدای یک گوینده خاص و هم برای تطبیق به محیط جدید خیلی کارا هستند. این دو روش نیازمند جمعاوری مقداری داده تطبیق هستند که از این نظر روش MLLR بعلت نیاز به داده کمتر به نسبت MAP مزیت دارد اما این روش دارای محدودیت عملکرد فقط برای ناسازگاریهایی است که با تبدیلهای خطی قابل جبران باشند. روش PMC در شرایط نویزی مختلف و بویژه نویزهای شدید و پیچیده كارایی بالایی دارد و در صورت تركیب با سایر روشها نیز این بهبود بیشتر خواهد شد. روش PMC علیرغم توانایی بالا در جبران نویز، برای جبران ناسازگاری ناشی از گوینده با مشکلاتی مواجه است. به علاوه این روش با برخی روشهای مقاومسازی دیگر از جمله CMS از نظر تئوری سازگار نیست، هرچند این مشکل قابل حل میباشد. از روش PMC و روشهای تطبیق MAP/MLLR میتوان بصورت كاربردی در سیستمهای بازشناسی استفاده كرد و تطبیق برخط را نیز انجام داد.
نهایتاً آنچه از نتایج بدست آمده نتیجهگیری میشود این است كه بهترین راه مقاوم سازی سیستمهای بازشناسی گفتار با تكنولوژی فعلی استفاده از چند روش به صورت تركیبی است. نمونه این كار میتواند مشابه آنچه در این مقاله ارائه شد، باشد كه از روش VTLN برای نرمال كردن اثر گوینده، PMC و ویژگیهای مقاوم برای جبران نویز و MLLR یاMAP برای تطبیق بیشتر گوینده و ناسازگاریهای دیگر موجود در دادگان آزمون استفاده شده است. در این آزمایشها ترکیب CMS+PCA+MLLR برای شرایط نویزی شدید در بهترین حالات منجر به “افزایش” ۷۴ درصدی دقت بازشناسی شده است و برای حالت با نویز کمتر ترکیب VYLN+MLLR+PMC دقت سیستم را از حدود ۳۱ درصد به حدود ۷۹ درصد رسانیده است که از حالت مبنای سیستم در شرایط تمیز نیز بیشتر است. در روشهای مقاومسازی موجود، هركدام از روشها تواناییها و محدودیتهایی دارند كه بكارگیری آنها در كنار هم منجر به جمع شدن مزیتهای آنها میشود. بکارگیری روشهای تخمین گفتار تمیز (بهبود کیفیت گفتار) در کنار روشهای فوق و ترکیب روشهای CMS و PCA با روش PMC و ترکیب آنها با روشهای MLLR/MAP از جمله کارهای ممکنی هستند که در این مقاله انجام نشده است. به علاوه بکارگیری اطلاعات زبانی بیشتر مانند مدلهای زبانی گرامری کارایی این سیستمها را در شرایط نویزی بهبود بیشتری خواهد بخشید. با توجه به رویکرد کاربردی سیستم موجود، آمیختن این اطلاعات و روشها جزو برنامههای آینده برای بهبود بیشتر این سیستم است.
دکتر حسین ثامتی عضو هیئت علمی دانشگاه شریف سرپرست پژوهشهای شرکت عصر گویش پرداز sameti@sharif.edu دکتر هادی ویسی عضو هیئت علمی دانشگاه تهران مدیر عامل شرکت عصر گویش پرداز h.veisi@asr-gooyesh.com مهندس خسرو حسین زاده hosseinzadeh@ce.sharif.edu
دکتر حسین ثامتی
عضو هیئت علمی دانشگاه شریف
سرپرست پژوهشهای شرکت عصر گویش پرداز
sameti@sharif.edu
دکتر هادی ویسی
عضو هیئت علمی دانشگاه تهران
مدیر عامل شرکت عصر گویش پرداز
h.veisi@asr-gooyesh.com
مهندس خسرو حسین زاده
hosseinzadeh@ce.sharif.edu
تیم پشتیبانی مجله دیجیتال عصر گویش با هدف ارائه جدیدترین اخبار و مقالات تکنولوژی هوش مصنوعی در دنیا، در خدمت علاقهمندان به این تکنولوژی میباشد.
نشانی ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند *
زمان مجاز به پایان رسید. لطفا مجددا تلاش نمایید − = پنج
استفاده از مطالب مجله دیجیتال عصر گویش فقط برای مقاصد غیر تجاری و با ذکر منبع بلامانع است. کليه حقوق اين سايت به شرکت عصر گویش پرداز تعلق دارد.