توضیحات
ABSTRACT
This paper studies an independent-speaker isolated word speech recognition based on mean-shift framing using hybrid HMM/SVM classifier. The proposed framework includes two main units: preprocessing unit, and classification unit. The first unit tries to segment the speech signal into proper frames using the benefits of mean-shift gradient clustering algorithm and extract time-frequency relevant features in a way that maximize relative entropy of time-frequency energy distribution among segments. Then the second unit classifies words into the proper classes. To fulfill this intention, self-adaptive HMM calculates word’s likelihood of each existed class and finally support vector machine (SVM) classifies it by using all classes’ likelihood as an input vector. To validate method’s accuracy and stability, the method verified within TULIPS1 dataset in the present of different kind of additive noises provided by SPIB. Comparing the results with the outcomes of the previous paper shows 3.2% improvement.
INTRODUCTION
Automatic speech recognition (ASR) is among the subjects which has been receiving special attention during recent decades. Generally we can categorize speech recognition methods into two main categories: first, methods employing meaningful linguistic parts such as words, syllables and phonemes, and second, methods that are based on signal processing. Each category has its own advantages and disadvantages. Since there are too many different views in breaking words into syllables or phonemes depending greatly on linguistics features, as well as being un-identical in different languages, to prepare relevant feature vectors, many researchers proposed methods which employ signal processing techniques. For instance, Lee et al uses the benefits of short segments of speech. In their method the spectral analysis of speech is performed with a speech segment of 20-30ms while the window function moves at the rate of about 10ms. Gunal et al assumed that vocal tract of speech is stationary for duration of 10-20ms. Hence, they divided speech signal into small frames by a window process so that stationary operations can be performed. Then feature extraction is executed for each particular frame. Siniscalchi et al uses frames with 25ms and a frame shift of 10ms.
چکیده
در این مقاله، شناسایی گفتار لغزشی جداگانه مستقل از سخنرانان براساس فریم میانگین انتقال با استفاده از طبقه بندی HMM / SVM هیبریدی مورد بررسی قرار می گیرد. چارچوب پیشنهادی شامل دو واحد اصلی است: واحد پیش پردازش و واحد طبقه بندی. اولین واحد تلاش می کند تا سیگنال گفتار را به فریم های مناسب با استفاده از مزایای الگوریتم خوشه بندی گرادیان متوسط و ویژگی های مربوط به فرکانس زمانی استخراج کند تا بتوان آنتروپی نسبی توزیع انرژی فرکانس زمان را در میان بخش ها به حداکثر رساند. سپس واحد دوم کلمات را به کلاس های مناسب طبقه بندی می کند. برای انجام این قصد، HMM خود تطبیقی محاسبه احتمال کلمه هر کلاس موجود و در نهایت پشتیبانی از ماشین بردار (SVM) را با استفاده از احتمال احتمال تمام کلاس ها به عنوان یک بردار ورودی طبقه بندی می کند. برای اعتبار سنجی دقت و ثبات روش، روش تایید شده در مجموعه داده TULIPS1 در حال حاضر از انواع مختلف صداهای افزایشی ارائه شده توسط SPIB است. مقایسۀ نتایج با نتایج حاصل از مقاله قبلی نشان دهنده بهبود 3.2٪ است.
مقدمه
تشخیص گفتار خودکار (ASR) یکی از موضوعاتی است که طی دهه های اخیر توجه ویژه ای به خود جلب کرده است. به طور کلی، ما می توانیم روش های تشخیص گفتار را به دو دسته اصلی تقسیم کنیم: اول، روش های استفاده از بخش های زبان شناختی معنی دار مانند کلمات، هجا و phonemes، و روش های دوم که بر اساس پردازش سیگنال است. هر رده دارای مزایا و معایب خاص خود است. از آنجا که دیدگاه های مختلفی در کلمات شکستن به هجاها یا فون ها وجود دارد که عمدتا بسته به ویژگی های زبان شناختی و نیز غیر یکسان بودن در زبان های مختلف است، برای تهیه بردارهای مرتبط با ویژگی، بسیاری از محققان روش هایی را پیشنهاد می کنند که از تکنیک های پردازش سیگنال استفاده می کنند. به عنوان مثال، لی و همکاران از مزایای بخش های کوتاه سخنرانی استفاده می کنند. در روش خود، تجزیه و تحلیل طیفی گفتار با یک بخش گفتاری 20-30 متر انجام می شود در حالی که عملکرد پنجره با سرعت حدود 10 میلی ثانیه حرکت می کند. Gunal و همکاران فرض می کنند که گفتار صوتی برای مدت زمان 10-20 متر است. از این رو، سیگنال گفتاری را به یک فریم پنجره به فریم های کوچک تقسیم می کنند تا عملیات ثابت انجام شود. سپس استخراج ویژگی برای هر فریم خاص اجرا می شود. Siniscalchi و همکارانش از فریم هایی با 25 مگا و فریم تغییر 10 مگابایت استفاده می کنند.
Year: 2010
Publisher : Eighteenth International Energy Conference of Iran
By : Kambiz Rahbar , Ali Broumandnia
File Information: Persian Language/ 6 Page / size: 769 KB
سال :1389
ناشر : هجدهمین کنفرانس بین المللی برق ایران
کاری از : کامبیز رهبر، علی برومندنیا
اطلاعات فایل : زبان فارسی / 6 صفحه / حجم : KB 769
نقد و بررسیها
هنوز بررسیای ثبت نشده است.