توضیحات
چکیده
در اين مقاله استفاده از ويژگي هاي آنتروپي و بعد فركتالي براي بهبود تقطيع سيگنال گفتار مستقيم و تلفني پيشنهاد شده است. قبل از استفاده از آنتروپي، تقطيع سيگنال را با روش هاي كلاسيك، به نواحي واكدار، بدون واك و سكوت انجام ميدهيم و سپس براي جداسازي چندين واج واكدار يا بدون واك پيوسته به هم از معيار آنتروپي استفاده ميكنيم. از آنجا كه در انتقال بين واجها آنتروپي افزايش مييابد، به نظر ميرسد كه اين ويژگي در تعيين مرز دقيق واجها كارايي داشته باشد. علاوه بر اينكه آنتروپي را در قابهاي ۱۰ميليثانيه استخراج ميكنيم از مشتقات مرتبه اول و دوم آن نيز بهره ميبريم. روش تصميمگيري بر اساس تعيين آستانه است. پس از تقطيع با استفاده از آنتروپي با درج هاي احتمالي مواجه هستيم كه براي كم كردن اثر آنها از ويژگي بعد فركتالي بر اساس ويولت استفاده ميكنيم تا قطعاتي كه به اشتباه دو يا سه واج مجزا تشخيص داده شدهاند با يكديگر ادغام شوند. استفاده از اين ويژگي، %۳.۲و %۳بهبود نتيجه تقطيع به ترتيب براي گفتار مستقيم و تلفني در بر دارد .
مقدمه
مسئله تقطيع سيگنال گفتار يكي از مسائل مهم در پردازش گفتار به شمار ميآيد. اهميت اين مسئله در روش هاي مختلف تبديل گفتار به متن و بازشناسي گفتار مبتني بر قطعه امري غيرقابل انكار است. اين مقاله به طور خاص بر روي تقطيع در سطح واج و تشخيص دقيق مرز واج ها متمركز شده است. در بازشناسي بر اساس قطعه اطلاعات مربوط به مرزها براي ارزيابي ويژگي هايي كه در پردازش به آنها نياز است، استفاده شده است. مسئله تشخيص مرز واج ها در تبديل گفتار به متن نيز كاربرد دارد. مرحله اول تقطيع در سطح واج را ميتوان جداسازي واج هاي واكدار و بدون واك در نظر گرفت. در قبل از يافتن مرز دقيق واج ها، اين جداسازي با استفاده از ضرايب مل-كپستروم، انرژي و ويژگي هايي از اين دست انجام شده است. در استفاده از آنتروپي در تعيين دقيقتر مرزها مورد استفاده قرار گرفته است. در بكارگيري مدلهاي پيوسته براي طبقه بندي واج ها، استفاده از معيار آنتروپي را براساس احتمالات پسين واج هاي مختلف پيشنهاد ميدهد. اين احتمالات با استفاده از شبكه هاي عصبي براي هر قاب محاسبه ميشوند. نشان داده شده است كه آنتروپيِ احتمالات پسين معيار مناسبي در طبقه بندي قابها هستند. ثابت كرده است كه آنتروپي يك فريم و مشتق اول و دوم آن به فاصله فريم از مرز واج بستگي دارد.
ABSTRACT
In this paper, the use of entropy and fractal dimensional features are proposed to improve the separation of speech and telephone speech signals. Before using the entropy, we divide the signal with classical methods into voiced areas, without voices and silence, and then use an entropy criterion to separate several voiced phonemes or without interconnected voices. As the entropy increases in transitions between phonemes, it seems that this feature is effective in determining the exact phoneme boundary. In addition to extracting an entropy in 10-millimeter frames, we also use first-order derivatives. The decision method is based on the threshold setting. After fragmentation, we use an entropy with possible points to minimize their effect using fractal dimensional properties based on the wavelet to integrate components that are identified by mistake in two or three separate phonemes. Using this feature, 3.2% and 3% improve the breakdown result for direct and telephone speech, respectively.
INTRODUCTION
The problem of splitting the speech signal is one of the important issues in speech processing. The importance of this issue in the various ways of converting speech to text and recognizing piece-based speech is indisputable. This article focuses specifically on phonemic segmentation and the accurate diagnosis of phoneme boundaries. Identification based on the boundary information piece is used to evaluate the features that are needed in processing. The issue of recognizing the phoneme boundary is also applicable in speech-to-text conversion. The first stage of segmentation at the phonological level can be considered as the separation of pharyngeal phonemes without a vaccine. Prior to finding the precise boundaries of phonemes, this separation was carried out using the Mel-Capstrom coefficients, energy, and features of the same. The use of entropy has been used to determine the boundaries more accurately. In applying continuous models to classify phonemes, it suggests the use of an entropy criterion based on the late possibilities of different phonemes. These probabilities are calculated using neural networks for each frame. It has been shown that latent entropy is a suitable criterion for classifying frames. It has proved that the entropy of a frame and its first and second derivatives depend on the distance of the frame from the phoneme boundary.
Year: 2010
Publisher : Eighteenth International Energy Conference of Iran
By : Somayeh Pourkiani, Saeed Rafati Ghouchani and Mehdi Yaghoubi
File Information: English Language/ 5 Page / size: 649 KB
سال :1389
ناشر : هجدهمین کنفرانس بین المللی برق ایران
کاری از : سميه پوركياني ، سعيد راحتي قوچاني و مهدي يعقوبي
اطلاعات فایل : زبان انگلیسی / 5 صفحه / حجم : KB 649
نقد و بررسیها
هنوز بررسیای ثبت نشده است.