توضیحات
چکیده
مقصود از واژه يابي گفتار يافتن موقعيت مكاني مجموعه اي از كلمات مورد نظر در يك گفتار بدون محدوديت و رد كردن قسمت هاي نامرتبط با اين كلمات ميباشد. اغلب سيستم هاي واژه ياب گفتار، بر پاية مدل مخفي ماركف عمل مي كنند. مدل مخفي ماركف از دستة روش هاي مولد محسوب ميشود. در روشهاي مولد، پارامترهاي مدل با در نظر گرفتن يك توزيع آماري از پيش تعيين شده براي فضاي مشاهدات، تخمين زده ميشود. به دليل در اختيار نداشتن فضاي مشاهدات در حالت كلي، توزيع آماري از پيش تعيين شده لزوما منطبق با واقعيت نبوده، پارامترهاي مدل به درستي تخمين زده نميشوند. از ديگر ايرادهاي وارد بر روش هاي مبتني بر مدل مخفي ماركف همگرايي تخمين به بهينه هاي محلي ميباشد. در برابر روش هاي مولد، روش هاي متمايز ساز مطرح مي شوند كه در آنها هيچ فرض آماري اوليه اي براي فضاي مشاهدات در نظر گرفته نميشود. در اغلب روش هاي متمايزساز، تابع هدف لحاظ شده در طول مرحلة آموزش سيستم، به خوبي با معيار منظور شده براي ارزيابي كارايي سيستم تناسب دارد. از اين رو مشكل همگرايي به بهينه هاي محلي تا حدود زيادي مرتفع مي گردد. اين مقاله ضمن بررسي يكي از روش هاي متمايز ساز مبتني بر ايدة مرز- وسيع براي واژه يابي گفتار، كارايي اين روش را در شرايط مختلف نويزي مورد بحث قرار مي دهد. ارزيابي هاي انجام شده حاكي از مقاوم بودن مطلوب رويكرد مورد بررسي در شرايط مختلف نويزي است .
مقدمه
واژه يابي گفتار به معناي پيدا كردن موقعيت مكان كلمـات يـا عبـارات ويـژه در يـك گفتـار بـدون محـدوديت و رد كـردن قسمتهای نامرتبط گفتار ميباشد. از كاربردهاي مطرح سيـستم هاي واژه يابي گفتار ، میتوان به جستجوي عبارات ويژه در اخبار، مكالمات تلفني و اتاق هاي كنفرانس، تشخيص مكالمات مـشكوك با هدف جلوگیري از فعاليت هاي خطرناك و كمك به افـراد نـاتوان از طریق سیستم هاي هوشمند شنوا اشاره نمود. اغلب كارهاي انجام شده در زمينة واژه يابي گفتـار، بـر پايـة مدل مخفي ماركف بنا نهاده شـده انـد. رويكردهـاي مـذكور، سـه دستة اصلي از روش هاي واژه يابي گفتار مبتنـي بـر مـدل مخفـي ماركف را شامل ميشوند؛ آموزش مدلها بر اساس كـل كلمـه ، رویكردهاي مبتنـي بـر واج و رويكردهـاي مبتنـي بـر بازشناسیي گفتـــار يوســـته بـــا واژگـــان بـــزرگ.
ABSTRACT
The purpose of speech locale is to find the spatial position of a set of words in an unrestricted speech and to reject the unrelated parts of these words. Most speech recognition systems operate on the basis of the Markov secret model. Markov’s hidden model is considered to be a generic method. In generative methods, model parameters are estimated by considering a predetermined statistical distribution for observation space. Due to the lack of observation space in general, the predetermined statistical distribution is not necessarily consistent with reality, the model parameters are not properly estimated. Another approach to the methods based on the hidden Markov model is the convergence of estimating local optimizations. In contrast to generative methods, distinct methods are proposed in which no initial statistical assumption is given for the observation space. In most distinctive methods, the objective function considered during the system training stage is well suited to the criteria used to evaluate system performance. Consequently, the convergence problem is largely overcome by local optimizations. This article discusses the effectiveness of this method in various noise situations, while discussing one of the broad-based, broad-spectrum differentiating methods for speech recognition. The evaluations indicate the optimum resistance of the approach under study in different noise conditions.
INTRODUCTION
Speech vocabulary means finding the location of words or phrases in an unrestricted speech and rejecting unrelated speeches. Among the major applications of speech recognition systems, it is possible to search for special phrases in news, telephone conversations and conference rooms, to diagnose suspicious conversations with the aim of preventing hazardous activities and helping disabled people through intelligent hearing systems. Most of the work done in speech recognition is based on the Markov secret model. The aforementioned approaches include three main categories of word-based speech-based methods based on the Markov secret model; the teaching of models based on the whole word, phoneme-based approaches, and approaches based on the recognition of high-vocabulary speech.
Year: 2010
Publisher : Eighteenth International Energy Conference of Iran
By : Shima Tabibian, Akram Shokri, Ahmad Akbari and Babak Naserherfi
File Information: Persian Language/ 6 Page / size: 535 KB
سال :1389
ناشر : هجدهمین کنفرانس بین المللی برق ایران
کاری از : شيما طبيبيان ،اكرم شكري ، احمد اكبري و بابك ناصرشريف
اطلاعات فایل : زبان فارسی / 6 صفحه / حجم : KB 535
نقد و بررسیها
هنوز بررسیای ثبت نشده است.