توضیحات
ABSTRACT
Speaker variability significantly impacts the performance of speech recognition. One of the most important facors that cause the variance among speakers is accent. This paper describes an accent recognition system for Persian accents from 5 different dialects. A novel framework based on histogram of pitch contour of speech is proposed. To reliably detect the accent, a sufficiently long continuous speech segment is required. This research aims to analyze different segmentation approaches of speech signals. SAHAND accent speech dataset (SES) is used for data set evaluation. The experi mental results confirm that accurate accent recognition is obtained when the speech segments are longer than 1.4 second or are composed of more than 15 voiced segments. To recog nize the accent in speech, the normalized histogram of pitch frequencies are employed successfully using several approaches, namely K-nearest-neighbor (KNN), Artificial Neural Networks (NNs) based classifier, Naive Bayes and linear discriminant analys (LDA).
INTRODUCTION
speech signal conveys several levels of information. Primarily, the speech signal carries the words or message being spoken, but on a secondary level, the signal also carries information about the gender of the speaker, dialect, age, language, emotion, stress and many other factors. Speech recognition has achieved great improvements recently. However, robustness is still a matter of challenging. For example, the performance of recognition fluctuates sharply depending on the speaker, especially when the speaker has strong accent that is not covered in the training corpus. Analysis and modeling of speaker variability, such as gender, accent, age, speaking rate, and phone realizations, are important issues in speech recognition. Accent or dialect is a linguistic trait of speaker identity which indicates the speaker’s language background and both refer to linguistic variation of a language . A speaker’s accent is the most important factor affecting the performance systems because accents vary widely, even within the same country or community. This variation also occurs when nonnative speakers start to learn a second language, the exchange of native language phonology being a common process. The accuracy of speech recognition system is greatly reduced when the speaker’s accent is different from those trained with the system.
چکیده
تنوع بلندگو به طور قابل توجهی بر عملکرد تشخیص گفتار تاثیر می گذارد. یکی از مهمترین فاکتورهایی است که منجر به اختلاف میان بلندگوها می شود. این مقاله یک سیستم تشخیص لهجه برای لهجه فارسی از 5 گویش مختلف را توصیف می کند. یک چارچوب جدید مبتنی بر هیستوگرام کانتینر حروف سخنرانی پیشنهاد شده است. برای تشخیص دقیق لهجه، یک قطعه گفتار مستمر به طور مداوم طولانی لازم است. این پژوهش با هدف بررسی روشهای تقسیم بندی مختلف سیگنالهای گفتار انجام شده است. داده های سخنرانی سخنرانی SAHAND (SES) برای ارزیابی مجموعه داده ها استفاده می شود. نتایج علمی تجربی ثابت می کنند که تشخیص دقت دقیق در زمانی که بخش های گفتاری طولانی تر از 1.4 ثانیه هستند یا از بیش از 15 قطعه واضحی تشکیل شده است، به دست می آید. برای به رسمیت شناختن لهجه در سخنرانی، هیستوگرام نرمال فرکانس زمین با استفاده از چندین روش، یعنی K-نزدیکترین همسایه (KNN)، طبقه بندی مبتنی بر شبکه های عصبی مصنوعی (NNs)، Bayes Naive و تجزیه تحلیل خطی (LDA) به کار گرفته شده است.
مقدمه
سیگنال سخنرانی سطوح مختلف اطلاعات را بیان می کند. در ابتدا، سیگنال گفتاری کلمات یا پیام را در حال گفتن حمل می کند، اما در سطح ثانویه، سیگنال همچنین اطلاعاتی درباره جنسیت بلندگو، گفتار، سن، زبان، احساسات، استرس و بسیاری از عوامل دیگر را در اختیار شما قرار می دهد. به تازگی به رسمیت شناختن گفتار به خوبی پیشرفت کرده است. با این حال، استحکام هنوز موضوع چالش برانگیز است. به عنوان مثال، عملکرد تشخیص به شدت با توجه به بلندگو تغییر می کند، به ویژه هنگامی که بلندگو دارای لهجه قوی است که در بخش آموزش دیده نمی شود. تجزیه و تحلیل و مدل سازی متغیرهای سخنران، مانند جنسیت، لهجه، سن، میزان صحبت کردن و تحقق تلفن، مسائل مهم در تشخیص گفتار هستند. لهجه یا لهجه، یک ویژگی زبانی هویت سخنران است که نشان دهنده پیشینه زبان سخنران است و هر دو به تنوع زبانی یک زبان اشاره می کند. لهجه سخنران مهمترین عامل تأثیرگذار بر سیستم های عملکرد است، زیرا لهجه ها به طور گسترده ای متفاوت هستند حتی در یک کشور یا جامعه. این تنوع نیز رخ می دهد زمانی که سخنرانان غیر فعال زبان دوم را یاد بگیرند، مبادله واژگان زبان مادری یک فرایند رایج است. دقت سیستم تشخیص گفتار تا حد زیادی کاهش می یابد زمانی که لهجه سخنران متفاوت از کسانی که آموزش دیده با سیستم.
Year: 2012
Publisher : The first international conference on Persian language and language processing
By : M.Farhid , M.H.Sedaaghi
File Information: English Language/ 5 Page / size: 536 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1391
ناشر : نخستین کنفرانس بین المللی پردازش خط و زبان فارسی
کاری از : محمدرضا فرهید، محمدرضا اسدالهی
اطلاعات فایل : زبان انگلیسی / 5 صفحه / حجم : KB 536
نقد و بررسیها
هیچ دیدگاهی برای این محصول نوشته نشده است.