توضیحات
ABSTRACT
This paper investigates the use of fractal geometry for segmenting digital signals. A method of texture segmentation is introduced which is based on the Fractal Dimension. Using this approach, variations in texture across a signal or image can be characterized in terms of variations in the fractal dimension. By analyzing the spatial fluctuations in fractal dimension obtained using a conventional moving window approach, a digital signal or image can be texture segmented; this is the principle of Fractal Dimension Segmentation (FDS). In this paper, we apply this form of texture segmentationto isolated speech signals. An overview of methods for computing the fractal dimension is presented focusing on an approach that makes use of the characteristic Power Density Function (PSDF) of a Random ScalingFractal Signal. FDS is applied to a number of different speech signals and the results discussed for isolated words and the components (e.g. fricatives) from which these words are composed. In particular, it is shown that by pre-filtering speech signals with a low-pass filter of the form lk. This provides confidence in the approach to speech segmentation considered in this paper and in principle, allows a template matching scheme to be designed that is based exclusively on FDS.
INTRODUCTION
Speech recognition introduces a new range of communication services that extend man’s capabilities, serve his social needs and increase his productivity. Isolated word recognition for example, is adequate for logging freight destinations in warehouses or identifying and counting items for inventory control. It also requires a short pause before and after utterances that are to be recognized as entity [l].In other term the words are spoken in isolation. Pauses between words simplify recognition because they make it relatively easy to identi@ endpoints (i.e., the start and end of each word), and they minimize co-articulation effects between words. In addition, isolated words tend to be pronounced somewhat more carehlly, since the need to pause between words impedes fluency, which would otherwise tend to encourage a more natural and hence more careless pronunciation.
چکیده
این مقاله به بررسی استفاده از هندسه فراکتال برای تقسیم سیگنال های دیجیتال می پردازد. یک روش تقسیم بندی بافت معرفی شده است که براساس ابعاد فراکتال است. با استفاده از این روش، تغییرات در بافت در یک سیگنال یا تصویر را می توان از نظر تغییرات در ابعاد فراکتال مشخص کرد. با تجزیه و تحلیل نوسانات فضایی در ابعاد فراکتال به دست آمده با استفاده از رویکرد پنجره متحرک متعارف، یک سیگنال یا تصویر دیجیتال می تواند بافتی تقسیم شود؛ این اصل جداسازی ابعاد فراکتال (FDS) است. در این مقاله، این فرم تقسیم بندی بافت به سیگنال های گفتاری جداگانه را اعمال می کنیم. یک مرور کلی از روش های محاسبه ابعاد فراکتال با توجه به رویکردی است که استفاده از تابع تراکم قدرت مشخص (PSDF) یک سیگنال مقیاس تصادفی فراکتال را ارائه می دهد. FDS بر روی تعدادی از سیگنال های گفتاری مختلف اعمال می شود و نتایج مورد بحث برای کلمات جدا شده و اجزای (مانند حشرات) که از این کلمات تشکیل شده است. به طور خاص، نشان داده شده است که با پیش فیلتر کردن سیگنال های گفتاری با یک فیلتر پایین گذر از فرم lk. این اطمینان را در رویکرد تقسیم بندی گفتار در نظر گرفته شده در این مقاله ایجاد می کند و در اصل، اجازه می دهد که یک طرح تطبیق الگو به طور انحصاری بر روی FDS طراحی شود.
مقدمه
به رسمیت شناختن گفتار، طیف جدیدی از خدمات ارتباطی را معرفی می کند که توانایی های انسان را گسترش می دهد، نیازهای اجتماعی خود را تامین می کند و بهره وری خود را افزایش می دهد. به عنوان مثال، شناسایی جداگانه برای ورود به مقصد حمل و نقل در انبار ها و یا شناسایی و شمارش اقلام برای کنترل موجودی مناسب است. این همچنین نیاز به یک مکث کوتاه قبل و بعد از سخنان است که باید به عنوان موجودیت شناخته شوند. [1] در اصطلاح دیگر کلمات به صورت جداگانه صحبت می شوند. تعطیلات بین کلمات ساده می شود به رسمیت شناختن، زیرا آنها آن را نسبتا آسان به شناسایی نقطه انتهایی @ (به عنوان مثال، شروع و پایان هر کلمه)، و آنها به حداقل رساندن اثرات هماهنگ سازی بین کلمات است. علاوه بر این، واژه های جداگانه تمایل دارند تا حدودی دقیق تر بیان شوند، زیرا نیاز به مکث بین کلمات مانع تسلط است، که در غیر این صورت تمایل به تلفظ تر طبیعی تر و به مراتب ناامید تر می شود.
Year: 2000
Publisher : IEEE
By : S. Fekkai, M. Al-Akaidi, J.Blackledge
File Information: English Language/ 5 Page / size: 340 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1379
ناشر : IEEE
کاری از : S. Fekkai، M. Al-Akaidi، J.Blackledge
اطلاعات فایل : زبان انگلیسی / 5 صفحه / حجم : KB 340
نقد و بررسیها
هنوز بررسیای ثبت نشده است.