Selection criteria for text mining approaches[taliem.ir]

Selection criteria for text mining approaches

ABSTRACT

Text mining techniques include categorization of text, summarization, topic detection, concept extraction,  search and retrieval, document clustering, etc. Each of these techniques can be used in finding some non- trivial information from a collection of documents. Text mining can also be employed to detect a document’s main topic/theme which is useful in creating taxonomy from the document collection. Areas of applications for text mining include publishing, media, telecommunications, marketing, research, healthcare, medicine, etc. Text mining has also been applied on many applications on the World Wide Web for developing  recommendation systems. We propose here a set of criteria to evaluate the effectiveness of text mining  techniques in an attempt to facilitate the selection of appropriate technique.

INTRODUCTION

Knowledge about data or text mining from important and relatively larger database has been recognized by numerous scholars and researchers. Data mining or knowledge discovery, works well on data stored in a structured manner. Often, the data that has not been well structured yet still contains a lot of hidden  information. Text mining entails automatically analyzing a corpus of text documents and discovering  previously hidden information. The result might be another piece of text or any visual representation. We start by extracting the useful information from text like facts and events and eventually perform some data mining tasks to gain new knowledge. Text mining generally includes categorization of information or text, clustering the text, extraction of entity or concept, development and formulation of general taxonomies. Text mining deals with unstructured or textual information for the extraction of meaningful information and knowledge from huge amount of text. They are required for the efficient analysis and exploration of  information available in text form. Text mining is required to convert the text into data which then pass  through other data mining techniques for analysis. Most of the times, data that we gather from different sources is so large that we cannot read it and analyze it manually so we need text mining techniques to deal with such data. Identifying and separating out any specific type of information from the given text requires text mining techniques or methods. These methods also help in clustering the data into different groups on the basis of specific requirements. 

چکیده

تکنیک های استخراج متن عبارتند از طبقه بندی متن، خلاصه سازی، تشخیص موضوع، استخراج مفهوم، جستجو و بازیابی، خوشه بندی سند، و غیره. هر یک از این تکنیک ها را می توان در پیدا کردن برخی از اطلاعات بی اهمیت از مجموعه ای از اسناد استفاده کرد. استخراج متن نیز می تواند برای شناسایی یک موضوع / موضوع اصلی سند استفاده شود که در ایجاد طبقه بندی از مجموعه سند مفید است. زمینه های برنامه های کاربردی برای استخراج متن عبارتند از: انتشار، رسانه ها، ارتباطات راه دور، بازاریابی، تحقیق، مراقبت های بهداشتی، پزشکی و غیره. معادله متن نیز برای بسیاری از برنامه های کاربردی در وب جهانی برای توسعه سیستم های توصیه شده مورد استفاده قرار گرفته است. در اینجا پیشنهاد می کنیم مجموعه ای از معیارها را برای ارزیابی اثربخشی تکنیک های استخراج متن در تلاش برای تسهیل انتخاب روش مناسب.

مقدمه

دانشمندان در مورد داده ها و یا استخراج متن از پایگاه داده مهم و نسبتا بزرگتر توسط بسیاری از محققان و محققان به رسمیت شناخته شده است. داده کاوی یا کشف دانش، به خوبی بر روی اطلاعات ذخیره شده در شیوه ساختاری کار می کند. اغلب داده هایی که هنوز به خوبی ساخته نشده اند، هنوز اطلاعات بسیاری را شامل می شوند. استخراج متن مستلزم به طور خودکار تجزیه و تحلیل یک دسته از اسناد متنی و کشف اطلاعات قبلا پنهان است. نتیجه ممکن است یک قطعه دیگر از متن یا هر نمایش بصری باشد. ما با استخراج اطلاعات مفیدی از متن مانند واقعیت ها و رویدادها شروع می کنیم و در نهایت برخی از وظایف داده کاوی را برای کسب دانش جدید انجام می دهیم. معادله متن عموما شامل طبقه بندی اطلاعات یا متن، خوشه بندی متن، استخراج مفهوم یا مفهوم، توسعه و فرموله کردن طبقه بندی های عمومی است. معادلات متن با اطلاعات غیر ساختاری یا متنی برای استخراج اطلاعات و دانش معنی دار از مقدار زیادی متن استفاده می شود. آنها برای تجزیه و تحلیل کارآمد و اکتشاف اطلاعات موجود در فرم متنی مورد نیاز هستند. معادله متن مورد نیاز برای تبدیل متن به داده است که سپس از طریق سایر تکنیک های داده کاوی برای تجزیه و تحلیل عبور می کند. اغلب زمان ها، داده هایی که ما از منابع مختلف جمع آوری می کنیم بسیار زیاد است و ما نمی توانیم آن را بخوانیم و آن را به صورت دستی تجزیه و تحلیل کنیم، بنابراین ما نیاز به تکنیک های استخراج متن برای مقابله با چنین داده ها هستیم. شناسایی و جداسازی انواع خاصی از اطلاعات از متن داده شده، نیازمند تکنیک های یا روش های استخراج متن است. این روش همچنین به خوشه بندی داده ها به گروه های مختلف بر اساس الزامات خاص کمک می کند.

Year: 2015

Publisher : ELSEVIER

By : Hussein Hashimi , Alaaeldin Hafez, Hassan Mathkour

File Information: English Language/ 5 Page / size: 423 KB

Download

سال : 1394

ناشر : ELSEVIER

کاری از : حسین هاشمی ، علاءالدین حافظ، حسن متکورi

اطلاعات فایل : زبان انگلیسی / 5 صفحه / حجم : KB 423

لینک دانلود

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگو شرکت کنید؟
نظری بدهید!

دیدگاهتان را بنویسید