توضیحات
چکیده
داده کاوی، پایگاه ها و مجموعه های حجیم داده را برای کشف و استخراج دانش، مورد تحلیل قرار می دهد. در سال های اخیر داده کاوی، با توجه به دسترسی گسترده به مقادیر بسیار زیاد داده و نیاز به تبدیل چنین داده هایی به اطلاعات و دانش مفید، در صنعت اطلاعات و در کل جامعه، توجه زیادی را به خود جلب کرده است. اطلاعات و دانش حاصل می تواند برای برنامه های کاربردی نظیر تجزیه و تحلیل بازار، تشخیص تقلب، حفظ مشتری، کنترل تولید و اکتشاف علمی و … استفاده شود. یکی از مشهورترین تکنیک های داده کاوی برای تصمیم گیرندگان تجاری در پایگاه داده های بزرگ استخراج قوانین وابستگی است. کشف قوانین وابستگی در قلب داده کاوی قرار دارد. پیدا کردن مجموعه داده های تکراری، فرآیند اصلی در یافتن قانون وابستگی است. الگوریتم های بسیار زیادی برای پیدا کردن الگوهای تکراری وجود دارند که در این مقاله تعدادی از آن ها ارایه شده است. Apriori و FP-tree متداول ترین روش ها برای یافتن آیتم های مکرر هستند. روش های دیگر از جمله Apriori TID، AIS، SETM و TR-FCTM² می باشند. Apriori با استفاده از تولید کاندیدا با تعداد بیشتری از اسکن های پایگاه داده، تعداد قابل ملاحظه ای آیتم تکراری پیدا می کند. FP-tree برای پیدا کردن آیتم های تکراری از دو اسکن پایگاه داده بدون استفاده از تولید کاندید استفاده می کند. روش TR-FCTM با ایجاد یکباره ی کاندیدها به منظور تشکیل جدول شمارش تکرار با یک اسکن پایگاه داده، آیتم های تکراری را پیدا می کند. بررسی ها نشان می دهد که الگوریتم TR-FCTM عملکرد بهتری نسبت به Apriori و FP-tree دارد.
مقدمه
در سالهای اخیر با بیشتر شدن کارهای کامپیوتری، پیشرفتی نمایی در تولید و کنترل اطلاعات الکترونیک به وجود آمده است. هر سازمان یا شرکتی به این نتیجه رسیده است که اطلاعات بشه دست آمده در طی سالیان متوالی یک مزیت استراتژیک با اهمیت است و نتایج مفید بالقوهی بسیاری در این مقادیر بسیار زیاد داده وجود نیازمند تکنیک دارند. از این رو هایی برای استخراج اطلاعات ارزشمند از این مجموعه داده ها هستیم .
ABSTRACT
Data mining, databases, and massive data collections for discovering and extracting knowledge. In recent years, data mining has attracted much attention in the information industry and in the whole society, given the vast amount of access to large amounts of data and the need to turn such data into useful information and knowledge. The resulting information and knowledge can be used for applications such as market analysis, fraud detection, customer retention, production control and scientific discovery. One of the most famous data mining techniques for business decision makers in large databases is extracting dependency laws. The discovery of dependency laws is at the heart of data mining. Finding duplicate datasets is the main process in finding dependency law. There are many algorithms to find duplicate patterns, some of which are presented in this article. Apriori and FP-tree are the most common ways to find items. Other methods include Apriori TID, AIS, SETM and TR-FCTM². Apriori finds a significant number of duplicate items using the candidate’s production with more database scans. FP-tree uses two scans of the database without the use of candidate production to find duplicate items. The TR-FCTM method finds duplicate items by creating candidates at once to create a repeat count table with a database scan. Studies show that the TR-FCTM algorithm performs better than Apriori and FP-tree.
INTRODUCTION
In recent years, with the increasing number of computer tasks, there has been an improvement in the production and control of electronic information. Any organization or company has come to the conclusion that the information obtained over the years has had a strategic advantage, and many beneficial results in these large amounts of data require techniques. These are ways to extract valuable information from this data set.
Year: 2018
Publisher : Second National Conference on Knowledge and Technology of Engineering Sciences of Iran
By : Azadeh Pirhati
File Information: Persian Language/ 6 Page / size: 412 KB
سال : 1397
ناشر : : دومین کنفرانس ملی دانش و فناوری علوم مهندسی ایران
کاری از : آزاده پیرحیاتی
اطلاعات فایل : زبان فارسی / 6 صفحه / حجم : KB 412
نقد و بررسیها
هنوز بررسیای ثبت نشده است.