توضیحات
ABSTRACT
This work presents a new framework as to how web mining is helpful for information retrieval, using ontology and web log files. Ontology plays a major role in the retrieval of semantic data. The researcher has already constructed the string instrument ontology using prote´ge´ 5.0, which helps in refining the web search in music domain. The researcher has proposed a novel approach for ontology management in which the ontology is continuously updated using the knowledge extracted/discovered from the analysis of the log file (specifically the data related to the referrer field) in form of new concepts and new relationships between new and/or existing concepts. The goal of this study is to use data mining algorithms to analyse visitors and visited web pages of the website and somehow characterise or distinguish them in some way. During this the researcher has collected ‘guitar’ web access log from guitar selling website of 363 days of the year 2016. After pre-processing of this log file, two new feature sets have been extracted from ‘guitar’ log file and constructed two files namely ‘File1’ and ‘File 2’. File 2 is also known as query log. Further clustering (EM), association rule finding (Apriori) and sequential patterns (n-gram) algorithms have been applied for suggestions of new concepts to continuously update and improve the existing ontology from time to time.
INTRODUCTION
Web usage mining (WUM) also known as web log mining is the application of data mining techniques applied on web data to extract relevant data and discover useful patterns , with the aim of improving the usefulness of the various web based applications. The process of web usage mining can be broadly divided into four phases—sourcing or collection of data, pre-processing or removal of ‘noise’, discovery . of interesting patterns and the last analysis of the discovered patterns
چکیده
این کار چارچوب جدیدی را برای چگونگی بازیابی اطلاعات وب، با استفاده از هستی شناسی و فایل های وب مجازی ارائه می دهد. هستی شناسی نقش مهمی در بازیابی داده های معنایی ایفا می کند. محقق در حال حاضر ساخت هستی شناسایی ابزار رشته با استفاده از proteege 5.0، که در پالایش جستجوی وب در زمینه موسیقی کمک می کند، ساخته شده است. محقق پیشنهاد روش جدیدی برای مدیریت هستی شناسی کرده است که در آن هستی شناسی به طور مداوم با استفاده از دانش استخراج شده / کشف شده از تجزیه و تحلیل پرونده ورود (به ویژه داده های مرتبط با زمینه ارجاع) به شکل مفاهیم جدید و روابط جدید بین جدید و یا مفاهیم موجود. هدف این مطالعه استفاده از الگوریتم های داده کاوی برای تحلیل دادن بازدیدکنندگان و صفحات وب بازدید شده وب سایت است و به نحوی آنها را مشخص یا مشخص می کند. در طول این پژوهش، محققین از وب سایت فروش گیتار 363 روز از سال 2016، از «وب سایت فروش اینترنتی گیتار» جمع آوری کرده اند. پس از پیش پردازش این فایل ورودی، دو مجموعه جدید از فایل ورودی گیتار استخراج شده و دو فایل یعنی “File1” و “File 2”. پرونده 2 نیز به عنوان ورودی پرس و جو شناخته شده است. الگوریتم های خوشه بندی اضافی (EM)، قاعده سازگاری انجمن (Apriori) و الگوی های ترتیبی (n-gram) برای پیشنهادات مفاهیم جدید به طور مداوم به روز رسانی و بهبود هستی شناسی موجود از زمان به زمان اعمال می شود.
مقدمه
معدن استفاده از وب (WUM) همچنین به عنوان معدن وب معروف شناخته شده است استفاده از تکنیک های داده کاوی بر روی داده های وب برای استخراج داده های مربوطه و کشف الگوهای مفید، با هدف بهبود بهره وری از برنامه های کاربردی مختلف وب است. فرایند استخراج استفاده از وب می تواند به طور گسترده ای به چهار مرحله تهیه و یا جمع آوری اطلاعات، پیش پردازش یا حذف “سر و صدا”، کشف الگوهای جالب و آخرین تجزیه و تحلیل الگوهای کشف شده تقسیم شود.
Year: 2018
Publisher : ELSEVIER
By : Navjot Kaur,Himanshu Aggarwal
File Information: English Language/ 12 Page / size: 902 KB
سال : 1396
ناشر : ELSEVIER
کاری از : Navjot Kaur، Himanshu Aggarwal
اطلاعات فایل : زبان انگلیسی / 12 صفحه / حجم : KB 902
نقد و بررسیها
هنوز بررسیای ثبت نشده است.