Integration-of-the-extracted-data-to-produce.[taliem.ir]

Integration of the extracted data to produce a consistent and coherent database

ABSTRACT

we studied data extraction  from Web pages. The extracted data is put in tables. For an application, it is, however, often not sufficient to extract data from only a single site. Instead, data from a large number of sites are gathered in order to provide value-added services. In such cases, extraction is only part of the story. The other part is the integration of the extracted data to produce a consistent and coherent database because different sites typically use different data formats. Intuitively, integration means to match columns in different data tables that contain the same type of information (e.g., product names) and to match values that are semantically identical but represented differently in different Web sites (e.g., “ Coke” and “Coca Cola”). Unfortunately, limited integration research has been done so far in this specific context. Much of the Web information integration research has been focused on the integration of Web query interfaces. This chapter will have several sections on their integration. However ,many ideas developed are also applicable to the integration of the extracted data because the problems are similar.

INTRODUCTION

Web query interfaces are used to formulate queries to retrieve needed data from Web databases (called the deep Web). Figure 10.1 shows two query interfaces from two travel sites, expedia.com and vacation.com. The user who wants to buy an air ticket typically tries many sites to find the cheapest ticket. Given a large number of alternative sites, he/she has to access each individually in order to find the best price, which is tedious. To reduce the manual effort, we can construct a global query interface that allows uniform access to disparate relevant sources. The user can then fill in his/her requirements in this single global interface and all the underlying sources (or databases) will be automatically filled and searched. The retrieved results from multiple sources also need to be integrated. Both integration problems, i.e., integration of query interfaces  and integration of returned results, are very challenging due to the heterogeneity of Web sites. Clearly, integration is not peculiar only to the Web. It was, in fact, first studied in the context of relational databases and data warehouse. Hence, this chapter first introduces most integration related concepts using traditional data models (e.g., relational) and then shows how the concepts are tailored to Web applications and how Web specific problems are handled.

چکیده

ما از استخراج اطلاعات از صفحات وب مطالعه کردیم. داده های استخراج شده در جداول قرار داده شده است. با این حال، برای یک برنامه کاربردی، اغلب برای استخراج داده ها از یک سایت تنها کافی نیست. در عوض، داده ها از تعداد زیادی از سایت ها برای ارائه خدمات ارزش افزوده جمع آوری می شوند. در چنین مواردی استخراج تنها بخشی از داستان است. بخش دیگر ادغام داده های استخراج شده برای ایجاد یک پایگاه داده سازگار و یکپارچه است زیرا سایت های مختلف معمولا از فرمت های مختلف داده استفاده می کنند. به طور یکپارچه، یکپارچگی به معنای دسته بندی ستون ها در جداول داده های مختلف است که حاوی همان نوع اطلاعات (به عنوان مثال نام محصولات) و برای مطابقت با مقادیری هستند که از لحاظ معنایی یکسان هستند، اما در سایت های مختلف مختلف متفاوت است (مانند “کک” و “کوکا کولا” ) متاسفانه تحقیقات محدودی در این زمینه خاص انجام شده است. بخش عمده ای از تحقیقات ادغام اطلاعات وب بر روی ادغام رابط های پرس و جو وب متمرکز شده است. این بخش چندین بخش را در مورد ادغام آنها ایجاد خواهد کرد. با این حال، بسیاری از ایده های توسعه یافته نیز برای ادغام داده های استخراج شده قابل استفاده هستند، زیرا مشکلات مشابه هستند.

مقدمه

رابط پرس و جو پرس وجو برای فرموله کردن پرسش ها برای بازیابی اطلاعات مورد نیاز از پایگاه داده های وب (به نام وب عمیق) استفاده می شود. شکل 10.1 دو رابط پرس و جو از دو سایت سفر، expedia.com و vacation.com را نشان می دهد. کاربرانی که می خواهند برای خرید بلیط هواپیما به طور معمول تلاش می کنند بسیاری از سایت ها برای پیدا کردن ارزان ترین بلیط. با توجه به تعداد زیادی از سایت های جایگزین، او می بایست به طور فردی برای دسترسی به بهترین قیمت، که خسته کننده است، دسترسی پیدا کند. برای کاهش تلاش دستی، می توانیم یک رابط پرس و جو جهانی ایجاد کنیم که امکان دسترسی یکسان به منابع متفاوتی را فراهم می آورد. پس از آن کاربر می تواند نیازهای خود را در این رابط کاربری جهانی تکمیل کند و تمام منابع (یا پایگاه های داده) زیرمجموعه به طور خودکار پر شده و جستجو می شود. نتایج بازیابی از منابع مختلف نیز باید یکپارچه شوند. هر دو مشکل ادغام، به عنوان مثال، ادغام رابط های پرس و جو و ادغام نتایج بازگشت، به دلیل ناهمگونی وب سایت ها بسیار چالش برانگیز است. واضح است که ادغام فقط برای وب غیر عجیب نیست. در واقع، در واقع، ابتدا در زمینه پایگاه داده های ارتباطی و انبار داده مورد مطالعه قرار گرفت. از این رو، در این فصل ابتدا بیشتر مفاهیم مرتبط با یکپارچه سازی را با استفاده از مدل های داده سنتی (به عنوان مثال، ارتباطی) معرفی می کند و سپس نشان می دهد که چگونه مفاهیم به برنامه های کاربردی وب و نحوه برخورد با خاصیت های وب بستگی دارد.

Year: 2016

Publisher: IEEE

By : 0

File Information: English Language/ 30 Page / size: 922 KB

Download

سال : 1395

ناشر : IEEE

کاری از : 0

اطلاعات فایل : زبان انگلیسی / 30 صفحه / حجم : KB 922

لینک دانلود

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگو شرکت کنید؟
نظری بدهید!

دیدگاهتان را بنویسید