An-algorithm-for-fast-and-efficient-text-mining.[taliem.ir]

KID – an algorithm for fast and efficient text mining used to automatically generate a database containing kinetic information of enzymes

ABSTRACT

Background: The amount of available biological information is rapidly increasing and the focus of biological  research has moved from single components to networks and even larger projects aiming at the analysis, modelling and simulation of biological networks as well as large scale comparison of cellular properties. It is therefore essential that biological knowledge is easily accessible. However, most information is contained in the written literature in an unstructured way, so that methods for the systematic extraction of knowledge directly from the primary literature have to be deployed. Description: Here we present a text mining algorithm for the extraction of kinetic information such as KM, Ki, kcat etc. as well as associated information such as enzyme names, EC numbers, ligands, organisms, localisations, pH and temperatures. Using this rule- and dictionary-based approach, it was possible to extract 514,394 kinetic parameters of 13 categories (KM, Ki, kcat, kcat/KM, Vmax, IC50, S0.5, Kd, Ka, t1/2, pI, nH, specific activity, Vmax/KM) from about 17 million PubMed abstracts and combine them with other data in the abstract. A manual verification of approx. 1,000 randomly chosen results yielded a recall between 51% and 84% and a precision ranging from 55% to 96%, depending of the category searched. The results were stored in a database and are available as “KID the  KInetic Database” via the internet.

INTRODUCTION

The availability of a number of different OMICS technologies has made it possible that – in addition to the traditional molecular biology methods – whole “systems”, from molecular networks via cells and organs to whole organisms have become the focus of large scale research projects in all biosciences. Whereas it is still possible to manually follow the literature in a certain limited area the rapid growth of scientific literature does not allow to e.g.  extract the information on all enzymes in a certain organism from the literature in a sensible time, or to make large scale comparisons between the metabolic functions of different organisms. Moreover in areas of drug development the knowledge on binding properties between enzyme and ligand is essential.

چکیده

سابقه و هدف: مقدار اطلاعات بیولوژیکی موجود به سرعت در حال افزایش است و تمرکز تحقیقات بیولوژیکی از مولفه های تک به شبکه ها و حتی پروژه های بزرگتر که به تجزیه و تحلیل، مدل سازی و شبیه سازی شبکه های بیولوژیکی و مقایسه مقیاس های خواص سلولی منتهی شده است، منتقل شده است. بنابراین ضروری است که دانش زیست شناسی به راحتی قابل دسترسی باشد. با این حال، بیشتر اطلاعات در ادبیات نوشته شده در روش غیر ساختاری، به طوری که روش های استخراج سیستماتیک دانش به طور مستقیم از ادبیات اولیه قرار گرفته است. توضیحات: در اینجا ما یک الگوریتم استخراج متن برای استخراج اطلاعات جنبشی از قبیل KM، Ki، kcat و غیره و همچنین اطلاعات مربوطه مانند نام آنزیم، شماره EC، لیگاند، ارگانیسم ها، محل های محلول، pH و درجه حرارت ارائه می دهیم. با استفاده از این رویکرد مبتنی بر فرهنگ و حکومت، امکان استخراج 514394 پارامتر جنبشی از 13 دسته (KM، Ki، kcat، kcat / KM، Vmax، IC50، S0.5، Kd، Ka، t1 / 2، PI، nH، فعالیت خاص، Vmax / KM) از حدود 17 میلیون خلاصه کتاب PubMed و ترکیب آنها با سایر داده ها در خلاصه. بررسی دستی تقریبا 1،000 نتایج به صورت تصادفی انتخاب شده بین 51٪ تا 84٪ و دقت بین 55٪ تا 96٪ بسته به نوع جستجو مورد استفاده قرار گرفتند. نتایج در یک پایگاه داده ذخیره شده و از طریق اینترنت به عنوان “KID پایگاه داده KInetic” در دسترس هستند.

مقدمه

در دسترس بودن تعدادی از تکنولوژی های مختلف OMICS امکان پذیر است که – علاوه بر روش های زیست شناسی مولکولی سنتی – کل سیستم ها، از شبکه های مولکولی از طریق سلول ها و اندام ها به کل ارگانیسم ها، تمرکز پروژه های تحقیقاتی گسترده در همه علوم انسانی در حالی که هنوز دستیابی به ادبیات به صورت دستی در یک منطقه محدود خاص امکان پذیر است، رشد سریع ادبیات علمی اجازه نمی دهد، به عنوان مثال اطلاعات مربوط به تمام آنزیم های موجود در یک ارگانیزم خاص را از ادبیات در زمان معقول استخراج و یا مقایسه های گسترده بین توابع متابولیکی موجودات مختلف را استخراج کنید. علاوه بر این در زمینه های توسعه دارو، دانش خواص اتصال بین آنزیم و لیگاند ضروری است.

Year: 2010

Publisher: BioMed Central Ltd

By :  Stephanie Heinen , Bernhard Thielen and Dietmar Schomburg

File Information: English Language/ 9 Page / size: 627 KB

Download

سال : 1389

ناشر : BioMed Central Ltd

کاری از : استفانی هینن، برنارد تیلن و دیترام شومبرگ

اطلاعات فایل : زبان انگلیسی / 9 صفحه / حجم : KB 627

لینک دانلود

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگو شرکت کنید؟
نظری بدهید!

دیدگاهتان را بنویسید