توضیحات
ABSTRACT
The amount of available biological information is rapidly increasing and the focus of biological research has moved from single components to networks and even larger projects aiming at the analysis, modelling and simulation of biological networks as well as large scale comparison of cellular properties. It is therefore essential that biological knowledge is easily accessible. However, most information is contained in the written literature in an unstructured way, so that methods for the systematic extraction of knowledge directly from the primary literature have to be deployed. Description: Here we present a text mining algorithm for the extraction of kinetic information such as KM, Ki, kcat etc. as well as associated information such as enzyme names, EC numbers, ligands, organisms, localisations, pH and temperatures. Using this rule- and dictionary- based approach, it was possible to extract 514,394 kinetic parameters of 13 categories (KM, Ki, kcat, kcat/KM, Vmax, IC50, S0.5, Kd, Ka, t1/2, pI, nH, specific activity, Vmax/KM) from about 17 million PubMed abstracts and combine them with other data in the abstract. A manual verification of approx. 1,000 randomly chosen results yielded a recall between 51% and 84% and a precision ranging from 55% to 96%, depending of the category searched. The results were stored in a database and are available as “KID the KInetic Database” via the internet.
INTRODUCTION
The availability of a number of different OMICS technologies has made it possible that – in addition to the traditional molecular biology methods – whole “systems”, from molecular networks via cells and organs to whole organisms have become the focus of large scale research projects in all biosciences. Whereas it is still possible to manually follow the literature in a certain limited area the rapid growth of scientific literature does not allow to e.g. extract the information on all enzymes in a certain organism from the literature in a sensible time, or to make large scale comparisons between the metabolic functions of different organisms. Moreover in areas of drug development the knowledge on binding properties between enzyme and ligand is essential.
چکیده
مقدار اطلاعات بیولوژیکی موجود به سرعت در حال افزایش است و کانون توجه پژوهش های زیستی است که از اجزای تک به شبکه ها و پروژه های حتی بزرگتر با هدف تجزیه و تحلیل، مدلسازی و شبیه سازی شبکه های بیولوژیکی و همچنین مقایسه در مقیاس بزرگ از خواص سلولی نقل مکان کرد. بنابراین ضروری است که دانش زیست شناسی به راحتی قابل دسترسی باشد. با این حال، بسیاری از این اطلاعات را در ادبیات نوشته شده در یک راه بدون ساختار موجود، به طوری که روش برای استخراج سیستماتیک دانش به طور مستقیم از ادبیات اولیه به مستقر می شود. توضیحات: در اینجا ما در حال حاضر یک الگوریتم استخراج متن برای استخراج اطلاعات جنبشی مانند KM، کی، kcat و غیره و همچنین اطلاعات مربوط به مانند نام آنزیم، اعداد EC، لیگاندهای، موجودات زنده، بومی سازی، pH و درجه حرارت. با استفاده از این رویکرد rule- و دیکشنری بر اساس، ممکن بود برای استخراج 514394 پارامترهای جنبشی 13 عناوین (KM، کی، kcat، kcat / KM، Vmax برداشت، IC50، S0.5، KD، کا، T1 / 2، PI، nH، فعالیت خاص، Vmax / KM) از حدود 17 میلیون خلاصه کتاب PubMed و ترکیب آنها با سایر داده ها در خلاصه. بررسی دستی تقریبا 1،000 نتایج به صورت تصادفی انتخاب شده بین 51٪ تا 84٪ و دقت بین 55٪ تا 96٪ بسته به نوع جستجو مورد استفاده قرار گرفتند. نتایج در یک پایگاه داده ذخیره شده و از طریق اینترنت به عنوان “KID پایگاه داده KInetic” در دسترس هستند.
مقدمه
در دسترس بودن تعدادی از تکنولوژی های مختلف OMICS امکان پذیر است که – علاوه بر روش های زیست شناسی مولکولی سنتی – کل سیستم ها، از شبکه های مولکولی از طریق سلول ها و اندام ها به کل ارگانیسم ها، تمرکز پروژه های تحقیقاتی گسترده در همه علوم انسانی در حالی که هنوز دستیابی به ادبیات به صورت دستی در یک منطقه محدود خاص امکان پذیر است، رشد سریع ادبیات علمی اجازه نمی دهد، به عنوان مثال اطلاعات مربوط به تمام آنزیم های موجود در یک ارگانیزم خاص را از ادبیات در زمان معقول استخراج و یا مقایسه های گسترده بین توابع متابولیکی موجودات مختلف را استخراج کنید. علاوه بر این در زمینه های توسعه دارو، دانش خواص اتصال بین آنزیم و لیگاند ضروری است.
Year: 2010
Publisher : ELSEVIER
By : Stephanie Heinen , Bernhard Thielen and Dietmar Schomburg
File Information: English Language/ 9 Page / size: 193 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1389
ناشر : ELSEVIER
کاری از : استفانی هینن، برنارد تیلن و دیترام شومبرگ
اطلاعات فایل : زبان انگلیسی / 9 صفحه / حجم : KB 193
نقد و بررسیها
هنوز بررسیای ثبت نشده است.