Encontros Bibli (Jan 2008)

Minería de textos: la nueva generación de análisis de literatura científica en biología molecular y genómica <p> Text-mining: the new generation of scientific literature analysis in molecular biology and genomics

  • Carmen Gálvez

Journal volume & issue
Vol. 13, no. 25
pp. 1 – 14

Abstract

Read online

Una vez descifrado la secuencia del genoma humano, el paradigma de investigación ha cambiado dando paso a la descripción de las funciones de los genes y a futuros avances en la lucha contra enfermedades. Este nuevo contexto ha despertado el interés de la Bioinformática, que combina métodos de las Ciencias de la Vida con las Ciencias de la Información haciendo posible el acceso a la gran cantidad de información biológica almacenada en las bases de datos, y de la Genómica, dedicada al estudio de las interacciones de los genes y su influencia en el desarrollo de enfermedades. En este contexto, la minería de textos surge como un instrumento emergente para el análisis de la literatura científica. Una tarea habitual de la minería de textos en Biología Molecular y Genómica es el reconocimiento de entidades biológicas, tales como genes, proteínas y enfermedades. El paso siguiente en el proceso de minería lo constituye la dentificación entre entidades biológicas, tales como el tipo de interacción entre gen-gen, gen-enfermedad, gen-proteína, para interpretar funciones biológicas, o formular hipótesis de investigación. El objetivo de este trabajo es examinar el auge y las limitaciones la nueva generación de herramientas de análisis de la información en lenguaje natural, almacenada en bases de datos bibliográficas, como PubMed o MEDLINE.Since human genome sequences were first decoded, the paradigm of investigation has changed leading to the description of the functions of the genes and to future advances in the fight against diseases. This new context has awoke the interest of the Bioinformatics, that combines methods of the Life Science with the Information Sciences, making the access to the great quantity of biological information stored in the databases, and of the Genomics, dedicated to the study of the interactions of the genes and its influence in the development of diseases. In this context, the text mining arises like an emerging instrument for the analysis of the scientific literature. A habitual task of text-mining in Molecular Biology and Genomics is the recognition of biological entities, such as genes, proteins and diseases. The following step in the process of text-mining constitutes it the identification among biological entities (such as the type of interaction among gene-gene, gene-disease, gene-protein) to interpret biological functions, or to formulate research hypothesis. The objective of this work is to examine the growth and the limitations the new analysis tools of the information in natural language, stored in unstructured textual databases or bibliographical databases, such as MEDLINE or PubMed.

Keywords