Revista Facultad de Ingeniería Universidad de Antioquia (Jan 2016)

Applicability of semi-supervised learning assumptions for gene ontology terms prediction

  • Jorge Alberto Jaramillo-Garzón,
  • César Germán Castellanos-Domínguez,
  • Alexandre Perera-Lluna

Journal volume & issue
no. 79
pp. 19 – 32

Abstract

Read online

: La Ontología Genética (GO) es uno de los recursos más importantes en la bioinformática, el cual busca proporcionar un marco de trabajo unificado para la anotación biológica de genes y proteínas de todas las especies. La predicción de términos GO es una tarea esencial en bioinformática, pero el número de secuencias etiquetadas que se encuentran disponibles es insuficiente en muchos casos para entrenar sistemas confiables de aprendizaje de máquina. El aprendizaje semi-supervisado aparece entonces como una poderosa solución que explota la información contenida en los datos no etiquetados, con el fin de mejorar las estimaciones de las aplicaciones supervisadas tradicionales. Sin embargo, los métodos semi-supervisados deben hacer suposiciones fuertes sobre la naturaleza de los datos de entrenamiento y, por lo tanto, el desempeño de los predictores es altamente dependiente de estas suposiciones. En este artículo se presenta un análisis de la aplicabilidad de las diferentes suposiciones del aprendizaje semi-supervisado en la tarea específica de predicción de términos GO, con el fin de proveer elementos de juicio que permitan escoger las herramientas más adecuadas para términos GO específicos. Los resultados muestran que los métodos semi-supervisados superan significativamente a los métodos tradicionales supervisados y que los desempeños más altos son alcanzados cuando se implementa la suposición de cluster. Además se comprueba experimentalmente que las suposiciones de cluster y manifold son complementarias entre sí y se realiza un análisis de cuáles términos GO pueden ser más susceptibles de ser correctamente predichos usando cada una de éstas.

Keywords