Revista Cubana de Ciencias Informáticas (May 2012)
Using multi-classifiers to predict HIV drug resistance Predicción de resistencia a fármacos del VIH utilizando multiclasificadores
Abstract
Protein to nine inhibitors. A multiclassifier which makes clusters to divide the dataset considering the base classifiers performance is particularly used. The system learns how to decide from the group, which are the best classifiers for a given pattern, using a meta-classifier. The datasets were built starting from the pairs genotype-phenotype, available on Stanford database. A tool to convert a dataset from a format to another one was developed and it was used for this purpose. An extension of the Weka Machine Learning Workbench was used to train the classifiers. The choice of the base classifiers was done by using a tool for calculating some diversity measures, which were developed for improving that process. The results were compared to the ones reached for other classifiers and multiclassifiers. So we could determine the multiclassifier with the best performance for each inhibitor, which reached correct classifications up to 97% for most of the datasets. The trained multiclassifiers can be used to predict the resistance of new VIH mutations to these drugs. El presente trabajo muestra el uso de multiclasificadores para mejorar la predicción de resistencia de la proteína transcriptasa inversa, ante 9 inhibidores de la misma. Específicamente se utiliza un multiclasificador que divide la base en conjuntos de casos bien clasificados por los diferentes clasificadores bases, combinando las salidas con un metaclasificador. Las bases de casos se construyeron a partir de la relación genotipo-fenotipo de varios mutantes del virus, disponible en la base de datos de Stanford, para lo que se utilizó una herramienta desarrollada con este propósito. Para entrenar los clasificadores y multiclasificadores se utilizó una extensión de la plataforma de aprendizaje automatizado Weka. La selección de los clasificadores de base se facilitó con la implementación de una aplicación para el cálculo de diferentes medidas de diversidad. Los resultados fueron comparados con otros clasificadores y multiclasificadores, determinando para cada inhibidor, aquel con mejores resultados, logrando una efectividad superior al 97% en la mayoría de los casos. Los multiclasificadores entrenados, podrán utilizarse para predecir la resistencia a estos fármacos, partiendo de la información genética de nuevas cepas del virus.