Predicción de la toxicidad de líquidos iónicos utilizando los descriptores moleculares ECFP y ACSF en conjunto con algoritmos de aprendizaje máquina

Arnulfo Castro-Vázquez; Reyna García-Guadarrama; Marco Tulio Gallo Estrada

doi:10.21640/ns.v16i32.3433

Nova Scientia (Apr 2024)

Predicción de la toxicidad de líquidos iónicos utilizando los descriptores moleculares ECFP y ACSF en conjunto con algoritmos de aprendizaje máquina

Arnulfo Castro-Vázquez,
Reyna García-Guadarrama,
Marco Tulio Gallo Estrada

Affiliations

Arnulfo Castro-Vázquez: ORCiD; Tecnológico Nacional de México, Instituto Tecnológico de Ciudad Cuauhtémoc. Chihuahua, México / Universidad Autónoma de Ciudad Juárez, Instituto de Ingeniería y Tecnología. Chihuahua, México
Reyna García-Guadarrama: ORCiD; Tecnológico Nacional de México, Instituto Tecnológico de Ciudad Cuauhtémoc. Chihuahua, México
Marco Tulio Gallo Estrada: ORCiD; Tecnológico Nacional de México, Instituto Tecnológico de Ciudad Juárez. Chihuahua, México

DOI: https://doi.org/10.21640/ns.v16i32.3433
Journal volume & issue: Vol. 16, no. 32

Abstract

Read online

En este trabajo se describe el proceso de predicción de toxicidad de los líquidos iónicos, en particular con respecto a la línea celular en ratas IPC-81. Se estudiaron 355 estructuras moleculares de líquidos iónicos, cuya geometría tridimensional está codificada mediante cadenas de símbolos en lenguaje Simplified Molecular Input Line Entry System (SMILES). La alimentación de los datos de entrada a los diferentes modelos de aprendizaje máquina requiere que la información geométrica y de contactos atómicos cercanos de cada liquido iónico sea mapeada o trasformada a notación vectorial numérica (xi) utilizando los siguientes descriptores moleculares: funciones de simetría centradas en cada átomo Atom-Centered Symmetry Functions (ACSF), y huellas digitales de conectividad extendida Extended Connectivity Fingerprints (ECFP). Se usaron tres algoritmos de aprendizaje máquina: Extreme Gradient Boosting (XGBoost), Support Vector Regression (SVR) y Kernel Ridge Regression (KRR) para construir el modelo matemático de regresión predictivo que relacione los valores de entrada xi con el valor de respuesta representado por el logaritmo de la concentración media efectiva (yi = logEC50) en la evaluación de toxicidad, usando como métrica del grado de ajuste, el coeficiente de determinación (r2). Los resultados indican que la combinación ECFP, con una distancia radial de 6 vecinos atómicos, en conjunto con el algoritmo KRR, proporciona el mejor ajuste promedio con r2=0.8602±0.032, y con respecto al descriptor molecular ACSF, el mejor ajuste promedio se obtuvo con el algoritmo XGBoost con r2=0.8029±0.055.

Published in Nova Scientia

ISSN: 2007-0705 (Online)
Publisher: Universidad De La Salle Bajío
Country of publisher: Mexico
LCC subjects: Science: Science (General); Social Sciences: Social sciences (General)
Website: http://novascientia.delasalle.edu.mx/

About the journal

Abstract

Keywords