Zhejiang Daxue xuebao. Lixue ban (May 2022)

A machine learning study on gloeobacter violaceus rhodopsin spectral properties(紫色球杆菌视紫红质光谱特性的机器学习研究)

  • JIALili(郏丽丽),
  • SUNTingting(孙婷婷)

DOI
https://doi.org/10.3785/j.issn.1008-9497.2022.03.003
Journal volume & issue
Vol. 49, no. 3
pp. 280 – 286

Abstract

Read online

近年来,机器学习等人工智能技术被应用于蛋白质工程,其在蛋白质结构、功能预测、催化活性等研究中具有独特优势。在未知蛋白质结构的情况下,将蛋白质序列和功能特性与机器学习相结合,基于序列-活性关系(innovative sequence-activity relationship,ISAR)算法,将蛋白质氨基酸序列数字化,用快速傅里叶变换(fast four transform,FFT)进行预处理,再进行偏最小二乘回归建模,可在数据集较少情况下拟合得到最佳模型。通过机器学习对紫色球杆菌视紫红质(gloeobacter violaceus rhodopsin,GR)的突变体蛋白质氨基酸序列与光谱最大吸收波长进行建模,获得了最佳模型。用最佳索引LEVM760106建模得到的确定系数R2为0.944,均方误差E为11.64。用小波变换进行的预处理,其R2虽也约为0.944,但E大于11.64,不及FFT进行的预处理。方法较好地解决了蛋白质序列与功能特性之间的数学建模问题,在蛋白质工程中可为预测更优的突变体提供支持。

Keywords