Forecasting SARS-CoV-2 spike protein evolution from small data by deep learning and regression

Samuel King; Samuel King; Samuel King; Xinyi E. Chen; Xinyi E. Chen; Xinyi E. Chen; Sarah W. S. Ng; Sarah W. S. Ng; Sarah W. S. Ng; Kimia Rostin; Kimia Rostin; Kimia Rostin; Samuel V. Hahn; Samuel V. Hahn; Tylo Roberts; Tylo Roberts; Janella C. Schwab; Janella C. Schwab; Parneet Sekhon; Parneet Sekhon; Madina Kagieva; Madina Kagieva; Madina Kagieva; Taylor Reilly; Taylor Reilly; Taylor Reilly; Ruo Chen Qi; Ruo Chen Qi; Paarsa Salman; Paarsa Salman; Paarsa Salman; Ryan J. Hong; Ryan J. Hong; Eric J. Ma; Steven J. Hallam; Steven J. Hallam; Steven J. Hallam; Steven J. Hallam; Steven J. Hallam; Steven J. Hallam

doi:10.3389/fsysb.2024.1284668

Frontiers in Systems Biology (Apr 2024)

Forecasting SARS-CoV-2 spike protein evolution from small data by deep learning and regression

Samuel King,
Samuel King,
Samuel King,
Xinyi E. Chen,
Xinyi E. Chen,
Xinyi E. Chen,
Sarah W. S. Ng,
Sarah W. S. Ng,
Sarah W. S. Ng,
Kimia Rostin,
Kimia Rostin,
Kimia Rostin,
Samuel V. Hahn,
Samuel V. Hahn,
Tylo Roberts,
Tylo Roberts,
Janella C. Schwab,
Janella C. Schwab,
Parneet Sekhon,
Parneet Sekhon,
Madina Kagieva,
Madina Kagieva,
Madina Kagieva,
Taylor Reilly,
Taylor Reilly,
Taylor Reilly,
Ruo Chen Qi,
Ruo Chen Qi,
Paarsa Salman,
Paarsa Salman,
Paarsa Salman,
Ryan J. Hong,
Ryan J. Hong,
Eric J. Ma,
Steven J. Hallam,
Steven J. Hallam,
Steven J. Hallam,
Steven J. Hallam,
Steven J. Hallam,
Steven J. Hallam

Affiliations

Samuel King: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Samuel King: Department of Botany, University of British Columbia, Vancouver, BC, Canada
Samuel King: Department of Zoology, University of British Columbia, Vancouver, BC, Canada
Xinyi E. Chen: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Xinyi E. Chen: Department of Microbiology and Immunology, University of British Columbia, Vancouver, BC, Canada
Xinyi E. Chen: Department of Computer Science, University of British Columbia, Vancouver, BC, Canada
Sarah W. S. Ng: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Sarah W. S. Ng: Department of Microbiology and Immunology, University of British Columbia, Vancouver, BC, Canada
Sarah W. S. Ng: Department of Computer Science, University of British Columbia, Vancouver, BC, Canada
Kimia Rostin: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Kimia Rostin: Department of Microbiology and Immunology, University of British Columbia, Vancouver, BC, Canada
Kimia Rostin: Department of Computer Science, University of British Columbia, Vancouver, BC, Canada
Samuel V. Hahn: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Samuel V. Hahn: Department of Chemical and Biological Engineering, University of British Columbia, Vancouver, BC, Canada
Tylo Roberts: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Tylo Roberts: Department of Microbiology and Immunology, University of British Columbia, Vancouver, BC, Canada
Janella C. Schwab: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Janella C. Schwab: Faculty of Land and Food Systems, University of British Columbia, Vancouver, BC, Canada
Parneet Sekhon: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Parneet Sekhon: Department of Microbiology and Immunology, University of British Columbia, Vancouver, BC, Canada
Madina Kagieva: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Madina Kagieva: Department of Botany, University of British Columbia, Vancouver, BC, Canada
Madina Kagieva: Department of Zoology, University of British Columbia, Vancouver, BC, Canada
Taylor Reilly: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Taylor Reilly: Department of Botany, University of British Columbia, Vancouver, BC, Canada
Taylor Reilly: Department of Zoology, University of British Columbia, Vancouver, BC, Canada
Ruo Chen Qi: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Ruo Chen Qi: Department of Cellular, Anatomical, and Physiological Sciences, University of British Columbia, Vancouver, BC, Canada
Paarsa Salman: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Paarsa Salman: Department of Botany, University of British Columbia, Vancouver, BC, Canada
Paarsa Salman: Department of Zoology, University of British Columbia, Vancouver, BC, Canada
Ryan J. Hong: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Ryan J. Hong: Department of Microbiology and Immunology, University of British Columbia, Vancouver, BC, Canada
Eric J. Ma: Independent Researcher, Cambridge, MA, United States
Steven J. Hallam: International Genetically Engineered Machine (iGEM) Team, University of British Columbia, Vancouver, BC, Canada
Steven J. Hallam: Department of Microbiology and Immunology, University of British Columbia, Vancouver, BC, Canada
Steven J. Hallam: 0Graduate Program in Bioinformatics, University of British Columbia, Vancouver, BC, Canada
Steven J. Hallam: 1Genome Science and Technology Program, University of British Columbia, Vancouver, BC, Canada
Steven J. Hallam: 2Life Sciences Institute, University of British Columbia, Vancouver, BC, Canada
Steven J. Hallam: 3ECOSCOPE Training Program, University of British Columbia, Vancouver, BC, Canada

DOI: https://doi.org/10.3389/fsysb.2024.1284668
Journal volume & issue: Vol. 4

Abstract

Read online

The emergence of SARS-CoV-2 variants during the COVID-19 pandemic caused frequent global outbreaks that confounded public health efforts across many jurisdictions, highlighting the need for better understanding and prediction of viral evolution. Predictive models have been shown to support disease prevention efforts, such as with the seasonal influenza vaccine, but they require abundant data. For emerging viruses of concern, such models should ideally function with relatively sparse data typically encountered at the early stages of a viral outbreak. Conventional discrete approaches have proven difficult to develop due to the spurious and reversible nature of amino acid mutations and the overwhelming number of possible protein sequences adding computational complexity. We hypothesized that these challenges could be addressed by encoding discrete protein sequences into continuous numbers, effectively reducing the data size while enhancing the resolution of evolutionarily relevant differences. To this end, we developed a viral protein evolution prediction model (VPRE), which reduces amino acid sequences into continuous numbers by using an artificial neural network called a variational autoencoder (VAE) and models their most statistically likely evolutionary trajectories over time using Gaussian process (GP) regression. To demonstrate VPRE, we used a small amount of early SARS-CoV-2 spike protein sequences. We show that the VAE can be trained on a synthetic dataset based on this data. To recapitulate evolution along a phylogenetic path, we used only 104 spike protein sequences and trained the GP regression with the numerical variables to project evolution up to 5 months into the future. Our predictions contained novel variants and the most frequent prediction mapped primarily to a sequence that differed by only a single amino acid from the most reported spike protein within the prediction timeframe. Novel variants in the spike receptor binding domain (RBD) were capable of binding human angiotensin-converting enzyme 2 (ACE2) in silico, with comparable or better binding than previously resolved RBD-ACE2 complexes. Together, these results indicate the utility and tractability of combining deep learning and regression to model viral protein evolution with relatively sparse datasets, toward developing more effective medical interventions.

Published in Frontiers in Systems Biology

ISSN: 2674-0702 (Online)
Publisher: Frontiers Media S.A.
Country of publisher: Switzerland
LCC subjects: Science: Physiology
Website: https://www.frontiersin.org/journals/systems-biology

About the journal

Abstract

Keywords