Token-Mol 1.0: tokenized drug design with large language models

Jike Wang; Rui Qin; Mingyang Wang; Meijing Fang; Yangyang Zhang; Yuchen Zhu; Qun Su; Qiaolin Gou; Chao Shen; Odin Zhang; Zhenxing Wu; Dejun Jiang; Xujun Zhang; Huifeng Zhao; Jingxuan Ge; Zhourui Wu; Yu Kang; Chang-Yu Hsieh; Tingjun Hou

doi:10.1038/s41467-025-59628-y

Nature Communications (May 2025)

Token-Mol 1.0: tokenized drug design with large language models

Jike Wang,
Rui Qin,
Mingyang Wang,
Meijing Fang,
Yangyang Zhang,
Yuchen Zhu,
Qun Su,
Qiaolin Gou,
Chao Shen,
Odin Zhang,
Zhenxing Wu,
Dejun Jiang,
Xujun Zhang,
Huifeng Zhao,
Jingxuan Ge,
Zhourui Wu,
Yu Kang,
Chang-Yu Hsieh,
Tingjun Hou

Affiliations

Jike Wang: College of Pharmaceutical Sciences, Zhejiang University
Rui Qin: College of Pharmaceutical Sciences, Zhejiang University
Mingyang Wang: College of Pharmaceutical Sciences, Zhejiang University
Meijing Fang: College of Pharmaceutical Sciences, Zhejiang University
Yangyang Zhang: College of Pharmaceutical Sciences, Zhejiang University
Yuchen Zhu: College of Pharmaceutical Sciences, Zhejiang University
Qun Su: College of Pharmaceutical Sciences, Zhejiang University
Qiaolin Gou: College of Pharmaceutical Sciences, Zhejiang University
Chao Shen: College of Pharmaceutical Sciences, Zhejiang University
Odin Zhang: Paul G. Allen School of Computer Science & Engineering, University of Washington
Zhenxing Wu: College of Pharmaceutical Sciences, Zhejiang University
Dejun Jiang: College of Pharmaceutical Sciences, Zhejiang University
Xujun Zhang: College of Pharmaceutical Sciences, Zhejiang University
Huifeng Zhao: College of Pharmaceutical Sciences, Zhejiang University
Jingxuan Ge: College of Pharmaceutical Sciences, Zhejiang University
Zhourui Wu: Key Laboratory of Spine and Spinal cord Injury Repair and Regeneration, Ministry of Education, Tongji University
Yu Kang: College of Pharmaceutical Sciences, Zhejiang University
Chang-Yu Hsieh: College of Pharmaceutical Sciences, Zhejiang University
Tingjun Hou: College of Pharmaceutical Sciences, Zhejiang University

DOI: https://doi.org/10.1038/s41467-025-59628-y
Journal volume & issue: Vol. 16, no. 1
pp. 1 – 19

Abstract

Read online

Abstract The integration of large language models (LLMs) into drug design is gaining momentum; however, existing approaches often struggle to effectively incorporate three-dimensional molecular structures. Here, we present Token-Mol, a token-only 3D drug design model that encodes both 2D and 3D structural information, along with molecular properties, into discrete tokens. Built on a transformer decoder and trained with causal masking, Token-Mol introduces a Gaussian cross-entropy loss function tailored for regression tasks, enabling superior performance across multiple downstream applications. The model surpasses existing methods, improving molecular conformation generation by over 10% and 20% across two datasets, while outperforming token-only models by 30% in property prediction. In pocket-based molecular generation, it enhances drug-likeness and synthetic accessibility by approximately 11% and 14%, respectively. Notably, Token-Mol operates 35 times faster than expert diffusion models. In real-world validation, it improves success rates and, when combined with reinforcement learning, further optimizes affinity and drug-likeness, advancing AI-driven drug discovery.

Published in Nature Communications

ISSN: 2041-1723 (Online)
Publisher: Nature Portfolio
Country of publisher: United Kingdom
LCC subjects: Science
Website: https://www.nature.com/ncomms/

About the journal