Dual retrieving and ranking medical large language model with retrieval augmented generation

Qimin Yang; Huan Zuo; Runqi Su; Hanyinghong Su; Tangyi Zeng; Huimei Zhou; Rongsheng Wang; Jiexin Chen; Yijun Lin; Zhiyi Chen; Tao Tan

doi:10.1038/s41598-025-00724-w

Scientific Reports (May 2025)

Dual retrieving and ranking medical large language model with retrieval augmented generation

Qimin Yang,
Huan Zuo,
Runqi Su,
Hanyinghong Su,
Tangyi Zeng,
Huimei Zhou,
Rongsheng Wang,
Jiexin Chen,
Yijun Lin,
Zhiyi Chen,
Tao Tan

Affiliations

Qimin Yang: Faculty of Applied Sciences, Macao Polytechnic University
Huan Zuo: School of Public Health, University of South China
Runqi Su: Faculty of Applied Sciences, Macao Polytechnic University
Hanyinghong Su: School of Public Health, University of South China
Tangyi Zeng: The Affiliated Changsha Central Hospital, Hengyang Medical School, University of South China
Huimei Zhou: The Affiliated Changsha Central Hospital, Hengyang Medical School, University of South China
Rongsheng Wang: Faculty of Applied Sciences, Macao Polytechnic University
Jiexin Chen: Faculty of Applied Sciences, Macao Polytechnic University
Yijun Lin: Faculty of Applied Sciences, Macao Polytechnic University
Zhiyi Chen: School of Public Health, University of South China
Tao Tan: Faculty of Applied Sciences, Macao Polytechnic University

DOI: https://doi.org/10.1038/s41598-025-00724-w
Journal volume & issue: Vol. 15, no. 1
pp. 1 – 10

Abstract

Read online

Abstract Recent advancements in large language models (LLMs) have significantly enhanced text generation across various sectors; however, their medical application faces critical challenges regarding both accuracy and real-time responsiveness. To address these dual challenges, we propose a novel two-step retrieval and ranking retrieval-augmented generation (RAG) framework that synergistically combines embedding search with Elasticsearch technology. Built upon a dynamically updated medical knowledge base incorporating expert-reviewed documents from leading healthcare institutions, our hybrid architecture employs ColBERTv2 for context-aware result ranking while maintaining computational efficiency. Experimental results show a 10% improvement in accuracy for complex medical queries compared to standalone LLM and single-search RAG variants, while acknowledging that latency challenges remain in emergency situations requiring sub-second responses in an experimental setting, which can be achieved in real-time using more powerful hardware in real-world deployments. This work establishes a new paradigm for reliable medical AI assistants that successfully balances accuracy and practical deployment considerations.

Published in Scientific Reports

ISSN: 2045-2322 (Online)
Publisher: Nature Portfolio
Country of publisher: United Kingdom
LCC subjects: Medicine; Science
Website: https://www.nature.com/srep/

About the journal

Abstract

Keywords