A vision transformer machine learning model for COVID-19 diagnosis using chest X-ray images

Tianyi Chen; Ian Philippi; Quoc Bao Phan; Linh Nguyen; Ngoc Thang Bui; Carlo daCunha; Tuy Tan Nguyen

Healthcare Analytics (Jun 2024)

A vision transformer machine learning model for COVID-19 diagnosis using chest X-ray images

Tianyi Chen,
Ian Philippi,
Quoc Bao Phan,
Linh Nguyen,
Ngoc Thang Bui,
Carlo daCunha,
Tuy Tan Nguyen

Affiliations

Tianyi Chen: School of Informatics, Computing, and Cyber Systems, Northern Arizona University, Flagstaff, AZ 86011, USA
Ian Philippi: School of Informatics, Computing, and Cyber Systems, Northern Arizona University, Flagstaff, AZ 86011, USA
Quoc Bao Phan: School of Informatics, Computing, and Cyber Systems, Northern Arizona University, Flagstaff, AZ 86011, USA
Linh Nguyen: School of Informatics, Computing, and Cyber Systems, Northern Arizona University, Flagstaff, AZ 86011, USA
Ngoc Thang Bui: Department of Radiology, Mayo Clinic, Rochester, MN 55905, USA
Carlo daCunha: School of Informatics, Computing, and Cyber Systems, Northern Arizona University, Flagstaff, AZ 86011, USA
Tuy Tan Nguyen: School of Informatics, Computing, and Cyber Systems, Northern Arizona University, Flagstaff, AZ 86011, USA; Corresponding author.

Journal volume & issue: Vol. 5
p. 100332

Abstract

Read online

This study leverages machine learning to enhance the diagnostic accuracy of COVID-19 using chest X-rays. The study evaluates various architectures, including efficient neural networks (EfficientNet), multiscale vision transformers (MViT), efficient vision transformers (EfficientViT), and vision transformers (ViT), against a comprehensive open-source dataset comprising 3616 COVID-19, 6012 lung opacity, 10192 normal, and 1345 viral pneumonia images. The analysis, focusing on loss functions and evaluation metrics, demonstrates distinct performance variations among these models. Notably, multiscale models like MViT and EfficientNet tend towards overfitting. Conversely, our vision transformer model, innovatively fine-tuned (FT) on the encoder blocks, exhibits superior accuracy: 95.79% in four-class, 99.57% in three-class, and similarly high performance in binary classifications, along with a recall of 98.58%, precision of 98.87%, F1 score of 98.73%, specificity of 99.76%, and area under the receiver operating characteristic (ROC) curve (AUC) of 0.9993. The study confirms the vision transformer model’s efficacy through rigorous validation using quantitative metrics and visualization techniques and illustrates its superiority over conventional models. The innovative fine-tuning method applied to vision transformers presents a significant advancement in medical image analysis, offering a promising avenue for improving the accuracy and reliability of COVID-19 diagnosis from chest X-ray images.

Published in Healthcare Analytics

ISSN: 2772-4425 (Online)
Publisher: Elsevier
Country of publisher: United States
LCC subjects: Medicine: Medicine (General): Computer applications to medicine. Medical informatics
Website: https://www.journals.elsevier.com/healthcare-analytics

About the journal

Abstract

Keywords