Evaluation of ChatGPT-Generated Differential Diagnosis for Common Diseases With Atypical Presentation: Descriptive Research

Kiyoshi Shikino; Taro Shimizu; Yuki Otsuka; Masaki Tago; Hiromizu Takahashi; Takashi Watari; Yosuke Sasaki; Gemmei Iizuka; Hiroki Tamura; Koichi Nakashima; Kotaro Kunitomo; Morika Suzuki; Sayaka Aoyama; Shintaro Kosaka; Teiko Kawahigashi; Tomohiro Matsumoto; Fumina Orihara; Toru Morikawa; Toshinori Nishizawa; Yoji Hoshina; Yu Yamamoto; Yuichiro Matsuo; Yuto Unoki; Hirofumi Kimura; Midori Tokushima; Satoshi Watanuki; Takuma Saito; Fumio Otsuka; Yasuharu Tokuda

doi:10.2196/58758

JMIR Medical Education (Jun 2024)

Evaluation of ChatGPT-Generated Differential Diagnosis for Common Diseases With Atypical Presentation: Descriptive Research

Kiyoshi Shikino,
Taro Shimizu,
Yuki Otsuka,
Masaki Tago,
Hiromizu Takahashi,
Takashi Watari,
Yosuke Sasaki,
Gemmei Iizuka,
Hiroki Tamura,
Koichi Nakashima,
Kotaro Kunitomo,
Morika Suzuki,
Sayaka Aoyama,
Shintaro Kosaka,
Teiko Kawahigashi,
Tomohiro Matsumoto,
Fumina Orihara,
Toru Morikawa,
Toshinori Nishizawa,
Yoji Hoshina,
Yu Yamamoto,
Yuichiro Matsuo,
Yuto Unoki,
Hirofumi Kimura,
Midori Tokushima,
Satoshi Watanuki,
Takuma Saito,
Fumio Otsuka,
Yasuharu Tokuda

Affiliations

Kiyoshi Shikino: ORCiD
Taro Shimizu: ORCiD
Yuki Otsuka: ORCiD
Masaki Tago: ORCiD
Hiromizu Takahashi: ORCiD
Takashi Watari: ORCiD
Yosuke Sasaki: ORCiD
Gemmei Iizuka: ORCiD
Hiroki Tamura: ORCiD
Koichi Nakashima: ORCiD
Kotaro Kunitomo: ORCiD
Morika Suzuki: ORCiD
Sayaka Aoyama: ORCiD
Shintaro Kosaka: ORCiD
Teiko Kawahigashi: ORCiD
Tomohiro Matsumoto: ORCiD
Fumina Orihara: ORCiD
Toru Morikawa: ORCiD
Toshinori Nishizawa: ORCiD
Yoji Hoshina: ORCiD
Yu Yamamoto: ORCiD
Yuichiro Matsuo: ORCiD
Yuto Unoki: ORCiD
Hirofumi Kimura: ORCiD
Midori Tokushima: ORCiD
Satoshi Watanuki: ORCiD
Takuma Saito: ORCiD
Fumio Otsuka: ORCiD
Yasuharu Tokuda: ORCiD

DOI: https://doi.org/10.2196/58758
Journal volume & issue: Vol. 10
pp. e58758 – e58758

Abstract

Read online

Abstract BackgroundThe persistence of diagnostic errors, despite advances in medical knowledge and diagnostics, highlights the importance of understanding atypical disease presentations and their contribution to mortality and morbidity. Artificial intelligence (AI), particularly generative pre-trained transformers like GPT-4, holds promise for improving diagnostic accuracy, but requires further exploration in handling atypical presentations. ObjectiveThis study aimed to assess the diagnostic accuracy of ChatGPT in generating differential diagnoses for atypical presentations of common diseases, with a focus on the model’s reliance on patient history during the diagnostic process. MethodsWe used 25 clinical vignettes from the Journal of Generalist Medicine ResultsChatGPT’s diagnostic accuracy decreased with an increase in atypical presentation. For category 1 (C1) cases, the concordance rates were 17% (n=1) for the top 1 and 67% (n=4) for the top 5. Categories 3 (C3) and 4 (C4) showed a 0% concordance for top 1 and markedly lower rates for the top 5, indicating difficulties in handling highly atypical cases. The χ2χ1Pχ1P ConclusionsChatGPT-4 demonstrates potential as an auxiliary tool for diagnosing typical and mildly atypical presentations of common diseases. However, its performance declines with greater atypicality. The study findings underscore the need for AI systems to encompass a broader range of linguistic capabilities, cultural understanding, and diverse clinical scenarios to improve diagnostic utility in real-world settings.

Published in JMIR Medical Education

ISSN: 2369-3762 (Online)
Publisher: JMIR Publications
Country of publisher: Canada
LCC subjects: Education: Special aspects of education; Medicine: Medicine (General)
Website: https://mededu.jmir.org

About the journal