Clinical Accuracy, Relevance, Clarity, and Emotional Sensitivity of Large Language Models to Surgical Patient Questions: Cross-Sectional Study

Mert Marcel Dagli; Felix Conrad Oettl; Jaskeerat Gujral; Kashish Malhotra; Yohannes Ghenbot; Jang W Yoon; Ali K Ozturk; William C Welch

doi:10.2196/56165

JMIR Formative Research (Jun 2024)

Clinical Accuracy, Relevance, Clarity, and Emotional Sensitivity of Large Language Models to Surgical Patient Questions: Cross-Sectional Study

Mert Marcel Dagli,
Felix Conrad Oettl,
Jaskeerat Gujral,
Kashish Malhotra,
Yohannes Ghenbot,
Jang W Yoon,
Ali K Ozturk,
William C Welch

Affiliations

Mert Marcel Dagli: ORCiD
Felix Conrad Oettl: ORCiD
Jaskeerat Gujral: ORCiD
Kashish Malhotra: ORCiD
Yohannes Ghenbot: ORCiD
Jang W Yoon: ORCiD
Ali K Ozturk: ORCiD
William C Welch: ORCiD

DOI: https://doi.org/10.2196/56165
Journal volume & issue: Vol. 8
p. e56165

Abstract

Read online

This cross-sectional study evaluates the clinical accuracy, relevance, clarity, and emotional sensitivity of responses to inquiries from patients undergoing surgery provided by large language models (LLMs), highlighting their potential as adjunct tools in patient communication and education. Our findings demonstrated high performance of LLMs across accuracy, relevance, clarity, and emotional sensitivity, with Anthropic’s Claude 2 outperforming OpenAI’s ChatGPT and Google’s Bard, suggesting LLMs’ potential to serve as complementary tools for enhanced information delivery and patient-surgeon interaction.

Published in JMIR Formative Research

ISSN: 2561-326X (Online)
Publisher: JMIR Publications
Country of publisher: Canada
LCC subjects: Medicine
Website: https://formative.jmir.org/

About the journal