Learning interpretable causal networks from very large datasets, application to 400,000 medical records of breast cancer patients

Marcel da Câmara Ribeiro-Dantas; Honghao Li; Vincent Cabeli; Louise Dupuis; Franck Simon; Liza Hettal; Anne-Sophie Hamy; Hervé Isambert

iScience (May 2024)

Learning interpretable causal networks from very large datasets, application to 400,000 medical records of breast cancer patients

Marcel da Câmara Ribeiro-Dantas,
Honghao Li,
Vincent Cabeli,
Louise Dupuis,
Franck Simon,
Liza Hettal,
Anne-Sophie Hamy,
Hervé Isambert

Affiliations

Marcel da Câmara Ribeiro-Dantas: CNRS UMR168, Institut Curie, Université PSL, Sorbonne Université, Paris, France
Honghao Li: CNRS UMR168, Institut Curie, Université PSL, Sorbonne Université, Paris, France
Vincent Cabeli: CNRS UMR168, Institut Curie, Université PSL, Sorbonne Université, Paris, France
Louise Dupuis: CNRS UMR168, Institut Curie, Université PSL, Sorbonne Université, Paris, France
Franck Simon: CNRS UMR168, Institut Curie, Université PSL, Sorbonne Université, Paris, France
Liza Hettal: CNRS UMR168, Institut Curie, Université PSL, Sorbonne Université, Paris, France
Anne-Sophie Hamy: INSERM U932, Institut Curie, Paris, France; Department of Medical Oncology, Institut Curie, Saint-Cloud, France; Department of Surgery, Institut Curie, Université Paris, Paris, France
Hervé Isambert: CNRS UMR168, Institut Curie, Université PSL, Sorbonne Université, Paris, France; Corresponding author

Journal volume & issue: Vol. 27, no. 5
p. 109736

Abstract

Read online

Summary: Discovering causal effects is at the core of scientific investigation but remains challenging when only observational data are available. In practice, causal networks are difficult to learn and interpret, and limited to relatively small datasets. We report a more reliable and scalable causal discovery method (iMIIC), based on a general mutual information supremum principle, which greatly improves the precision of inferred causal relations while distinguishing genuine causes from putative and latent causal effects. We showcase iMIIC on synthetic and real-world healthcare data from 396,179 breast cancer patients from the US Surveillance, Epidemiology, and End Results program. More than 90% of predicted causal effects appear correct, while the remaining unexpected direct and indirect causal effects can be interpreted in terms of diagnostic procedures, therapeutic timing, patient preference or socio-economic disparity. iMIIC’s unique capabilities open up new avenues to discover reliable and interpretable causal networks across a range of research fields.

Published in iScience

ISSN: 2589-0042 (Online)
Publisher: Elsevier
Country of publisher: United States
LCC subjects: Science
Website: http://www.cell.com/iscience/home

About the journal

Abstract

Keywords