Protected Health Information filter (Philter): accurately and securely de-identifying free-text clinical notes

Beau Norgeot; Kathleen Muenzen; Thomas A. Peterson; Xuancheng Fan; Benjamin S. Glicksberg; Gundolf Schenk; Eugenia Rutenberg; Boris Oskotsky; Marina Sirota; Jinoos Yazdany; Gabriela Schmajuk; Dana Ludwig; Theodore Goldstein; Atul J. Butte

doi:10.1038/s41746-020-0258-y

npj Digital Medicine (Apr 2020)

Protected Health Information filter (Philter): accurately and securely de-identifying free-text clinical notes

Beau Norgeot,
Kathleen Muenzen,
Thomas A. Peterson,
Xuancheng Fan,
Benjamin S. Glicksberg,
Gundolf Schenk,
Eugenia Rutenberg,
Boris Oskotsky,
Marina Sirota,
Jinoos Yazdany,
Gabriela Schmajuk,
Dana Ludwig,
Theodore Goldstein,
Atul J. Butte

Affiliations

Beau Norgeot: Bakar Computational Health Sciences Institute, University of California, San Francisco
Kathleen Muenzen: Bakar Computational Health Sciences Institute, University of California, San Francisco
Thomas A. Peterson: Bakar Computational Health Sciences Institute, University of California, San Francisco
Xuancheng Fan: Bakar Computational Health Sciences Institute, University of California, San Francisco
Benjamin S. Glicksberg: Bakar Computational Health Sciences Institute, University of California, San Francisco
Gundolf Schenk: Bakar Computational Health Sciences Institute, University of California, San Francisco
Eugenia Rutenberg: Bakar Computational Health Sciences Institute, University of California, San Francisco
Boris Oskotsky: Bakar Computational Health Sciences Institute, University of California, San Francisco
Marina Sirota: Bakar Computational Health Sciences Institute, University of California, San Francisco
Jinoos Yazdany: Division of Rheumatology, Department of Medicine, University of California, San Francisco
Gabriela Schmajuk: Division of Rheumatology, Department of Medicine, University of California, San Francisco
Dana Ludwig: Bakar Computational Health Sciences Institute, University of California, San Francisco
Theodore Goldstein: Bakar Computational Health Sciences Institute, University of California, San Francisco
Atul J. Butte: Bakar Computational Health Sciences Institute, University of California, San Francisco

DOI: https://doi.org/10.1038/s41746-020-0258-y
Journal volume & issue: Vol. 3, no. 1
pp. 1 – 8

Abstract

Read online

Abstract There is a great and growing need to ascertain what exactly is the state of a patient, in terms of disease progression, actual care practices, pathology, adverse events, and much more, beyond the paucity of data available in structured medical record data. Ascertaining these harder-to-reach data elements is now critical for the accurate phenotyping of complex traits, detection of adverse outcomes, efficacy of off-label drug use, and longitudinal patient surveillance. Clinical notes often contain the most detailed and relevant digital information about individual patients, the nuances of their diseases, the treatment strategies selected by physicians, and the resulting outcomes. However, notes remain largely unused for research because they contain Protected Health Information (PHI), which is synonymous with individually identifying data. Previous clinical note de-identification approaches have been rigid and still too inaccurate to see any substantial real-world use, primarily because they have been trained with too small medical text corpora. To build a new de-identification tool, we created the largest manually annotated clinical note corpus for PHI and develop a customizable open-source de-identification software called Philter (“Protected Health Information filter”). Here we describe the design and evaluation of Philter, and show how it offers substantial real-world improvements over prior methods.

Published in npj Digital Medicine

ISSN: 2398-6352 (Online)
Publisher: Nature Portfolio
Country of publisher: United Kingdom
LCC subjects: Medicine: Medicine (General): Computer applications to medicine. Medical informatics
Website: https://www.nature.com/npjdigitalmed/

About the journal