Omics-informed CNV calls reduce false-positive rates and improve power for CNV-trait associations

Maarja Lepamets; Chiara Auwerx; Margit Nõukas; Annique Claringbould; Eleonora Porcu; Mart Kals; Tuuli Jürgenson; Andrew Paul Morris; Urmo Võsa; Murielle Bochud; Silvia Stringhini; Cisca Wijmenga; Lude Franke; Hedi Peterson; Jaak Vilo; Kaido Lepik; Reedik Mägi; Zoltán Kutalik

HGG Advances (Oct 2022)

Omics-informed CNV calls reduce false-positive rates and improve power for CNV-trait associations

Maarja Lepamets,
Chiara Auwerx,
Margit Nõukas,
Annique Claringbould,
Eleonora Porcu,
Mart Kals,
Tuuli Jürgenson,
Andrew Paul Morris,
Urmo Võsa,
Murielle Bochud,
Silvia Stringhini,
Cisca Wijmenga,
Lude Franke,
Hedi Peterson,
Jaak Vilo,
Kaido Lepik,
Reedik Mägi,
Zoltán Kutalik

Affiliations

Maarja Lepamets: Estonian Genome Centre, Institute of Genomics, University of Tartu, Tartu 51010, Estonia; Institute of Molecular and Cell Biology, University of Tartu, Tartu 51010, Estonia; Corresponding author
Chiara Auwerx: Center for Integrative Genomics, University of Lausanne, Lausanne 1015, Switzerland; Department of Computational Biology, University of Lausanne, Lausanne 1015, Switzerland; Swiss Institute of Bioinformatics, Lausanne 1015, Switzerland; Center for Primary Care and Public Health (Unisanté), Department of Epidemiology and Health Systems, University of Lausanne, Lausanne 1010, Switzerland
Margit Nõukas: Estonian Genome Centre, Institute of Genomics, University of Tartu, Tartu 51010, Estonia; Institute of Molecular and Cell Biology, University of Tartu, Tartu 51010, Estonia
Annique Claringbould: Structural and Computational Biology Unit, EMBL, Heidelberg 69117, Germany
Eleonora Porcu: Center for Integrative Genomics, University of Lausanne, Lausanne 1015, Switzerland; Swiss Institute of Bioinformatics, Lausanne 1015, Switzerland; Center for Primary Care and Public Health (Unisanté), Department of Epidemiology and Health Systems, University of Lausanne, Lausanne 1010, Switzerland
Mart Kals: Estonian Genome Centre, Institute of Genomics, University of Tartu, Tartu 51010, Estonia; Institute for Molecular Medicine Finland, FIMM, HiLIFE, University of Helsinki, Helsinki 00014, Finland
Tuuli Jürgenson: Estonian Genome Centre, Institute of Genomics, University of Tartu, Tartu 51010, Estonia; Institute of Mathematics and Statistics, University of Tartu, Tartu 51009, Estonia
Andrew Paul Morris: Estonian Genome Centre, Institute of Genomics, University of Tartu, Tartu 51010, Estonia; Centre for Genetics and Genomics Versus Arthritis, Division of Musculoskeletal and Dermatological Sciences, The University of Manchester, Manchester M13 9PL, UK
Urmo Võsa: Estonian Genome Centre, Institute of Genomics, University of Tartu, Tartu 51010, Estonia
Murielle Bochud: Center for Primary Care and Public Health (Unisanté), Department of Epidemiology and Health Systems, University of Lausanne, Lausanne 1010, Switzerland
Silvia Stringhini: Unit of Population Epidemiology, Division of Primary Care, Geneva 1205, Switzerland
Cisca Wijmenga: University of Groningen, University Medical Center Groningen, Department of Genetics, 9713 AV Groningen, the Netherlands
Lude Franke: University of Groningen, University Medical Center Groningen, Department of Genetics, 9713 AV Groningen, the Netherlands; Oncode Institute, 3521 AL Utrecht, the Netherlands
Hedi Peterson: Institute of Computer Science, University of Tartu, Tartu 51009, Estonia
Jaak Vilo: Institute of Computer Science, University of Tartu, Tartu 51009, Estonia
Kaido Lepik: Department of Computational Biology, University of Lausanne, Lausanne 1015, Switzerland; Swiss Institute of Bioinformatics, Lausanne 1015, Switzerland; Center for Primary Care and Public Health (Unisanté), Department of Epidemiology and Health Systems, University of Lausanne, Lausanne 1010, Switzerland; Institute of Computer Science, University of Tartu, Tartu 51009, Estonia
Reedik Mägi: Estonian Genome Centre, Institute of Genomics, University of Tartu, Tartu 51010, Estonia
Zoltán Kutalik: Department of Computational Biology, University of Lausanne, Lausanne 1015, Switzerland; Swiss Institute of Bioinformatics, Lausanne 1015, Switzerland; Center for Primary Care and Public Health (Unisanté), Department of Epidemiology and Health Systems, University of Lausanne, Lausanne 1010, Switzerland; Corresponding author

Journal volume & issue: Vol. 3, no. 4
p. 100133

Abstract

Read online

Summary: Copy-number variations (CNV) are believed to play an important role in a wide range of complex traits, but discovering such associations remains challenging. While whole-genome sequencing (WGS) is the gold-standard approach for CNV detection, there are several orders of magnitude more samples with available genotyping microarray data. Such array data can be exploited for CNV detection using dedicated software (e.g., PennCNV); however, these calls suffer from elevated false-positive and -negative rates. In this study, we developed a CNV quality score that weights PennCNV calls (pCNVs) based on their likelihood of being true positive. First, we established a measure of pCNV reliability by leveraging evidence from multiple omics data (WGS, transcriptomics, and methylomics) obtained from the same samples. Next, we built a predictor of omics-confirmed pCNVs, termed omics-informed quality score (OQS), using only PennCNV software output parameters. Promisingly, OQS assigned to pCNVs detected in close family members was up to 35% higher than the OQS of pCNVs not carried by other relatives (p < 3.0 × 10−90), outperforming other scores. Finally, in an association study of four anthropometric traits in 89,516 Estonian Biobank samples, the use of OQS led to a relative increase in the trait variance explained by CNVs of up to 56% compared with published quality filtering methods or scores. Overall, we put forward a flexible framework to improve any CNV detection method leveraging multi-omics evidence, applied it to improve PennCNV calls, and demonstrated its utility by improving the statistical power for downstream association analyses.

Published in HGG Advances

ISSN: 2666-2477 (Online)
Publisher: Elsevier
Country of publisher: United States
LCC subjects: Science: Biology (General): Genetics
Website: https://www.cell.com/hgg-advances/home

About the journal

Abstract

Keywords