NAToRA, a relatedness-pruning method to minimize the loss of dataset size in genetic and omics analyses

Thiago Peixoto Leal; Vinicius C Furlan; Mateus Henrique Gouveia; Julia Maria Saraiva Duarte; Pablo AS Fonseca; Rafael Tou; Marilia de Oliveira Scliar; Gilderlanio Santana de Araujo; Lucas F. Costa; Camila Zolini; Maria Gabriela Campolina Diniz Peixoto; Maria Raquel Santos Carvalho; Maria Fernanda Lima-Costa; Robert H Gilman; Eduardo Tarazona-Santos; Maíra Ribeiro Rodrigues

Computational and Structural Biotechnology Journal (Jan 2022)

NAToRA, a relatedness-pruning method to minimize the loss of dataset size in genetic and omics analyses

Thiago Peixoto Leal,
Vinicius C Furlan,
Mateus Henrique Gouveia,
Julia Maria Saraiva Duarte,
Pablo AS Fonseca,
Rafael Tou,
Marilia de Oliveira Scliar,
Gilderlanio Santana de Araujo,
Lucas F. Costa,
Camila Zolini,
Maria Gabriela Campolina Diniz Peixoto,
Maria Raquel Santos Carvalho,
Maria Fernanda Lima-Costa,
Robert H Gilman,
Eduardo Tarazona-Santos,
Maíra Ribeiro Rodrigues

Affiliations

Thiago Peixoto Leal: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil; Lerner Research Institute, Genomic Medicine, Cleveland Clinic, Cleveland, OH, United States
Vinicius C Furlan: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil
Mateus Henrique Gouveia: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil; Center for Research on Genomics & Global Health, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD, United States
Julia Maria Saraiva Duarte: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil
Pablo AS Fonseca: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil; Centre for Genetic Improvement of Livestock, Department of Animal Biosciences, University of Guelph, Guelph, Ontario, Canada
Rafael Tou: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil
Marilia de Oliveira Scliar: Centro de Estudos do Genoma Humano e Células-Tronco, Instituto de Biociências, Universidade de São Paulo, São Paulo, São Paulo, Brazil
Gilderlanio Santana de Araujo: Laboratório de Genética Humana e Médica, Programa de Pós-Graduação em Biologia Molecular, Instituto de Ciências Biológicas, Universidade Federal do Pará, Belém, Pará, Brazil
Lucas F. Costa: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil
Camila Zolini: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil; Beagle, Belo Horizonte, Minas Gerais, Brazil; Mosaico Translational Genomics Initiative, Belo Horizonte, Minas Gerais, Brazil
Maria Gabriela Campolina Diniz Peixoto: Embrapa Gado de Leite, Embrapa, Juiz de Fora, Minas Gerais, Brazil
Maria Raquel Santos Carvalho: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil
Maria Fernanda Lima-Costa: Instituto René Rachou, Fundação Oswaldo Cruz, Belo Horizonte, Minas Gerais, Brazil
Robert H Gilman: Universidad Peruana Cayetano Heredia, Lima, Lima, Perú; Dept of International Health, Johns Hopkins School of Public Health Baltimore, Baltimore, MD, USA
Eduardo Tarazona-Santos: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil; Mosaico Translational Genomics Initiative, Belo Horizonte, Minas Gerais, Brazil; Dept of International Health, Johns Hopkins School of Public Health Baltimore, Baltimore, MD, USA; Corresponding author.
Maíra Ribeiro Rodrigues: Departamento de Genética, Ecologia e Evolução, Instituto de Ciências Biológicas, Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brazil; Departamento de Genética e Biologia Evolutiva, Instituto de Biociências, Universidade de São Paulo, São Paulo, São Paulo, Brazil

Journal volume & issue: Vol. 20
pp. 1821 – 1828

Abstract

Read online

Genetic and omics analyses frequently require independent observations, which is not guaranteed in real datasets. When relatedness cannot be accounted for, solutions involve removing related individuals (or observations) and, consequently, a reduction of available data. We developed a network-based relatedness-pruning method that minimizes dataset reduction while removing unwanted relationships in a dataset. It uses node degree centrality metric to identify highly connected nodes (or individuals) and implements heuristics that approximate the minimal reduction of a dataset to allow its application to complex datasets. When compared with two other popular population genetics methodologies (PLINK and KING), NAToRA shows the best combination of removing all relatives while keeping the largest possible number of individuals in all datasets tested and also, with similar effects on the allele frequency spectrum and Principal Component Analysis than PLINK and KING. NAToRA is freely available, both as a standalone tool that can be easily incorporated as part of a pipeline, and as a graphical web tool that allows visualization of the relatedness networks. NAToRA also accepts a variety of relationship metrics as input, which facilitates its use. We also release a genealogies simulator software used for different tests performed in this study.

Published in Computational and Structural Biotechnology Journal

ISSN: 2001-0370 (Online)
Publisher: Elsevier
Country of publisher: Netherlands
LCC subjects: Technology: Chemical technology: Biotechnology
Website: https://www.journals.elsevier.com/computational-and-structural-biotechnology-journal

About the journal

Abstract

Keywords