Semi-automated sequence curation for reliable reference datasets in ITS2 vascular plant DNA (meta-)barcoding

Andreia Quaresma; Markus J. Ankenbrand; Carlos Ariel Yadró Garcia; José Rufino; Mónica Honrado; Joana Amaral; Robert Brodschneider; Valters Brusbardis; Kristina Gratzer; Fani Hatjina; Ole Kilpinen; Marco Pietropaoli; Ivo Roessink; Jozef van der Steen; Flemming Vejsnæs; M. Alice Pinto; Alexander Keller

doi:10.1038/s41597-024-02962-5

Scientific Data (Jan 2024)

Semi-automated sequence curation for reliable reference datasets in ITS2 vascular plant DNA (meta-)barcoding

Andreia Quaresma,
Markus J. Ankenbrand,
Carlos Ariel Yadró Garcia,
José Rufino,
Mónica Honrado,
Joana Amaral,
Robert Brodschneider,
Valters Brusbardis,
Kristina Gratzer,
Fani Hatjina,
Ole Kilpinen,
Marco Pietropaoli,
Ivo Roessink,
Jozef van der Steen,
Flemming Vejsnæs,
M. Alice Pinto,
Alexander Keller

Affiliations

Andreia Quaresma: Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia
Markus J. Ankenbrand: Center for Computational and Theoretical Biology, Faculty of Biology, Julius-Maximilians-Universität Würzburg
Carlos Ariel Yadró Garcia: Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia
José Rufino: Laboratório Associado para a Sustentabilidade e Tecnologia em Regiões de Montanha (SusTEC), Instituto Politécnico de Bragança, Campus de Santa Apolónia
Mónica Honrado: Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia
Joana Amaral: Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia
Robert Brodschneider: Institute of Biology, University of Graz
Valters Brusbardis: Latvian Beekeepers’ Association (LBA)
Kristina Gratzer: Institute of Biology, University of Graz
Fani Hatjina: Ellinikos Georgikos Organismos DIMITRA (ELGO- DIMITRA)
Ole Kilpinen: Danish Beekeepers Association (DBF)
Marco Pietropaoli: Istituto Zooprofilattico Sperimentale del Lazio e della Toscana “M. Aleandri” (IZSLT)
Ivo Roessink: Wageningen Environmental Research, WageningenUniversity&Research
Jozef van der Steen: Alveus AB Consultancy
Flemming Vejsnæs: Danish Beekeepers Association (DBF)
M. Alice Pinto: Centro de Investigação de Montanha (CIMO), Instituto Politécnico de Bragança, Campus de Santa Apolónia
Alexander Keller: Cellular and Organismic Interactions, Biocenter, Faculty of Biology, Ludwig-Maximilians-Universität München

DOI: https://doi.org/10.1038/s41597-024-02962-5
Journal volume & issue: Vol. 11, no. 1
pp. 1 – 11

Abstract

Read online

Abstract One of the most critical steps for accurate taxonomic identification in DNA (meta)-barcoding is to have an accurate DNA reference sequence dataset for the marker of choice. Therefore, developing such a dataset has been a long-term ambition, especially in the Viridiplantae kingdom. Typically, reference datasets are constructed with sequences downloaded from general public databases, which can carry taxonomic and other relevant errors. Herein, we constructed a curated (i) global dataset, (ii) European crop dataset, and (iii) 27 datasets for the EU countries for the ITS2 barcoding marker of vascular plants. To that end, we first developed a pipeline script that entails (i) an automated curation stage comprising five filters, (ii) manual taxonomic correction for misclassified taxa, and (iii) manual addition of newly sequenced species. The pipeline allows easy updating of the curated datasets. With this approach, 13% of the sequences, corresponding to 7% of species originally imported from GenBank, were discarded. Further, 259 sequences were manually added to the curated global dataset, which now comprises 307,977 sequences of 111,382 plant species.

Published in Scientific Data

ISSN: 2052-4463 (Online)
Publisher: Nature Portfolio
Country of publisher: United Kingdom
LCC subjects: Science
Website: https://www.nature.com/sdata/

About the journal