No one-size-fits-all solution to clean GBIF

Alexander Zizka; Fernanda Antunes Carvalho; Alice Calvente; Mabel Rocio Baez-Lizarazo; Andressa Cabral; Jéssica Fernanda Ramos Coelho; Matheus Colli-Silva; Mariana Ramos Fantinati; Moabe F. Fernandes; Thais Ferreira-Araújo; Fernanda Gondim Lambert Moreira; Nathália Michellyda Cunha Santos; Tiago Andrade Borges Santos; Renata Clicia dos Santos-Costa; Filipe C. Serrano; Ana Paula Alves da Silva; Arthur de Souza Soares; Paolla Gabryelle Cavalcante de Souza; Eduardo Calisto Tomaz; Valéria Fonseca Vale; Tiago Luiz Vieira; Alexandre Antonelli

doi:10.7717/peerj.9916

PeerJ (Sep 2020)

No one-size-fits-all solution to clean GBIF

Alexander Zizka,
Fernanda Antunes Carvalho,
Alice Calvente,
Mabel Rocio Baez-Lizarazo,
Andressa Cabral,
Jéssica Fernanda Ramos Coelho,
Matheus Colli-Silva,
Mariana Ramos Fantinati,
Moabe F. Fernandes,
Thais Ferreira-Araújo,
Fernanda Gondim Lambert Moreira,
Nathália Michellyda Cunha Santos,
Tiago Andrade Borges Santos,
Renata Clicia dos Santos-Costa,
Filipe C. Serrano,
Ana Paula Alves da Silva,
Arthur de Souza Soares,
Paolla Gabryelle Cavalcante de Souza,
Eduardo Calisto Tomaz,
Valéria Fonseca Vale,
Tiago Luiz Vieira,
Alexandre Antonelli

Affiliations

Alexander Zizka: sDiv, German Centre for Integrative Biodiversity Research Halle-Jena-Leipzig (iDiv), Leipzig, Germany
Fernanda Antunes Carvalho: Departamento de Genética, Ecologia e Evolução, Universidade Federal de Minas Gerais, Belo Horizonte, Brazil
Alice Calvente: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Mabel Rocio Baez-Lizarazo: Departamento de Botânica, Universidade Federal do Rio Grande do Sul, Porto Alegre, Brazil
Andressa Cabral: Departamento de Botânica, Universidade de São Paulo, São Paulo, Brazil
Jéssica Fernanda Ramos Coelho: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Matheus Colli-Silva: Departamento de Botânica, Universidade de São Paulo, São Paulo, Brazil
Mariana Ramos Fantinati: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Moabe F. Fernandes: Departamento de Ciências Biológicas, Universidade Estadual de Feira de Santana, Feira de Santana, Brazil
Thais Ferreira-Araújo: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Fernanda Gondim Lambert Moreira: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Nathália Michellyda Cunha Santos: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Tiago Andrade Borges Santos: Departamento de Ciências Biológicas, Universidade Estadual de Feira de Santana, Feira de Santana, Brazil
Renata Clicia dos Santos-Costa: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Filipe C. Serrano: Departamento de Ecologia, Universidade de São Paulo, São Paulo, Brazil
Ana Paula Alves da Silva: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Arthur de Souza Soares: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Paolla Gabryelle Cavalcante de Souza: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Eduardo Calisto Tomaz: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Valéria Fonseca Vale: Departamento de Botânica e Zoologia, Universidade Federal do Rio Grande do Norte, Natal, Brazil
Tiago Luiz Vieira: Departamento de Ciências Biológicas, Universidade Estadual de Feira de Santana, Feira de Santana, Brazil
Alexandre Antonelli: Gothenburg Global Biodiversity Centre, University of Gothenburg, Gothenburg, Sweden

DOI: https://doi.org/10.7717/peerj.9916
Journal volume & issue: Vol. 8
p. e9916

Abstract

Read online Read online

Species occurrence records provide the basis for many biodiversity studies. They derive from georeferenced specimens deposited in natural history collections and visual observations, such as those obtained through various mobile applications. Given the rapid increase in availability of such data, the control of quality and accuracy constitutes a particular concern. Automatic filtering is a scalable and reproducible means to identify potentially problematic records and tailor datasets from public databases such as the Global Biodiversity Information Facility (GBIF; http://www.gbif.org), for biodiversity analyses. However, it is unclear how much data may be lost by filtering, whether the same filters should be applied across all taxonomic groups, and what the effect of filtering is on common downstream analyses. Here, we evaluate the effect of 13 recently proposed filters on the inference of species richness patterns and automated conservation assessments for 18 Neotropical taxa, including terrestrial and marine animals, fungi, and plants downloaded from GBIF. We find that a total of 44.3% of the records are potentially problematic, with large variation across taxonomic groups (25–90%). A small fraction of records was identified as erroneous in the strict sense (4.2%), and a much larger proportion as unfit for most downstream analyses (41.7%). Filters of duplicated information, collection year, and basis of record, as well as coordinates in urban areas, or for terrestrial taxa in the sea or marine taxa on land, have the greatest effect. Automated filtering can help in identifying problematic records, but requires customization of which tests and thresholds should be applied to the taxonomic group and geographic area under focus. Our results stress the importance of thorough recording and exploration of the meta-data associated with species records for biodiversity research.

Published in PeerJ

ISSN: 2167-8359 (Online)
Publisher: PeerJ Inc.
Country of publisher: United States
LCC subjects: Medicine; Science: Biology (General)
Website: https://peerj.com/

About the journal

Abstract

Keywords