Principles of GBIF-mediated data

In this section, you will learn about the principles that GBIF follows with regards to data and how data in the GBIF portal are FAIR.

This is a review of information found in the Introduction to GBIF course, if you need a refresher.

Digital object identifiers

A Digital Object Identifier, or DOI, is a standard, permanent identifier that provides an actionable, interoperable, persistent link to any entity. The concept is that DOI differs from commonly used references like URL web links because it identifies an object itself as a first-class entity, not simply the place where the object is currently located.

In the context of GBIF.org, DOIs serve as stable identifiers for four different types of things:

  1. datasets from the GBIF network

  2. data downloads from GBIF.org

  3. research articles and reports published by scientific journals, agencies and NGOs

  4. materials deposited in a general-use repository

GBIF assigns DOIs to all datasets and occurrence downloads. When data is used, following DOI citation practice ensures an easy and consistent way of crediting dataset holders while also allowing for reproducibility. The DOIs will always resolve to datasets or download pages, even if the underlying data is no longer available.

GBIF started issuing DOIs on 3 February 2015. Downloads requested before this date do not have DOIs, however, if you wish to cite older downloads, you can contact helpdesk@gbif.org and we will assign DOIs as appropriate.

Standards

The data available through GBIF.org and its associated services is the result of the GBIF network of Participants and publishers applying shared rules and conventions to describe, record and structure thousands of different datasets drawn from hundreds of institutions around the world. Common standards are the main enabler for bringing together the hundreds of millions of primary biodiversity records in the GBIF index.

Within the biodiversity domain, the group most often responsible for developing and maintaining data standards is Biodiversity Information Standards. This nonprofit scientific and educational association focuses on the development of standards for the exchange of biological and biodiversity data. Members of the biodiversity community generally refer to this group as TDWG (pronounced tad-wig)—a vestigial reminder of its earlier manifestation as the Taxonomic Databases Working Group.

Commonly used standards include:

  • Darwin Core: The Darwin Core Standard (DwC) offers a stable, straightforward and flexible framework for compiling biodiversity data from varied and variable sources. The majority of the datasets shared through GBIF.org are published using the Darwin Core Archive format (DwC-A).

  • Lenguaje de Metadatos Ecológicos (LME): Ecological Metadata Language es un estándar que registra información sobre conjuntos de datos ecológicos en una serie de tipos de documento XML modular y extensible. Las descripciones de conjuntos de datos en GBIF.org confian en 'metadatos'- es decir, la información sobre los datos- utilizando el estándard open-source EML, lo cual es administrado y mantenido por The Knowledge Network for Biocomplexity. Cada archivo de Darwin Core incluye como uno de su componentes un archivo EML (escrito en formato XML).

  • BioCASe/ABCD: The Biological Collection Access Service, comúnmente conocido como BioCASE, es una red internacional que enlaza datos de colecciones biológicas desde museos de historia natural, jardines botánicos/ zoológicos e instituciones de investigación. BioCASe protocol confía en Access to Biological Collections Data estándar de intercambio de daos, el cual administra también TDWG.

Datos abiertos

  • CC0 -sin condiciones de uso

  • CC-BY - use with attribution

  • CC-BY-NC - uso no comercial con atribución

Tenga en cuenta que la licencia CC-BY-NC tiene un efecto significativo en la reutilización de los datos. GBIF anima a los editores de datos a elegir la opción más abierta siempre que sea posible. Es importante señalar que las imágenes no están sujetas a la misma licencia que se aplica al conjunto de datos y pueden tener condiciones de uso más restringidas. Por último, la atribución/citación es una norma comunitaria, por lo que incluso si los editores han renunciado a las condiciones de uso, se espera la atribución.

Datos FAIR

Numerosos artículos de 2011 a 2016 documentaron una crisis de la reproducibilidad científica (véase más abajo). En 2016, se publicaron los FAIR Guiding Principles for scientific data management and stewardship en Scientific Data. Los principios fueron diseñados para mejorar la encontrabilidad, accesibilidad, interoperabilidad y reutilización de los conjuntos de datos y abordar «una necesidad urgente de mejorar la infraestructura de apoyo a la reutilización de los datos académicos.» La aplicación de estos principios comenzó en 2018. Puede obtener más información sobre How to GO FAIR en GO-FAIR.org.

gofairlogo
FairPrinciples2

Data found on GBIF.org are FAIR.

FÁCIL DE ENCONTRAR

GBIF cuenta con requirements para los metadatos y conjuntos de datos. Todos los conjuntos de datos están identificados por Digital Object Identifiers (DOIs).

ACCESSIBLE

La GBIF Portal API proporciona una interfaz legible por computadoras (REST + JSON) y utiliza el Integrated Publishing Toolkit (IPT) como repositorio de datos de confianza.

INTEROPERABLE

GBIF recomienda utilizar Ecological Metadata Language (EML) para conjuntos de datos mientras que Darwin Core para datos de registro.

REUTILIZABLE

GBIF requiere licencias de datos comunes creativos (CC0, CC BY, o CC BY-NC). Procedencia disponible desde el portal de GBIF.

Referencias bibliográficas

Baker (2016), 1,500 científicos se pronuncian sobre la reproducibilidad. Natura 533: 452-454 (26 de mayo 2016) doi: 10. 1038/533452a

Baker (2016) Reproducibility: Seek out stronger science. Nature 537: 703-704 (29 September 2016) doi:10.1038/nj7622-703a

Nature editorial (2016) Reality check on reproducibility. Nature 533: 437 (26 May 2016) doi:10.1038/533437a

Baker (2016) Statisticians issue warning over misuse of P values. Nature 531: 151 (10 March 2016) doi:10.1038/nature.2016.19503

Nosek et al. (2015) Promoting an open research culture. Science 348(6242): 1422-1425. DOI:10.1126/science.aab2374

Leek and Peng (2015) Statistics: P values are just the tip of the iceberg. Nature 520: 612 (30 April 2015) doi:10.1038/520612°

Nuzzo (2015) How scientists fool themselves – and how they can stop. Nature 526: 182–185 (08 October 2015) doi:10.1038/526182a

Hayden (2013) Weak statistical standards implicated in scientific irreproducibility. Nature doi:10.1038/nature.2013.14131

Young (2012) Replication studies: Bad copy. Nature 485, 298–300 (17 May 2012) doi:10.1038/485298a

Callaway (2011) Reports finds massive fraud at Dutch universities. Nature 479, 15 (1 November 2011) doi:10.1038/479015a