Principios de datos mediados por GBIF

En esta sección, conocerá los principios que GBIF sigue con respecto a los datos y cómo los datos del portal de GBIF son FAIR.

Este es un repaso de la información encontrada en el curso de Introducción a GBIF, por si necesita un repaso.

Identificadores de objetos digitales

Un identificador de objeto digital, o DOI (Digital Object Identifier), es un identificador permanente standard que proporciona un enlace procesable, interoperable y persistente a cualquier entidad. El concepto es que el DOI difiere de las referencias de uso común, como los enlaces web URL, porque identifica un objeto en sí como una entidad de primera clase, no simplemente el lugar donde el objeto se encuentra actualmente.

En el contexto de GBIF.org, los DOI sirven como identificadores estables para cuatro tipos diferentes de cosas:

  1. conjuntos de datos de la red GBIF

  2. descargas de datos desde GBIF.org

  3. artículos de investigación e informes publicados por revistas científicas, agencias y ONG

  4. materiales depositados en un repositorio de uso general

GBIF asigna DOIs a todos los conjuntos de datos y descargas de ocurrencias. Cuando se utilizan datos, seguir el DOI práctica de citación asegura una forma fácil y consistente de acreditar a los titulares de los conjuntos de datos al tiempo que permite la reproducibilidad. Los DOI siempre remitirán a los conjuntos de datos o a las páginas de descarga, aunque los datos subyacentes ya no estén disponibles.

GBIF comenzó a emitir DOIs el 3 de febrero de 2015. Las descargas solicitadas antes de esta fecha no tienen DOI, sin embargo, si desea citar descargas más antiguas, puede ponerse en contacto con helpdesk@gbif.org y le asignaremos DOI según corresponda.

Normas

Los datos disponibles a través de GBIF.org y sus servicios asociados son el resultado de la aplicación por parte de la red de Participantes y editores de GBIF de normas y convenciones compartidas para describir, registrar y estructurar miles de conjuntos de datos diferentes procedentes de cientos de instituciones de todo el mundo. Los estándares comunes son el principal habilitador para reunir los cientos de millones de registros primarios de biodiversidad en el índice de GBIF.

Within the biodiversity domain, the group most often responsible for developing and maintaining data standards is Biodiversity Information Standards. This nonprofit scientific and educational association focuses on the development of standards for the exchange of biological and biodiversity data. Members of the biodiversity community generally refer to this group as TDWG (pronounced tad-wig)—a vestigial reminder of its earlier manifestation as the Taxonomic Databases Working Group.

Commonly used standards include:

  • Darwin Core: The Darwin Core Standard (DwC) offers a stable, straightforward and flexible framework for compiling biodiversity data from varied and variable sources. The majority of the datasets shared through GBIF.org are published using the Darwin Core Archive format (DwC-A).

  • Lenguaje de Metadatos Ecológicos (LME): Ecological Metadata Language es un estándar que registra información sobre conjuntos de datos ecológicos en una serie de tipos de documento XML modular y extensible. Las descripciones de conjuntos de datos en GBIF.org confian en 'metadatos'- es decir, la información sobre los datos- utilizando el estándard open-source EML, lo cual es administrado y mantenido por The Knowledge Network for Biocomplexity. Cada archivo de Darwin Core incluye como uno de su componentes un archivo EML (escrito en formato XML).

  • BioCASe/ABCD: The Biological Collection Access Service, comúnmente conocido como BioCASE, es una red internacional que enlaza datos de colecciones biológicas desde museos de historia natural, jardines botánicos/ zoológicos e instituciones de investigación. BioCASe protocol confía en Access to Biological Collections Data estándar de intercambio de daos, el cual administra también TDWG.

Datos abiertos

  • CC0 -sin condiciones de uso

  • CC-BY - use with attribution

  • CC-BY-NC - uso no comercial con atribución

Tenga en cuenta que la licencia CC-BY-NC tiene un efecto significativo en la reutilización de los datos. GBIF anima a los editores de datos a elegir la opción más abierta siempre que sea posible. Es importante señalar que las imágenes no están sujetas a la misma licencia que se aplica al conjunto de datos y pueden tener condiciones de uso más restringidas. Por último, la atribución/citación es una norma comunitaria, por lo que incluso si los editores han renunciado a las condiciones de uso, se espera la atribución.

Datos FAIR

Numerosos artículos de 2011 a 2016 documentaron una crisis de la reproducibilidad científica (véase más abajo). En 2016, se publicaron los FAIR Guiding Principles for scientific data management and stewardship en Scientific Data. Los principios fueron diseñados para mejorar la encontrabilidad, accesibilidad, interoperabilidad y reutilización de los conjuntos de datos y abordar «una necesidad urgente de mejorar la infraestructura de apoyo a la reutilización de los datos académicos.» La aplicación de estos principios comenzó en 2018. Puede obtener más información sobre How to GO FAIR en GO-FAIR.org.

gofairlogo
FairPrinciples2

Data found on GBIF.org are FAIR.

FÁCIL DE ENCONTRAR

GBIF cuenta con requirements para los metadatos y conjuntos de datos. Todos los conjuntos de datos están identificados por Digital Object Identifiers (DOIs).

ACCESSIBLE

La GBIF Portal API proporciona una interfaz legible por computadoras (REST + JSON) y utiliza el Integrated Publishing Toolkit (IPT) como repositorio de datos de confianza.

INTEROPERABLE

GBIF recomienda utilizar Ecological Metadata Language (EML) para conjuntos de datos mientras que Darwin Core para datos de registro.

REUTILIZABLE

GBIF requiere licencias de datos comunes creativos (CC0, CC BY, o CC BY-NC). Procedencia disponible desde el portal de GBIF.

Referencias bibliográficas

Baker (2016), 1,500 científicos se pronuncian sobre la reproducibilidad. Natura 533: 452-454 (26 de mayo 2016) doi: 10. 1038/533452a

Baker (2016) Reproducibility: Seek out stronger science. Nature 537: 703-704 (29 September 2016) doi:10.1038/nj7622-703a

Nature editorial (2016) Reality check on reproducibility. Nature 533: 437 (26 May 2016) doi:10.1038/533437a

Baker (2016) Statisticians issue warning over misuse of P values. Nature 531: 151 (10 March 2016) doi:10.1038/nature.2016.19503

Nosek et al. (2015) Promoting an open research culture. Science 348(6242): 1422-1425. DOI:10.1126/science.aab2374

Leek and Peng (2015) Statistics: P values are just the tip of the iceberg. Nature 520: 612 (30 April 2015) doi:10.1038/520612°

Nuzzo (2015) How scientists fool themselves – and how they can stop. Nature 526: 182–185 (08 October 2015) doi:10.1038/526182a

Hayden (2013) Weak statistical standards implicated in scientific irreproducibility. Nature doi:10.1038/nature.2013.14131

Young (2012) Replication studies: Bad copy. Nature 485, 298–300 (17 May 2012) doi:10.1038/485298a

Callaway (2011) Reports finds massive fraud at Dutch universities. Nature 479, 15 (1 November 2011) doi:10.1038/479015a