Handling data quality
Filtering the data allows you as a user to obtain the data that is most fit for purpose. All searches have a set of filters that can be used for finding the data you need, and the occurrence search has a set of additional "Advanced" search filters with more criteria or options available. While filters may allow you to filter out data that may not be relevant, or be of lower quality for your purposes, additional filtering may be required, either manually or programmaticially, to deal with additional data quality issues that arise. Below are some common data filters that you as a user might consider to make the data more fit for use.
Geospatial filters & issues
Los datos pueden filtrarse espacialmente en una búsqueda de ocurrencias de una de las tres maneras siguientes:
-
País o área/Continente - los datos se filtran por país e incluirán los datos dentro de la Zona Económica Exclusiva (ZEE).
-
Área administrativa - este filtro utiliza la base de datos GADM de áreas administrativas para todos los países del mundo para permitir que GBIF elimine los problemas geoespaciales comunes por defecto si elige tener datos con una localización.
-
Ubicación - este filtro le permite filtrar datos con coordenadas y/o dibujar sus propios filtros de forma poligonal o utilizar un archivo GeoJSON para delimitar su propio filtro de forma.
Si filtra esos datos con coordenadas, se eliminarán varios problemas geoespaciales asociados al flujo de trabajo de publicación de datos. Estos son:
-
Coordenadas cero - Las coordenadas son exactamente (0,0) o lo que a veces se denomina «isla nula». La coordenada cero es un problema geoespacial muy común. GBIF elimina (0,0) cuando hasGeospatialIssues está a FALSE.
-
Country coordinate mismatch — Data publishers often supply GBIF with a country code (US,TW,SE,JP…, etc.). GBIF uses the two-letter ISO 3166-1 alpha-2 coding system. When a point does not fall within the country’s polygon or EEZ but says that it should occur within the country, it gets flagged as having “country coordinate mismatch” and will be removed if data are filtered for locations.
-
Coordinate invalid — If GBIF is unable to interpret the coordinates, i.e. the coordinates that are not in the valid decimal format.
-
Coordinate out of range — The coordinates are outside of the range for decimal lat/lon values -90,90), (-180,180.
Country centroids
Los centroides de país son aquellos en los que la observación se fija en el centro del país en lugar de en el lugar donde se observó o registró el taxón. Los centroides de país suelen ser registros a los que se ha asignado retrospectivamente un valor lat-lon basado en una descripción textual del lugar en el que se encontraba el registro original. Los programas de geocodificación utilizan nomenclátores, diccionarios geográficos o directorios utilizados junto con un mapa o atlas, para atribuir coordenadas a los topónimos. Así, si el registro dice simplemente «Brasil», algunos editores utilizarán el centro de Brasil como coordenada del registro. Del mismo modo, si el registro dice simplemente «Texas» o «París», el registro se situará en el centro de esas regiones. Esta es una característica casi exclusiva de los datos de museos (PRESERVED_SPECIMEN), pero también puede ocurrir con otros tipos de registros.
Use the "Distance from centroid in meters" on a GBIF occurrence search to filter for country centroids. The R package, Coordinate cleaner, can also be used for identifying and filtering for country centroids. |
Puntos a lo largo del ecuador o meridiano principal
Algunos editores consideran que cero y NULL son equivalentes, por lo que los campos de latitud y longitud vacíos de un registro reciben un valor cero. Como resultado, los registros acaban trazándose a lo largo de las líneas del ecuador y del primer meridiano.
Ubicación incierta
A menudo, querrá estar seguro de que las coordenadas dan una ubicación determinada y no están realmente a miles de kilómetros de donde se observó o recolectó el organismo. Hay dos campos en Darwin Core - coordinate precision y coordinateUncertaintyInMeters - que usted recibe con una descarga SIMPLE CSV. Puede utilizar estos campos para filtrar por «incertidumbre». Sin embargo, estos campos no son utilizados muy a menudo por los editores que consideran que sus registros son bastante seguros (a partir de un GPS) y recomendaríamos no filtrar los valores que faltan.
También hay algunos valores «falsos» de incertidumbre de coordenadas que debe conocer. Estos valores son errores producidos por el software de geocodificación y no representan valores reales de incertidumbre. Estos valores «falsos» son 301, 3036, 999 y 9999. En el caso del valor 301, la incertidumbre es a menudo mucho mayor que 301 y en realidad representa el centroide de un país.
Conjuntos de datos reticulares
Los conjuntos de datos cuadriculados son un problema conocido en GBIF. Muchos conjuntos de datos tienen puntos espaciados por igual en un patrón regular. Estos conjuntos de datos suelen ser encuestas nacionales sistemáticas o datos extraídos de algún atlas («los llamados diseños de colección rasterizados»). Las ocurrencias georreferenciadas se ajustan a un punto central.

La mayoría de los editores de conjuntos de datos reticulados completarán probablemente una de las siguientes columnas:
-
Incertidumbre de las coordenadas en metros
-
precisión de coordenadas
-
footprintWKT
Así pues, el filtrado con base en estas columnas puede ser una buena manera de remover conjuntos de datos reticulares. GBIF tiene un API experimental para la identificación de conjuntos de datos que muestran un cierto grado de cuadrículas. Puedes leer más sobre finding gridded datasets en el blog de datos de GBIF.
El paquete R, Coordinate cleaner tiene la función de remover conjuntos de datos en cuadrículas. |
Registros de ausencia
Por defecto, tanto los registros de presencia como los de ausencia se muestran cuando se buscan registros en GBIF. Los registros de ausencia confirman que una especie no se encontró en una localidad específica cuando se estudió esa zona. Esta información puede ser útil, por ejemplo, para desarrollar modelos de nicho ecológico. Si sólo le interesan los registros de presencia, puede filtrarlos usando el filtro Estado de Ocurrencia.
Medios de establecimiento
El término Darwin Core establishmentMeans identifica el proceso por el cual el individuo o individuos biológicos representados en la Ocurrencia se establecieron en el lugar. Como tal, puede servir como una herramienta de filtrado útil para identificar registros que están fuera del área de distribución nativa de una especie, siendo los términos aceptados para este campo nativo, nativoReintroducido, introducido, introducidoColonización asistida, errante o incierto.
No obstante, utilice este filtro con precaución, ya que la mayoría de los registros no contienen esta información, por lo que quedarían excluidos de una búsqueda al utilizar este filtro. Recomendamos utilizar la información del término Medios de establecimiento para filtrar después de la descarga. |
Base de datos
Basis of record es un término de Darwin Core que se refiere a la natura específica del registro y se puede referir a una de 6 clases:
-
Espécimen vivo: un espécimen que está vivo. Por ejemplo, una planta viva en un jardín botánico o un animal vivo en un zoo.
-
Espécimen conservado: un espécimen que ha sido conservado. Por ejemplo, una planta en un pliego de herbario o un lote catalogado de peces en un frasco.
-
Espécimen fósil: espécimen conservado que es un fósil. Por ejemplo, un cuerpo fósil, un coprolito, un gastrolito, un icnofósil o un trozo de árbol petrificado.
-
Cita de material: referencia o cita de uno, parte o varios especímenes en publicaciones científicas. Por ejemplo, una cita de un espécimen físico de una colección científica en el tratamiento taxonómico de una publicación científica o una aparición mencionada en un cuaderno de campo.
-
Observación humana: resultado del proceso de observación humana, por ejemplo, pruebas de un suceso tomadas de notas de campo o bibliográficas o registros de un suceso sin pruebas físicas ni pruebas capturadas con una máquina.
-
Observación de una máquina: resultado de un proceso de observación de una máquina. Por ejemplo, una fotografía, un vídeo, una grabación de audio, una imagen de teledetección o un registro de sucesos basado en telemetría.
La base del registro debe permitir a los usuarios filtrar los individuos de colecciones ex situ, como zoológicos y jardines botánicos o fósiles, así como filtrar los registros en función de si se basan en un espécimen o en una observación, lo que puede facilitar la validación taxonómica.
Aunque esto puede ser un filtro útil, los editores de datos no siempre completan correctamente el campo de base de registro, o, puede haber matices en los datos que pueden no ser inmediatamente obvios para un usuario, por ejemplo, https://data-blog.gbif.org/post/living-specimen-to-preserved-specimen-understanding-basis-of-record/ y siempre se debe volver a comprobar los datos antes de su uso. |
Archivos antiguos
GBIF tiene muchos registros de museos que pueden ser más antiguos de lo que se desea para algunos estudios.
Duplicados
La duplicación de registros puede ocurrir cuando se hacen varios registros del mismo individuo. Esto puede ocurrir, por ejemplo, cuando un investigador deposita varios especímenes de un árbol individual en herbarios de todo el mundo que luego publican estos datos en GBIF, o cuando un individuo ha sido depositado en una colección de historia natural y el individuo también fue muestreado para su ADN. En este caso, habrá un registro para el espécimen en las colecciones y otro para la secuencia de ADN.
GBIF ha introducido una función de agrupación en su búsqueda avanzada que permite a los usuarios identificar grupos de registros, es decir, registros que parecen proceder de la misma fuente. Esto permite a los usuarios identificar posibles datos duplicados y filtrarlos.
Si filtra los registros que están en un cluster, perderá todos los registros que se encuentren dentro de ese cluster y perderá datos potencialmente útiles. El filtro puede utilizarse mejor para indicar hasta qué punto hay duplicación en el conjunto de datos, o para donwloads independientes de los conjuntos de datos agrupados y no agrupados para su comparación. |