Procesamiento y calidad de datos
En este módulo aprenderás a determinar si los datos se ajustan a tu finalidad y cómo la revisión de las incidencias y alertas de datos de GBIF puede ayudarte a procesar los datos que usas para tu investigación. |
En función de tu pregunta de investigación, tendrás que decidir si los datos/conjunto de datos disponibles se ajustan con tu objetivo. Esto incluirá la valuación de la calidad de los datos.
En este vídeo (12:26), analizarás unos de los principios de aptitud para el uso y control de calidad. La audiencia de este vídeo está dirigida a los publicadores de datos, sin embargo muchos de los mismos principios se aplican e los usuarios de datos. Si no puedes mirar el vídeo Youtube incorporado, lo puedes descargar localmente en la página Files for download. |
Determinación de aptitud para el uso
Para una persona, los datos identificados al nivel de Genes pueden ser suficientes para ejecutar modelos de nichos ecológicos. Para una persona que estudia un taxón específico, esos mismos datos en el ámbito de genes serán mucho menos útiles que los casos más detallados con registros con información de subespecies.
Based on the principles that Arthur Chapman discusses in the Principles of Data Quality (2005), you should reflect on some important questions about the data to help you decide if data is trustworthy or useful enough for your purpose:
-
How Accurate are the data? For example, are the identifications current and were they made by known experts?
-
How Timely are the data? When was the data made available? How often has it been updated?
-
How Complete or Comprehensive are the data? How well does the data cover a particular time, place, or domain?
-
How Consistent are the data? Are the data in each field always of the same type? Was the data collected using the same documented protocols?
-
How Relevant are the data? How similar is the dataset to others that have been used successfully for the same purpose?
-
How Detailed are the data? How much resolution is there in the data? At what scale can the data be used for mapping?
-
Is the data Easy to interpret? Is the dataset (metadata) documented in a clear and concise way?

Evaluating data quality
If you have determined a dataset is fit for your purpose, you need to further examine the dataset and complete post-download processing of the data. GBIF downloads contain data from a range of sources and the data will likely vary in its measures of quality. Knowing the properties of the data you have will help you to understand the ways in which you can and cannot clean, validate and process the data.
Below you will find a selected reading from Arthur Chapman’s guide “Principles of data quality”. Full document, references and translations can be found on GBIF.org. |