Procesamiento y calidad de datos

En este módulo aprenderás a determinar si los datos se ajustan a tu finalidad y cómo la revisión de las incidencias y alertas de datos de GBIF puede ayudarte a procesar los datos que usas para tu investigación.

En función de tu pregunta de investigación, tendrás que decidir si los datos/conjunto de datos disponibles se ajustan con tu objetivo. Esto incluirá la valuación de la calidad de los datos.

En este vídeo (12:26), analizarás unos de los principios de aptitud para el uso y control de calidad. La audiencia de este vídeo está dirigida a los publicadores de datos, sin embargo muchos de los mismos principios se aplican e los usuarios de datos. Si no puedes mirar el vídeo Youtube incorporado, lo puedes descargar localmente en la página Files for download.

Determinación de aptitud para el uso

Para una persona, los datos identificados al nivel de Genes pueden ser suficientes para ejecutar modelos de nichos ecológicos. Para una persona que estudia un taxón específico, esos mismos datos en el ámbito de genes serán mucho menos útiles que los casos más detallados con registros con información de subespecies.

Según los principios que Arthur Chapman analiza en el Principles of Data Quality, se debería reflexionar sobre cuestiones importantes sobre los datos para ayudarle a decidir si los datos son suficientemente fiables o útiles para su objetivo:

¿Cuánto aptos son los datos? Por ejemplo, ¿las identificaciones son actuales y fueron realizadas por expertos reconocidos?
¿Hasta qué punto son puntuales los datos? ¿Cuándo se pusieron a disposición los datos? ¿Con qué frecuencia han sido actualizados?
¿Hasta qué punto los datos son completos o exhaustivos? ¿En qué medida cubren los datos un momento, lugar o ámbito concretos?
¿Hasta qué punto los datos son coherentes? ¿Son los datos en cada campo de la misma tipología? ¿Se recogieron los datos utilizando los mismos protocolos documentados?
¿En qué medida los datos son relevantes? ¿En qué medida el conjunto de datos es similar a otros que han sido utilizados con éxito para el mismo objetivo?
¿En qué medida son detallados los datos? ¿Cuánta resolución tienen los datos? ¿A qué escala pueden utilizarse los datos para elaborar mapas?
¿Son los datos fáciles de traducir? ¿Está el conjunto de datos (meta datos) documentado de manera clara y concisa?

Imagen por Melissa Liu

Evaluación de calidad de datos

Si usted decidió que un conjunto de datos es apto para su objetivo, necesita examinar más a fondo el conjunto de datos y completar el procesamiento tras la descarga de los datos mismos. Las descargas de GBIF contienen datos procedentes de diversas fuentes y puede que los datos probablemente varíen en sus medidas de calidad. Conocer las propriedades de los datos que posee le ayudará a entender las formas en las que puede y no puede limpiar, validar y procesar los datos.

A continuación encontrará una selección de lectura de la guía de Arthur Chapman "Principios de la calidad de datos". Full document, Se pueden encontrar referencias y traducciones en GBIF.org.

Antes de que pueda tener lugar una discusión detallada sobre calidad de los datos y su aplicación a datos de presencia de especies, hay una serie de conceptos que necesitan ser definidos y descritos. Estos incluyen el término calidad de los datos en sí, los términos exactitud y precisión que a menudo son mal aplicados, y lo que entendemos por datos primarios de especies y datos de presencia de especies.

Datos de presencia de especies

Los datos de presencia de especies se utilizan aquí para incluir datos de etiquetas de especímenes adjuntas a especímenes o lotes conservados en museos y herbarios, datos de observación y datos de encuestas medioambientales. En general, los datos son lo que denominamos «basados en puntos», aunque también se incluyen datos lineales (datos de transectos de encuestas medioambientales, recolecciones a lo largo de un río), poligonales (observaciones dentro de un área definida, como un parque nacional) y cuadriculados (observaciones o registros de encuestas de una cuadrícula regular). En general, se trata de datos georreferenciados, es decir, registros con referencias geográficas que los vinculan a un lugar concreto en el espacio -ya sea con una coordenada geo referenciada (por ejemplo, latitud y longitud, UTM) o no (descripción textual de una localidad, altitud, profundidad)- y tiempo (fecha, hora del día).

En general, los datos también están vinculados a un nombre taxonómico, pero también pueden incluirse colecciones no identificadas. En ocasiones, el término se ha utilizado indistintamente con el de «datos primarios de especies».

Datos de especies primarias

"Datos primarios de especies" se utiliza para describir los datos brutos de recogida y los datos sin atributos espaciales. Incluye datos taxonómicos y de nomenclatura sin atributos espaciales, como nombres, taxones y conceptos taxonómicos sin referencias geográficas asociadas.

Exactitud y Precisión

La exactitud e la precisión están regularmente confundidas y generalmente no se entienden las diferencias.

Exactitud se refiere a la cercanía de los valores medidos, de las observaciones o de las estimaciones al valor real o verdadero (o al valor que se acepta como verdadero - por ejemplo, las coordinadas de un punto de control).

Precisión (o resolución) puede ser dividida en dos tipos principales. Precisión estadística es la cercanía con la cual observaciones repetidas se conforman a ellas mismas. No tienen nada que ver con su relación con el valor real, y pueden tener una gran precisión, pero poca exactitud. Precisión numeral es el número de dígitos con que se registra una observación y se ha hecho mucho más evidente con la llegada de los ordenadores. Por ejemplo, una base de datos puede mostrar un registro decimal de latitud/ longitud con 10 decimales, es decir, unos 0,01 mm, cuando en realidad el registro tiene una resolución no superior a 10-100 m (3-4 decimales). Eso suele dar una falsa impresión tanto de la resolución como de la precisión.

Los siguientes términos- exactitud y precisión - pueden ser aplicados también a los datos no espaciales al igual que a los datos espaciales. Por ejemplo, una colección puede tener una identificación a un nivel de subespecie (es decir, tener una alta precisión) pero ser el taxón equivocado (es decir, tener una baja precisión) o estar identificada sólo a nivel de Familia (alta exactitud, pero baja precisión)…

Calidad de datos

La calidad de los datos es multidimensional e implica su gestión, modelización y análisis, control y garantía de calidad, almacenamiento y presentación. Como afirman de forma independiente Chrisman (1991) y Strong et al. (1997), la calidad de los datos está relacionada con el uso y no puede evaluarse independientemente del usuario. En una base de datos, los datos no tienen calidad ni valor real (Dalcin 2004); sólo tienen un valor potencial que sólo se materializa cuando alguien utiliza los datos para hacer algo útil. La calidad de la información está relacionada con su capacidad para satisfacer a sus clientes y cubrir sus necesidades (English 1999).

Redman (2001), sugirió que para que los datos sean aptos para su uso deben ser accesibles, precisos, oportunos, completos, coherentes con otras fuentes, pertinentes, exhaustivos, ofrecer un nivel de detalle adecuado, ser fáciles de leer y fáciles de interpretar.

Una cuestión que el responsable de la base de datos puede tener que plantearse es qué puede ser necesario hacer con la base de datos para aumentar su usabilidad para un público más amplio (es decir, aumentar su uso potencial o relevancia) y, por lo tanto, hacerla apta para una gama más amplia de propósitos. Habrá un equilibrio entre la mayor facilidad de uso y el esfuerzo necesario para añadir funcionalidad y facilidad de uso adicionales. Para ello puede ser necesario atomizar los campos de datos, añadir información de georreferenciación, etc.

Garantía de calidad/Control de calidad

La diferencia entre control de calidad y garantía de calidad no siempre está clara. Taulbee (1996) distingue entre control de calidad y garantía de calidad y subraya que no puede existir uno sin el otro si se quieren alcanzar los objetivos de calidad. Define el control de calidad como un juicio sobre la calidad basado en normas, procesos y procedimientos internos establecidos para controlar y supervisar la calidad; y la garantía de calidad como un juicio sobre la calidad basado en normas externas al proceso y consiste en la revisión de las actividades y los procesos de control de calidad para garantizar que los productos finales cumplen unas normas de calidad predeterminadas. Habrá un equilibrio entre la mayor facilidad de uso y el esfuerzo necesario para añadir funcionalidad y facilidad de uso adicionales. Para ello puede ser necesario atomizar los campos de datos, añadir información de georreferenciación, etc.

En un enfoque más orientado a la empresa, Redman (2001) define la Garantía de Calidad como «aquellas actividades destinadas a producir productos de información sin defectos para satisfacer las necesidades más importantes de los clientes más importantes, al menor coste posible».

No está claro cómo deben aplicarse estos términos en la práctica, y en la mayoría de los casos parecen utilizarse como sinónimos para describir la práctica general de la gestión de la calidad de los datos.

Incertidumbre

La incertidumbre puede considerarse como una «medida de lo incompleto del conocimiento o la información que se tiene sobre una cantidad desconocida cuyo valor real podría establecerse si se dispusiera de un dispositivo de medición perfecto» (Cullen y Frey 1999). La incertidumbre es una propiedad de la comprensión de los datos por parte del observador, y tiene más que ver con el observador que con los datos en sí. Siempre hay incertidumbre en los datos; lo difícil es registrar, comprender y visualizar esa incertidumbre para que otros también puedan entenderla. La incertidumbre es un término clave para entender el riesgo y su evaluación.

Error

El error engloba tanto la imprecisión de los datos como su inexactitud. Hay muchos factores que contribuyen al error. En general, se considera que el error puede ser aleatorio o sistemático. El error aleatorio suele referirse a la desviación del estado real de forma aleatoria. El error sistemático o sesgo surge de un desplazamiento uniforme de los valores y a veces se describe como de «precisión relativa» en el mundo cartográfico (Chrisman 1991). A la hora de determinar la «idoneidad para el uso», el error sistemático puede ser aceptable para algunas aplicaciones e inadecuado para otras.

Un ejemplo puede ser el uso de un datum geodésico diferente1, que, si se utiliza en todo el análisis, puede no causar mayores problemas. Sin embargo, surgirán problemas cuando un análisis utilice datos procedentes de diferentes fuentes y con diferentes sesgos, por ejemplo, fuentes de datos que utilicen diferentes datums geodésicos, o cuando las identificaciones se hayan realizado utilizando una versión anterior de un código nomenclatural.

«Dado que el error es ineludible, debe reconocerse como una dimensión fundamental de los datos» (Chrisman 1991). Sólo cuando se incluye el error en una representación de los datos es posible responder a preguntas sobre las limitaciones de los datos, e incluso sobre las limitaciones de los conocimientos actuales. Los errores conocidos en las tres dimensiones de espacio, atributo y tiempo deben medirse, calcularse, registrarse y documentarse.

Validación y Limpieza

La validación es un proceso utilizado para determinar si los datos son inexactos, incompletos o poco razonables. El proceso puede incluir comprobaciones de formato, comprobaciones de integridad, comprobaciones de razonabilidad, comprobaciones de límites, revisión de los datos para identificar valores atípicos (geográficos, estadísticos, temporales o medioambientales) u otros errores, y evaluación de los datos por expertos en la materia (por ejemplo, especialistas taxonómicos). Estos procesos suelen dar lugar a la señalización, documentación y posterior comprobación de los registros sospechosos. Los controles de validación también pueden implicar la comprobación del cumplimiento de las normas, reglas y convenciones aplicables. Una etapa clave en la validación y depuración de datos es identificar las causas fundamentales de los errores detectados y centrarse en evitar que vuelvan a producirse (Redman 2001).

La limpieza de datos se refiere al proceso de «corregir» los errores en los datos que se han identificado durante el proceso de validación. El término es sinónimo de «limpieza de datos», aunque algunos utilizan la limpieza de datos para englobar tanto la validación como la limpieza de datos. En el proceso de limpieza de datos es importante que los datos no se pierdan inadvertidamente y que los cambios en la información existente se lleven a cabo con mucho cuidado. A menudo es mejor conservar los datos antiguos (originales) y los nuevos (corregidos) uno al lado del otro en la base de datos, de modo que si se cometen errores en el proceso de limpieza, se pueda recuperar la información original.