Título: Un Marco de Trabajo para Evaluar la Calidad de los Datos en un Sistema de Integración de Datos Marco de Trabajo: DOCTORADO Área de desarrollo: Sistemas de Información Autor: Veronika Peralta Contacto: vperalta@fing.edu.uy Día: MARTES Hora: 15:00:00 Palabras Claves: Calidad de Datos, Evaluación de la Calidad, Sistemas de Integración de Datos Resumen: Los sistemas de informacion actuales necesitan integrar grandes cantidades de datos de diversas fuentes para resolver los complejos requerimientos de información de los usuarios. Dichos requerimientos de información se resuelven comunmente implementando sofisticados procesos de manipulación de datos que involucran vistas o consultas sobre fuentes de datos autónomas y heterogeneas. A medida que la cantidad de información potencialmente recuperada aumenta, los usuarios se preocupan más por la calidad de los resultados de sus consultas. La calidad de dichos resultados depende principalmente de la calidad de las fuentes de datos (coherencia, completitud, frescura, etc), de la confianza que se tenga en dichas fuentes de datos y de los procesos que extraen los datos de las fuentes, la integran y construyen la información resultado. En este trabajo se trata el problema de evaluar la calidad de la información en un sistema de integración de datos. Concretamente, presentamos un marco de trabajo (framework), que es un primer paso hacia la formalización de los diferentes elementos del problema de evaluación de la calidad. Entre esos elementos destacamos: (i) fuentes de datos, (ii) clases de consultas de usuario, (iii) procesos que extraen, integran y proveen información al usuario, (iv) metadata que describe características del sistema y medidas de calidad, y (v) algoritmos de evaluación de la calidad. En el marco de trabajo propuesto, el sistema de integración de datos se modela como un workflow, lo cual permite la representación de operaciones de manipulación complejas. Los algoritmos de evaluación de la calidad se basan en la representación de grafo de dicho workflow, es decir, son definidos en término de primitivas de recorrida de grafos. La idea de base del marco de trabajo es definir un contexto flexible que permita tener en cuenta diferentes factores de calidad, metadata del sistema y algoritmos de evaluación. Para ilustrar el enfoque, presentamos un experimento con un factor de calidad: la actualización de los datos (data freshness) y mostramos cómo se usa el marco de trabajo para evaluar dicho factor de calidad en diferentes escenarios. |
Ultima modificacion 5 de Octubre 2004 16:30 |