InCo - Facultad de Ingenieria - IX Jornadas de Informática e Investigación Operativa

Título: Extracción e integración de información en una arquitectura de Web Warehouses

Marco de Trabajo: PROYECTO GRADO

Área de desarrollo: Sistemas de Información

Autor: Verónica Giaudrone

Contacto: vgiaudrone@adinet.com.uy

Día: MARTES

Hora: 16:30:00

Palabras Claves: Web Warehouse, Wrapper, Mediador, Ontología
Resumen:

El sistema a desarrollar se enmarca en una arquitectura de Web Warehouses, cuyo objetivo es extraer información de la Web para ser usada en una Base de Datos orientada a la toma de decisiones (Data Warehouse). La arquitectura de Web Warehouses se basa en Wrappers/Mediadores, los cuales procesan información obtenida a partir de conjuntos de páginas Web. El proceso comienza seleccionando un conjunto de páginas con información relevante en dominios relacionados entre sí. Para cada dominio un wrapper extrae información de las páginas, según un pedido dado por un esquema XML, con lo que, para cada página, se obtiene como salida una instancia de ese esquema. Luego, éstas salidas son procesadas por un mediador que realiza integración a nivel de datos, dando como resultado una única instancia del esquema con información para ese dominio. Finalmente la información de todos los dominios es integrada para poder ser utilizada por el Data Warehouse. Nuestro sistema comprende la primera parte de esta arquitectura, centrándose en extraer e integrar la información de las páginas Web a nivel de datos, dejando fuera la integración de información entre diferentes dominios. Dada la diversidad de formas en que la información es presentada en la Web debemos elegir una manera de obtenerla. Nuestra extracción se basa en la estructura de las páginas Web, considerando las posibilidades de presentación y cubriendo algunas de ellas. Además, buscamos enriquecer el pedido de información, utilizando una ontología del dominio de búsqueda. La integración se realiza a partir de la información obtenida en la extracción de forma que la información integrada también sigue el esquema del pedido. El método de integración se basa en la confiabilidad de las fuentes. Se realiza un testing que no sólo busca satisfacer el caso de prueba de aceptación, sino también, que se soporte un cambio de dominio. Se utilizan métricas para facilitar la detección de mejoras o desmejoras. Paralelamente, se analiza el efecto de cambios en las páginas Web (evolución) en el sistema, de forma de minimizar el impacto de éstos en los procesos de extracción e integración de la información. Se genera la metadata necesaria en cada etapa, independientemente de la información extraída para ganar flexibilidad, para una futura implementación del manejo de evolución.

Ultima modificacion 5 de Octubre 2004 16:30

IX Jornadas de Informática e Investigación Operativa

8 al 12 de noviembre de 2004 Montevideo, Uruguay

8 al 12 de noviembre de 2004
Montevideo, Uruguay