Técnicas y herramientas para diseño lógico y mantenimiento de data warehouses relacionales
Proyecto financiado por la CSIC - Universidad de la República
Julio 2000 - Junio 2002
Resumen
Un elemento importante (aceptado desde mediados de la década del 90) en la infraestructura de un sistema de información para la toma decisiones de una organización de gran porte es lo que en ingles se conoce como data warehouse (DW). Un DW contiene datos e indicadores obtenidos de las bases de datos operacionales mediante procesos tales como la integración y el control de la calidad de datos y almacenados en estructuras que permiten, en particular, un acceso eficiente a las consultas OLAP (Online Analytical Processing) que satisfacen una parte de los requerimientos de toma de decisiones. Ejemplos típicos de requerimientos OLAP en el área de negocios lo constituyen la generación dinámica de reportes que calculan y hacen ranking de las ventas totalizadas por diferentes variables como pueden ser el cliente, el país y/o el año.
Considerando a un DW como una jerarquía de bases de datos, en este proyecto nos concentramos en la base de datos conocida como DW corporativo. Los DW corporativos son utilizados como depósitos intermedios para facilitar las tareas y separar el procesamiento entre las bases operacionales y las bases finales usadas por las herramientas orientadas al usuario final. Los DW corporativos habitualmente incluyen indicadores ya calculados para acelerar y simplificar la carga del próximo nivel en la jerarquía de bases de datos y sus datos se obtienen periódicamente a partir de las bases operacionales. Los DW corporativos relacionales (basados en el modelo relacional como modelo de datos) constituyen la opción más difundida.
Las técnicas de gestión de bases de datos para DW corporativos han evolucionado en forma significativa y rápida. Estas técnicas brindan principalmente funcionalidades de almacenamiento apropiado y procesamiento eficiente de consultas. Sin embargo, pocas han sido las técnicas de diseño de la estructura de los DW corporativos que han acompañado a estas técnicas de gestión. Las características de un DW corporativo relacional hacen que las técnicas de diseño a utilizar sean diferentes de aquellas utilizadas en el diseño de bases de datos operacionales relacionales. En particular deben permitir trabajar con redundancia en los datos y definir y mantener el DW corporativo a partir de bases de datos operacionales ya existentes.
El proyecto aborda problemas de diseño y mantenimiento de data warehouses corporativos relacionales. Se definieron técnicas y se incorporaron en una herramienta de software para resolver principalmente los problemas de definición del esquema del DW corporativo y la gestión de su evolución. El enfoque de la solución se basa en el uso de primitivas de transformación de esquemas. Estas operaciones permiten por un lado, representar conocimiento de criterios de diseño para llegar al esquema final a partir de los esquemas fuentes y por otro lado, proveer la traza del diseño realizado para ser utilizada en la gestión de la evolución.
Integrantes
Publicaciones
- A. Marotta, R. Motz, R. Ruggia, Managing Source Schema
Evolution in Web Warehouses. International Workshop on
Information Integration on the Web, WIIW '2001. Brazil. Abril
2001.(pdf)
- A. Gutiérrez, R. Motz, B. Revello,
L. Silva. Construcción de un sistema de apoyo a la toma de
decisiones para el área gerencial del Hospital de
Clínicas. Anales 30o. JAIIO, Subserie: Simposio
Argentino de Informática y Salud (SIS), Vol. 4., páginas 232 -
242, Setiembre 2001, Buenos Aires, Argentina. También como
reporte técnico INCO-01-07. InCo - Pedeciba, Facultad de
Ingeniería, Universidad de la República, Montevideo,
Uruguay. Julio 2001. ISSN 0797-6410.(pdf)
- A. Marotta, R.Ruggia. Data Warehouse Design: A Schema Transformation Approach. XXII Conferencia Internacional de la Sociedad Chilena de Ciencia de la Computación. Chile 2002.(pdf)
Reportes Técnicos
- A. Gutiérrez, A. Marotta, An Overview of Data Warehouse Design Approaches and Techniques. Reporte Técnico INCO-01-09. InCo - Pedeciba, Facultad de Ingeniería, Universidad de la República, Montevideo, Uruguay. Octubre 2000. ISSN 0797-6410.(pdf)
- A. Marotta, Designing Relational Data Warehouses through Schema-Transformation Primitives. Reporte Técnico INCO-01-10. InCo - Pedeciba, Facultad de Ingeniería, Universidad de la República, Montevideo, Uruguay. Diciembre 2000. ISSN 0797-6410.(pdf)
- A. Gutiérrez, A. Marotta, Designing Relational Data
Warehouses through Schema-Transformation Primitives - A
Prototype. Reporte Técnico INCO-01-11. InCo - Pedeciba,
Facultad de Ingeniería, Universidad de la República,
Montevideo, Uruguay. Junio 2001. ISSN 0797-6410.(pdf)
- A. Marotta. Resolución de la integración en el diseño del Data Warehouse. Reporte Técnico INCO-02-07. InCo - Pedeciba, Facultad de Ingeniería, Universidad de la República, Montevideo, Uruguay. Junio 2001. ISSN 0797-6410.(pdf)
- A. Marotta. Managing source schema evolution in relational data warehouses. Reporte técnico en elaboración.(pdf)
- I. Larrañaga. Aplicación de PVM a la carga de datos para el análisis OLAP. Reporte técnico en elaboración.(pdf)
Reportes Internos
- A. Alcarraz, M. Ayala, P. Gatto. Diseño e implementación de
una herramienta para la Evolución de un Data Warehouse
Relacional. Informe final del grado Ingeniero en
Computación. Supervisores: Adriana Marotta, Verónika
Peralta. In.Co., Facultad de Ingeniería. Universidad de la
República. Montevideo, Uruguay. Junio 2001.(pdf zipped)
- A. Caorsi, H. Paggi, G. Perez. Caso de Estudio: Arte Espectacular. Informe para la evaluación del curso "Sistemas de Data Warehousing" del Diploma de Actualización Profesional. Mayo 2002.(pdf)
- I. Larrañaga. Automatic initial load of data warehouses as a workflow process. Reporte interno. Julio 2002.(pdf)
Ponencias
- Presentación del trabajo "Diseño y Mantenimiento de Data Warehouses a través de Transformación de Esquemas" por Adriana Marotta en las VI Jornadas de Informática e Investigación Operativa organizada por el Instituto de Computación de la Facultad de Ingenieria y el Pedeciba Informática en agosto de 2000.(pdf)
- Presentación del artículo "Managing Source Schema Evolution in Web Warehouses" por Adriana Marotta en el workshop WIIW' 2001 en abril de 2001. (pdf)
- Presentación de avance del trabajo de Ignacio Larrañaga
"Especificación de Primitivas de Diseño de Data Warehouses
Relacionales en SQL" en mayo de 2001 en el seminario interno
sobre temas relacionados a la representación de los procesos
de carga y refresque de data warehouses usando conceptos del
área conocida como workflow.
- Presentación de avance del trabajo de Verónika Peralta "Modelización del Pasaje del Esquema Conceptual al Esquema Lógico de Data Warehouses" en junio de 2001 en el seminario interno sobre temas relacionados a la representación de los procesos de carga y refresque de data warehouses usando conceptos del área conocida como workflow.
Difusión
- Dictado del curso "Sistema de data warehouses" de 60 hs. para el
diploma de actualización profesional ofrecido por el Instituto
de Computación de la Facultad de Ingeniera. Participaron en
esta actividad los docentes Alejandro Gutiérrez, Adriana
Marotta, Verónika Peralta y Raúl Ruggia. Setiembre 2000 (Programa del curso) y Octubre 2001 con la participación de Joaquin Goyoaga (Programa del curso).
- Dictado del curso "Sistemas de Data Warehousing y OLAP" de 14
hs. en la 8va Escuela de Verano de Cs. Informáticas (RIO 2001)
organizada por la Universidad Nacional de Río Cuarto. Área de
Computación. Córdoba, Argentina. en Río IV,
Argentina. Participaron en esta actividad los docentes Adriana
Marotta y Verónika Peralta. Febrero 2001.(Programa del curso)
Seminario
-
Estudio de modelos y técnicas
de workflow en vista a la definición de procesos de carga y mantenimiento
de data warehouses (material).
Informes de avance
Trabajos relacionados
- Wand: A Case Tool for Data Warehouse Design. DEIS -
University of Bologna. Italy.
- LSExtract: Extraction of heterogeneous external sources
published on the Web. Military Institute of Engineering. Rio de
Janeiro. Brazil.
- DyDa: Data Warehouse Maintenance in Fully Concurrent
Environments. Worcester Polytechnic Institute (DSRG Group). Worcester. USA.
- Warehouse Metadata. Database Group - Universitat
Leipzig. Germany
- Arktos II. Support of modeling, execution, optimization and administration of ETL scenarios. Knowledge and Database Systems Laboratory - National Technical University of Athens. Greece