Primitivas SQL

1- Introducción

El objetivo de esta investigación se centra en expresar las operaciones necesarias para la transformación de las instancias al aplicar las primitivas presentadas en el trabajo de tesis [Am2000].

El interés principal de esta investigación es que el resultado va a ser utilizado para plantear estrategias de carga y actualización de la información del DW (“Data Warehouse”) que se plantea en dicha tesis.

En el resto del articulo procederemos de la siguiente forma; en la sección 2 a dar contexto recordando las primitivas a utilizar y otros aspectos útiles. En la sección 3 haremos el análisis de las primitivas, dividiendo en AR (“Álgebra Relacional”) primeramente y posteriormente SQL. Continuaremos mencionando los trabajos futuros en la sección 4. En la sección 5 daremos las conclusiones del análisis y concluiremos mencionando la bibliografía utilizada.

2- Contexto

Nos referiremos aquí a las primitivas de diseño que se tratan en la tesis citada anteriormente, por lo cual las recordaremos a continuación^([1]).

· P1 Identity. Dada una relación esta genera otra que es exactamente la misma que la relación origen.

· P2 Data Filter. Dada una relación origen, esta genera otra donde solo se preservan algunos atributos. El objetivo es eliminar los atributos puramente operacionales.

· P3 Temporalization. Esta agrega un elemento de tiempo al conjunto de atributos de la relación.

· P4 Key Generalization. (*) Estas primitivas generalizan la clave de una relación de dimensión, entonces mas de una tupla por cada elemento de la relación puede ser almacenado.

· P5 Foreign Key Update. A través de esta primitiva una clave foránea y sus referencias pude ser cambiada en una relación. Esto es muy usado cuando las claves primarias son modificadas.

· P6 DD-Adding. (*) Las primitivas de este grupo agregan a una relación un atributo que es derivado de otros.

· P7 Attribute Adding. Esta primitiva agrega atributos a la relación de dimensión. Esto puede ser muy útil para mantener en la misma tupla mas de una versión de un atributo.

· P8 Hierarchy Roll Up. Esta primitiva realiza el “roll up” por un atributo de una relación siguiente la jerarquía. Además esta puede generar otra relación de jerarquía con el nivel de detalle correspondiente.

· P9 Aggregate Generation. Dada una relación de medida, esta primitiva genera otra relación de medida, donde la información es resumida (o agrupada) por un conjunto dado de atributos.

· P10 Data Array Creation. Dada una relación que contiene un atributo de medida y un atributo que representa un conjunto predeterminado de valores, esta primitiva genera una relación con la información estructurada como array.

· P11 Partition by Stability. (*) Estas primitivas particionan una relación, con el objetivo de organizar el almacenamiento histórico de la información. Particiones Horizontales o Verticales pueden ser aplicadas dependiendo del criterio de diseño utilizado.

· P12 Hierarchy Generation. (*) Esta es una familia de primitivas que genera relaciones de jerarquía tomando como entrada relaciones que incluyen una jerarquía o parte de una.

· P13 Minidimension Break off. Esta primitiva elimina un conjunto de atributos de una relación de dimensión, construyendo una nueva relación con ellos.

· P14 New Dimension Crossing. Esta primitiva permite materializar un cruzamiento de dimensiones en una nueva relación.

Tomaremos las mismas definiciones básicas que en [Am2000] sobre conjuntos de relaciones y conjuntos de relaciones, las citaremos en el “Apéndice 1”.

Introduciremos los siguientes conceptos:

· Expresión de Agregación: Esta es una expresión formada por alguno de los operadores de agregación definidos en [ElNa1997] (SUM, COUNT, etc.).

Introduciremos los siguientes dominios:

· Time: Dominio de los valores de tiempo, contiene valores que nos permiten registrar un instante de tiempo, p.e.: “23/4/2001” Î Time.

3- Análisis

Tomaremos cada una de las primitivas definidas y haremos una propuesta para la sentencia SQL. Y para las que sea necesario modificar la definición de alguna relación, daremos los cambios necesarios.

· P1 Identity.

Entrada:

Esquema origen: R Î Rel

Procesamiento:

P1 = select * from R

· P2 Data Filter.

Entrada:

Esquema origen: R(A₁, ..., A_n) Î Rel

Conjunto de atributos a filtrar: X Ì {A₁, ..., A_n}

Pre-procesamiento:

A’ = {A’₁, ..., A’_m} = {A₁, ..., A_n} - X

Procesamiento:

P2 = select A’₁, ..., A’_m from R

· P3 Temporalization.

Entrada:

Esquema origen: R Î Rel

Valor de tiempo: t Î Time

Procesamiento:

P2 = select *, t from R

· P4 Key Generalization.

· P4.1 Version Digits.

Entrada:

Esquema origen: R(A₁, ..., A_n) Î Rel / A₁ Î X Î Att_k(R)

Numero de versión: n Î String.

Procesamiento^([2]):

P4.1 = select n || A₁, ..., A_n from R

· P4.2 Key Extension.

Entrada:

Esquema origen: R Î Rel

Procesamiento:

P1 = select * from R

· P5 Foreign Key Update.

Entrada:

Esquema origen: R(A₁, ..., A_n) Î Rel

Esquema de la clave foránea: T(B₁, ..., B_m) Î Rel

Antigua clave foránea: X Í {A₁, ..., A_n}

Nueva clave foránea: Y Í {B₁, ..., B_m}

Esquema de correspondencias: S(C₁, ..., C_i) Ï Rel, {C₁, ..., C_i} = (X U Y)

Pre-procesamiento:

V = {V₁, …, V_j} / V = Y U ({A₁, ..., A_n} – X)

Procesamiento:

P5 = select V₁, …, V_j from R, S where R.X = S.X

· P6 DD-Adding.

· P6.1 DD-Adding 1-1.

Entrada:

Esquema origen: R(A₁, ..., A_n) Î Rel

Función de calculo: f(X) / X Í {A₁, ..., A_n}

Procesamiento:

P6.1 = select *, f(X) from R

· P6.2 DD-Adding N-1.

Entrada:

Esquemas origen: R(A₁, ..., A_n), R₁(A’₁, ..., A’_n’), ..., R_n(Aⁿ₁, ..., Aⁿ_nn) Î Rel

Función de calculo: f(X) / X Í ({A₁, ..., A_n} U {A’₁, ..., A’_n’} U ... U {Aⁿ_{1, ...,}Aⁿ_nn})

Atributos de Join: Y Í {A₁, ..., A_n} Ù Y’ Í {A’₁, ..., A’_n’} Ù … Ù Yⁿ Í {Aⁿ₁, ...,Aⁿ_nn}

Procesamiento:

P6.2 = select A₁, ..., A_n, f(X)

from R, R₁, R₂, …, R_n

where R.Y = R₁.Y’ and R₁.Y’ = R₂.Y²

and … and R_(n-1).Y^(n-1) = R_n.Yⁿ

· P6.3 DD-Adding N-N.

Entrada:

Esquemas origen: R(A₁, ..., A_n), R₁(A’₁, ..., A’_n’), ..., R_n(Aⁿ₁, ..., Aⁿ_nn) Î Rel

Expresión de agregación: e(X) / X Î ({A’₁, ..., A’_n’} U ... U {Aⁿ_1,
...,Aⁿ_nn})

Atributos de Join: Y Í {A₁, ..., A_n} Ù Y’ Í {A’₁, ..., A’_n’} Ù … Ù Yⁿ Í {Aⁿ₁, ...,Aⁿ_nn}

Atributos de agregación: Z Í ({A’₁, ..., A’_n’} U ... U {A^m_1,
...,A^m_nn})

Procesamiento:

P6.3 = select A₁, ..., A_n, e(X)

from R, R₁, R₂, …, R_n

where R.Y = R₁.Y’ and R₁.Y’ = R₂.Y²

and … and R_(n-1).Y^(n-1) = R_n.Yⁿ

group by A₁, ..., A_n, Z

· P7 Attribute Adding.

Entrada:

Esquema origen: R Î Rel

Valores de los atributos a agregar: {b₁, ..., b_n}

Procesamiento:

P7 = select *, b₁, ..., b_n from R

· P8 Hierarchy Roll Up.

Entrada:

Esquemas origen:

R₁(A₁, ..., A_n) ÎRel_M / $ A Ì {A₁, ..., A_n} Ù A Ì Att_FK(R₁, R₂)

R₂(B₁, ..., B_n’) ÎRel_J / A Ì {B₁, ..., B_n’} Ù A Ì Att_K(R₂)

Atributos de medida: Z = {Z₁, …, Z_k} = Att_M(R₁), Z Ì {A₁, ..., A_n}

Agregaciones de los atributos: {e₁(Z₁), …, e_k(Z_k)}

Nivel de la jerarquía: B / B Ì {B₁, ..., B_n’} Ù B Ì Att_D(R₂)

Atributos que por su granularidad salen de R₁: X / X Ì {A₁, ..., A_n} Ù X Ì (Att_D(R₁) U Att_M(R₁))

Atributos que por su granularidad salen de R₂: Y / Y Ì {B₁, ..., B_n’}

Indica si genera nueva jerarquía: agg_h Î Bolean

Pre-procesamiento:

V= {V₁, …, V_m} / V = ((({A₁, ..., A_n} – A) U B) – X) – Z

V’= {V’₁, …, V’_m’} / V’ = {B₁, ..., B_n’} – Y

Procesamiento:

P8 = select V₁, …, V_m, e₁(Z₁), …, e_k(Z_k)

from R₁, R₂

where R₁.A = R₂.A

group by V₁, …, V_m

Si se indica agg_h:

P8b = select distinct V’₁, …, V’_m’

from R₂

· P9 Aggregate Generation.

Entrada:

Esquemas origen: R(A₁, ..., A_n) ÎRel_M

Atributos de medida: Z = {Z₁, …, Z_k} = Att_M(R), Z Ì {A₁, ..., A_n}

Agregaciones de los atributos: {e₁(Z₁), …, e_k(Z_k)}

Atributos que salen de R: X / X Ì {A₁, ..., A_n} Ù X Ì (Att_D(R) U Att_M(R))

Pre-procesamiento:

V = {V₁, …, V_m} / V = ({A₁, ..., A_n} – X) – Z

Procesamiento:

P9 = select V₁, …, V_m, e₁(Z₁), …, e_k(Z_k)

from R

group by V₁, …, V_m

· P10 Data Array Creation.

Entrada:

Esquema origen: R(A₁, ..., A_n)

Atributo de valores predefinidos: A Î {A₁, ..., A_n}

Expresión agregación: e(A)

Pre-procesamiento:

V = {V₁, …, V_m} /

V = select distinct A

from R

B = {B₁, …, B_p} = Att_M(R)

N= { N_ij / N_ij = “V_i” || “_” || “B_j”, i=1..m, j=1..p}

K = {K₁, …, K_n-1} = {A₁, ..., A_n} – B – {A}

Procesamiento:

T₁ = select K₁, …, K_n-1, e(B₁) as N₁₁, …, e(B_p) as N_p1from R where A = V₁group by K₁, …, K_n-1

…

T_m = select K₁, …, K_n-1, e(B₁) as N_1m, …, e(B_p) as N_pmfrom R where A = V_mgroup by K₁, …, K_n-1

P10 = select K₁, …, K_n-1, N₁₁, …, N_pm

from T₁, …, T_m

where T₁.K=T₂.K and…and T_m-1.K=T_m.K

· P11 Partition by Stability.

· P11.1 Vertical Partition.

Entrada:

Esquema origen: R Î Rel

Atributos que nunca cambian: Y Ì Att(R)

Atributos que algunas veces cambian: Z Ì Att(R), Z Ç Y = Æ

Atributos que cambian muchas veces: W Ì Att(R), W Ç Y = Æ Ù W Ç Z = Æ

Pre-procesamiento:

Y’ = {Y’₁, …, Y’_n’} / Y’ = Att_K(R) È Y

Z’ = {Z’₁, …, Z’_n’} / Z’ = Att_K(R) È Z

W’ = {W’₁, …, W’_n’} / W’ = Att_K(R) È W

Procesamiento:

P11.1.1 = select Y’₁, …, Y’_n’ from R

P11.1.2 = select Z’₁, …, Z’_n’’ from R

P11.1.3 = select W’₁, …, W’_n’’’ from R

· P11.2 Horizontal Partition.

Entrada:

Esquema origen: R Î Rel

Condición de Historizacion: c(X) / X Ì Att(R)

Procesamiento:

P11.2.1 = select * from R where c(X)

P11.2.2 = select * from R where not(c(X))

· P12 Hierarchy Generation.

· P12.1 De-Normalized Hierarchy Generation.

Entrada:

Esquemas origen: R₁, ..., R_n Î Rel

Atributos de la Jerarquía: J = {J₁, …, J_m}

Clave de la Jerarquía: k Í {J₁, …, J_m}

Pre-procesamiento:

S’ = {S’₁, …, S’_n’} = (Att(R₁) – J) È k

…

Sⁿ = {S’₁, …, S’_nn} = (Att(R_n) – J) È k

s_i(i+1) = Att(R_i) Ç J Ç Att(R_i+1), i=1..(n-1)

Procesamiento:

P13.0 = select distinct J₁, …, J_m

from R₁, …, R_n

where R₁.s₁₂ = R₂.s₁₂ and … and R_(n-1).s_(n-1)n = R_n.s_(n-1)n

P13.1 = select S’₁, …, S’_n’

from R₁, P13.0

where R₁.k = P13.0.k

…

P13.n = select S’₁, …, S’_nn

from R_n, P13.0

where R₁.k = P13.0.k

· P12.2 Snowflake Hierarchy Generation.

Entrada:

Esquemas origen: R₁, ..., R_n Î Rel

Conjunto ordenado de atributos de la Jerarquía: J = {J₁, …, J_m}

Clave de la Jerarquía: k Í {J₁, …, J_m}

Pre-procesamiento:

S’ = {S’₁, …, S’_n’} = (Att(R₁) – J) È k

…

Sⁿ = {S’₁, …, S’_nn} = (Att(R_n) – J) È k

s_i(i+1) = Att(R_i) Ç J Ç Att(R_i+1), i=1..(n-1)

Procesamiento:

T1 = select distinct J₁, …, J_m

from R₁, …, R_n

where R₁.s₁₂ = R₂.s₁₂ and … and R_(n-1).s_(n-1)n = R_n.s_(n-1)n

P13.J1 = select distinct J₁, J₂

from R₁, …, R_n

where R₁.s₁₂ = R₂.s₁₂ and … and R_(n-1).s_(n-1)n = R_n.s_(n-1)n

…

P13.J(m-1) = select distinct J_(m-1), J_m

from R₁, …, R_n

where R₁.s₁₂ = R₂.s₁₂ and … and R_(n-1).s_(n-1)n = R_n.s_(n-1)n

P13.1 = select S’₁, …, S’_n’

from R₁, T1

where R₁.k = T1.k

…

P13.n = select S’₁, …, S’_nn

from R_n, T1

where R₁.k = T1.k

· P12.3 Free Decomposition – Hierarchy Generation

Entrada:

Esquemas origen: R₁, ..., R_n Î Rel

Conjunto ordenado de atributos de la Jerarquía: J = {J₁, …, J_m}

Descomposición de la Jerarquía: D = {D_i / D_i = {Jⁱ₁, ..., Jⁱ_qi} Ì J, i=1..p}

Clave de la Jerarquía: k Í {J₁, …, J_m}

Pre-procesamiento:

S’ = {S’₁, …, S’_n’} = (Att(R₁) – J) È k

…

Sⁿ = {S’₁, …, S’_nn} = (Att(R_n) – J) È k

s_i(i+1) = Att(R_i) Ç J Ç Att(R_i+1), i=1..(n-1)

Procesamiento:

T1 = select distinct J₁, …, J_m

from R₁, …, R_n

where R₁.s₁₂ = R₂.s₁₂ and … and R_(n-1).s_(n-1)n = R_n.s_(n-1)n

P13.J1 = select distinct J’₁, ..., J’_q_’

from R₁, …, R_n

where R₁.s₁₂ = R₂.s₁₂ and … and R_(n-1).s_(n-1)n = R_n.s_(n-1)n

…

P13.Jp = select distinct J^p₁, ..., J^p_qp

from R₁, …, R_n

where R₁.s₁₂ = R₂.s₁₂ and … and R_(n-1).s_(n-1)n = R_n.s_(n-1)n

P13.1 = select S’₁, …, S’_n’

from R₁, T1

where R₁.k = T1.k

…

P13.n = select S’₁, …, S’_nn

from R_n, T1

where R₁.k = T1.k

· P13 Minidimension Break off.

Entrada:

Esquema origen: R Î Rel

Función de clave: f

Atributos de la mini dimensión: X = {X₁, ..., X_n} Ì Att(R)

Pre-procesamiento:

{R’₁, ..., R’_m} = Att(R) - X

Procesamiento:

T1 = select f as F, * from R

P13.1 = select F, X₁, ..., X_n from T1

P13.2 = select F, R’₁, ..., R’_m from T1

· P14 New Dimension Crossing.

Entrada:

Esquema origen: R₁, R₂ Î Rel

Atributos de Join: A, A Ì Att(R₁), A Ì Att(R₂)

Atributos que se excluyen de R₁:Y₁ Ì Att(R₁)

Atributos que se excluyen de R₂:Y₂ Ì Att(R₂)

Pre-procesamiento:

Y’₁ = {y’₁, ..., y’_n} = Att(R₁) – Y₁

Y’₂ = {y’’₁, ..., y’’_m} = Att(R₂) – Y₂

Procesamiento:

P14 = select distinct y’₁, ..., y’_n, y’’₁, ..., y’’_m from R₁, R₂ where R₁.A = R₂.A

4-Trabajos Relacionados

5- Trabajos Futuros

Dada la línea de trabajo de tratar de definir completamente las primitivas citadas en el documento, aparece como una posible línea de trabajo atacar el problema de definir formalmente su semántica.

Otro aspecto que resulta interesante estudiar tiene que ver con la completitud de estas primitivas. Obviamente ya es un problema definir completitud, tanto así lo será entonces demostrar que son completas.

También aparece a la luz la existencia de ciertas propiedades entre las primitivas que deberían ser estudiadas, p.e. al existir la identidad existe la propiedad de reflexión: P? . P1 = P? = P1 . P?.

6- Conclusión

Como conclusión podemos decir ..

7- Apéndices

Apéndice 1: Conjuntos de Relaciones y Atributos de [Am2000]

Conjuntos de Relaciones^{(1, [3])}:

· Rel Conjunto de todas las relaciones (cualquier tipo de relaciones).

· Rel_D Conjunto de relaciones de “dimensión”. Estas son relaciones que representan información descriptiva acerca de los sujetos del mundo real.

· Rel_C Conjunto de relaciones de “cruzamiento”. Estas son relaciones que representan relaciones o combinaciones entre elementos de un grupo de dimensiones. Usualmente, estas contienen atributos que representan medidas para las combinaciones.

· Rel_MConjunto de relaciones de “medida”. Estas son las relaciones de cruzamiento que tienen al menos un atributo de medida.

· Rel_J Conjunto de relaciones de “jerarquía”. Estas son las relaciones de dimensión que contienen un conjunto de atributos que constituyen una jerarquía. El hecho de que exista una jerarquía entre un conjunto de atributos, solo puede ser determinado tomando en cuenta la semántica de estos.

· Rel_H Conjunto de relaciones “históricas”. Estas son relaciones que tienen información histórica que se corresponde con información en otra relación. Nosotros definimos la función ¦_H : Rel_H ® Rel , la cual dada una relación histórica, retorna la relación correspondiente actual.

Conjuntos de Atributos^([4]):

Att(R) Conjunto de todos los atributos de la relación R.
Att_M(R) Conjunto de atributos de medida de la relación R.
Att_D(R) Conjunto de atributos descriptivos de la relación R.
Att_C(R) Conjunto de atributos derivados (calculados) de la relación R.
Att_J Conjunto de atributos que representan una jerarquía.
Att_K(R) Conjunto de conjuntos de atributos que son clave en la relación R.
Att_FK(R) Conjunto de conjuntos atributos que son clave foránea en una relación R.
Att_FK (R1, R2) Conjunto de atributos que son clave foránea en una relación R1 con respecto a una relación R2.

8- Bibliografía

· [Am2000] Adriana Marotta, Data Warehouse Design and Maintenance through Schema Transformations., Grupo de Concepción de sistemas de información, (http://www.fing.edu.uy/~csi/publicaciones/lista_pub_csi2000.html, marzo 2001)

· [ElNa1997] R. Elmasri, S. B. Navathe, Sistemas de Bases de Datos, Conceptos Fundamentales (Segunda Edición). ISBN: 0-201-65370-2.

[1] La información siguiente simplemente fue traducida para ser extraída del documento. Los asteriscos en la definición denotan que se esta hablando acerca de un grupo de primitivas.

[2] El símbolo “||” hace referencia al operador de concatenación, tal y como se define en [ElNa1997].

[3] En este trabajo igual que en [Am2000] utilizaremos la palabra relación como sinónimo de esquema de relación.

[4] En algunos conjuntos se registraron cambios dado que se extendió su expresividad.

Especificación de Primitivas en SQL

Abstract

1- Introducción

2- Contexto

3- Análisis

Esquemas origen: R(A₁, ..., A_n), R₁(A’₁, ..., A’_n’), ..., R_n(Aⁿ₁, ..., Aⁿ_nn) Î Rel

Esquemas origen: R(A₁, ..., A_n), R₁(A’₁, ..., A’_n’), ..., R_n(Aⁿ₁, ..., Aⁿ_nn) Î Rel

4-Trabajos Relacionados

5- Trabajos Futuros

6- Conclusión

7- Apéndices

8- Bibliografía

Especificación de Primitivas en SQL

Abstract

1- Introducción

2- Contexto

3- Análisis

Esquemas origen: R(A1, ..., An), R1(A’1, ..., A’n’), ..., Rn(An1, ..., Annn) Î Rel

Esquemas origen: R(A1, ..., An), R1(A’1, ..., A’n’), ..., Rn(An1, ..., Annn) Î Rel

4-Trabajos Relacionados

5- Trabajos Futuros

6- Conclusión

7- Apéndices

8- Bibliografía

Esquemas origen: R(A₁, ..., A_n), R₁(A’₁, ..., A’_n’), ..., R_n(Aⁿ₁, ..., Aⁿ_nn) Î Rel

Esquemas origen: R(A₁, ..., A_n), R₁(A’₁, ..., A’_n’), ..., R_n(Aⁿ₁, ..., Aⁿ_nn) Î Rel