Saltar al contenido

Modelado de almacén de datos – javatpoint

octubre 3, 2021
data warehouse modeling

El modelado del almacén de datos es el proceso de diseñar los esquemas de la información detallada y resumida del almacén de datos. El objetivo del modelado del almacén de datos es desarrollar un esquema que describa la realidad, o al menos una parte del hecho, que el almacén de datos debe respaldar.

El modelado de almacén de datos es una etapa esencial de la construcción de un almacén de datos por dos razones principales. En primer lugar, a través del esquema, los clientes del almacén de datos pueden visualizar las relaciones entre los datos del almacén, para utilizarlos con mayor facilidad. En segundo lugar, un esquema bien diseñado permite que surja una estructura de almacén de datos eficaz, para ayudar a disminuir el costo de implementación del almacén y mejorar la eficiencia de su uso.

El modelado de datos en los almacenes de datos es diferente del modelado de datos en los sistemas de bases de datos operativas. La función principal de los almacenes de datos es respaldar los procesos de DSS. Por lo tanto, el objetivo del modelado del almacén de datos es hacer que el almacén de datos admita de manera eficiente consultas complejas sobre información a largo plazo.

Por el contrario, el modelado de datos en los sistemas de bases de datos operativas apunta a respaldar de manera eficiente transacciones simples en la base de datos, como recuperar, insertar, eliminar y cambiar datos. Además, los almacenes de datos están diseñados para el cliente con conocimientos de información general sobre la empresa, mientras que los sistemas de bases de datos operativas están más orientados al uso por parte de especialistas en software para crear aplicaciones distintas.

El modelo de almacén de datos se ilustra en el diagrama dado.

Modelado de almacén de datos

Los datos dentro del almacén específico en sí tienen una arquitectura particular con énfasis en varios niveles de resumen, como se muestra en la figura:

Modelado de almacén de datos

El registro de detalles actual es de vital importancia ya que:

  • Refleja los acontecimientos más actuales, que suelen ser los más estimulantes.
  • Es numerosa, ya que se guarda en el método más bajo de Granularidad.
  • Siempre se guarda (casi) en el almacenamiento en disco, que es de acceso rápido pero costoso y difícil de administrar.

Datos detallados más antiguos se almacena en alguna forma de almacenamiento masivo, y con poca frecuencia se accede a él y se mantiene en un nivel de detalle consistente con los datos detallados actuales.

Datos ligeramente resumidos Son datos extraídos del bajo nivel de detalle que se encuentran en el nivel detallado actual y, por lo general, se almacenan en el almacenamiento en disco. Al construir el almacén de datos, debe recordar qué unidad de tiempo se realiza el resumen y también los componentes o los atributos que contendrán los datos resumidos.

Datos muy resumidos es compacto y está disponible directamente e incluso se puede encontrar fuera del almacén.

Metadatos es el elemento final de los almacenes de datos y en realidad tiene varias dimensiones en las que no es lo mismo que el archivo extraído de los datos operativos, pero se utiliza como: –

  • Un directorio para ayudar al investigador de DSS a localizar los elementos del almacén de datos.
  • Una guía para el mapeo de registros a medida que los datos se cambian de los datos operativos al entorno del almacén de datos.
  • Una guía del método utilizado para resumir entre los datos actuales y precisos y la información ligeramente resumida y los datos altamente resumidos, etc.

Ciclo de vida del modelado de datos

En esta sección, definimos un ciclo de vida de modelado de datos. Es un proceso sencillo de transformar los requisitos comerciales para cumplir con los objetivos de almacenamiento, mantenimiento y acceso a los datos dentro de los sistemas de TI. El resultado es un modelo de datos lógico y físico para un almacén de datos empresarial.

El objetivo del ciclo de vida del modelado de datos es principalmente la creación de un área de almacenamiento para la información empresarial. Esa área proviene de las etapas de modelado de datos lógicos y físicos, como se muestra en la Figura:

Modelado de almacén de datos

Modelo de datos conceptual

Un modelo de datos conceptual reconoce las relaciones de más alto nivel entre las diferentes entidades.

Características del modelo de datos conceptual

  • Contiene las entidades esenciales y las relaciones entre ellas.
  • No se especifica ningún atributo.
  • No se especifica ninguna clave principal.

Podemos ver que los únicos datos que se muestran a través del modelo de datos conceptual son las entidades que definen los datos y las relaciones entre esas entidades. No hay otros datos, como se muestra a través del modelo de datos conceptual.

Modelado de almacén de datos

Modelo de datos lógicos

Un modelo de datos lógico define la información en la mayor estructura posible, sin observar cómo se logrará físicamente en la base de datos. El objetivo principal del modelado de datos lógicos es documentar las estructuras, los procesos, las reglas y las relaciones de los datos comerciales mediante una única vista: el modelo de datos lógicos.

Características de un modelo de datos lógicos

  • Involucra a todas las entidades y relaciones entre ellas.
  • Se especifican todos los atributos de cada entidad.
  • Se indica la clave principal de cada entidad.
  • Se especifica la integridad referencial (Relación FK).

La fase para diseñar el modelo de datos lógicos que son las siguientes:

  • Especifique claves primarias para todas las entidades.
  • Enumere las relaciones entre diferentes entidades.
  • Enumere todos los atributos de cada entidad.
  • Normalización.
  • No se enumeran tipos de datos

Modelado de almacén de datos

Modelo de datos físicos

El modelo de datos físicos describe cómo se presentará el modelo en la base de datos. Un modelo de base de datos física demuestra todas las estructuras de tablas, nombres de columnas, tipos de datos, restricciones, clave primaria, clave externa y relaciones entre tablas. El propósito del modelado de datos físicos es el mapeo del modelo de datos lógicos a las estructuras físicas del sistema RDBMS que aloja el almacén de datos. Contiene la definición de estructuras RDBMS físicas, como tablas y tipos de datos para usar al almacenar la información. También puede incluir la definición de nuevas estructuras de datos para mejorar el rendimiento de las consultas.

Características de un modelo de datos físicos

  • Especificación de todas las tablas y columnas.
  • Las claves externas se utilizan para reconocer relaciones entre tablas.

Los pasos para el diseño del modelo de datos físicos son los siguientes:

  • Convierta entidades en tablas.
  • Convierta relaciones en claves externas.
  • Convierta atributos en columnas.

Modelado de almacén de datos

Tipos de modelos de almacenamiento de datos

Tipos de modelos de almacenamiento de datos

Almacén empresarial

Un almacén empresarial recopila todos los registros sobre temas que abarcan toda la organización. Admite la integración de datos en toda la empresa, generalmente de uno o más sistemas operativos o proveedores de datos externos, y tiene un alcance multifuncional. Por lo general, contiene información detallada, así como información resumida, y su estimación puede variar desde unos pocos gigabytes hasta cientos de gigabytes, terabytes o más.

Un almacén de datos empresarial se puede realizar en mainframes tradicionales, super servidores UNIX o plataformas de arquitectura paralela. Requirió un modelo empresarial extenso y puede llevar años desarrollarlo y construirlo.

Data Mart

Una despensa de datos incluye un subconjunto de datos corporativos que son valiosos para una colección específica de usuarios. El alcance se limita a temas seleccionados particulares. Por ejemplo, un data mart de marketing puede restringir sus temas al cliente, los artículos y las ventas. Los datos contenidos en los mercados de datos tienden a resumirse.

Data Marts se divide en dos partes:

Centro de datos independiente: El mercado de datos independiente se obtiene a partir de datos capturados de uno o más sistemas operativos o proveedores de datos externos, o datos generalmente a nivel local dentro de un departamento o área geográfica diferente.

Centro de datos dependiente: Los mercados de datos dependientes se obtienen exactamente de los almacenes de datos empresariales.

Almacenes virtuales

Los almacenes de datos virtuales son un conjunto de percepción sobre la base de datos operativa. Para un procesamiento eficaz de consultas, solo se puede materializar parte de la posible visión resumida. Un almacén virtual es fácil de construir, pero requiere un exceso de capacidad en los servidores de bases de datos operativos.


close