in

Tutorial de SSIS: Servicios de integración de SQL Server

ssis tutorial

Tutorial de SSIS

El tutorial de SSIS proporciona conceptos básicos y avanzados de SQL Server Integration Services. Nuestro tutorial de SSIS está diseñado para principiantes y profesionales.

Servicio de integración de SQL Server es una herramienta de almacenamiento de datos rápida y flexible que se utiliza para la extracción, transformación y carga de datos. Facilita la carga de datos de una base de datos a otra, como SQL Server, Oracle, archivo de Excel, etc.

En este tutorial, discutiremos los siguientes temas:


¿Qué es SSIS?

  • SSIS son las siglas de SQL Server Integration Services.
  • Es un componente disponible en el software de base de datos de Microsoft SQL Server que se utiliza para realizar una amplia gama de tareas de integración.
  • Es una herramienta de almacenamiento de datos utilizada para la extracción de datos, carga de datos en otra base de datos, transformaciones como limpieza, agregación, fusión de datos, etc.
  • La herramienta SSIS también contiene las herramientas gráficas y las funciones de flujo de trabajo de los asistentes de ventana, como el envío de mensajes de correo electrónico, operaciones ftp y fuentes de datos.
  • SSIS se utiliza para realizar una amplia gama de tareas de transformación e integración. En su conjunto, la herramienta SSIS se utiliza en la migración de datos.

SSIS es una herramienta que se utiliza principalmente para realizar dos funcionalidades:

  • Integración de datos
    SSIS realiza la integración de datos combinando los datos de múltiples fuentes y proporciona datos unificados a los usuarios.
  • Flujo de trabajo
    El flujo de trabajo se puede utilizar para realizar varias cosas. A veces necesitamos ejecutar algunos pasos específicos o una ruta en particular que se basa en el período de tiempo o el parámetro pasado al paquete o los datos consultados desde la base de datos. Se puede utilizar para automatizar el mantenimiento de las bases de datos de SQL Server y proporciona la actualización de los datos analíticos multidimensionales.

¿Qué es la integración de datos?

La integración de datos es un proceso que sigue para integrar los datos de múltiples fuentes. Los datos pueden ser heterogéneos o homogéneos. Los datos pueden estar estructurados, semiestructurados o no estructurados. En la integración de datos, los datos de diferentes fuentes de datos diferentes se integran para formar algunos datos significativos.

Se utilizan algunos métodos para lograr la integración de datos:

¿Qué es la integración de datos?

  • Modelado de datos: En el modelado de datos, primero debe crear el modelo de datos y realizar operaciones en él.
  • Perfilado de datos: La creación de perfiles de datos es un proceso que se utiliza para verificar los errores, inconsistencias o variaciones en los datos disponibles. La creación de perfiles de datos garantiza la calidad de los datos cuando la calidad de los datos se refiere a la precisión, coherencia e integridad de los datos.

Ventajas de la integración de datos:

¿Qué es la integración de datos?

  • Reducir la complejidad de los datos
    Reduce la complejidad de los datos, lo que significa que los datos se pueden entregar a cualquier sistema. La integración de datos mantiene la complejidad, simplifica las conexiones y facilita la entrega de datos a cualquier sistema.
  • Integridad de los datos
    La integridad de los datos juega un papel importante en la integración de datos. Se trata de limpiar y validar los datos. Todo el mundo quiere datos robustos y de alta calidad, por lo que para lograr este concepto de integración de datos se utiliza. La integración de datos es útil para eliminar errores, inconsistencias y duplicaciones.
  • Colaboración de datos sencilla
    La accesibilidad depende de la colaboración de datos. La accesibilidad significa que los datos se pueden transformar fácilmente y las personas pueden integrar fácilmente los datos en proyectos, compartir sus resultados y mantener los datos actualizados.
  • Decisiones comerciales más inteligentes
    También le permite tomar decisiones más inteligentes. Un dato integrado se refiere al proceso de transmisión dentro de una empresa para que podamos entender la información más fácilmente. Un dato integrado es mucho más fácil e informativo.

¿Por qué SSIS?

SSIS se utiliza por las siguientes razones:

Por qué SSIS

  • Los datos se pueden cargar en paralelo a muchos destinos variados
    SSIS se utiliza para combinar los datos de múltiples fuentes de datos para generar una estructura única en una vista unificada. Básicamente, es responsable de recopilar los datos, extraer los datos de múltiples fuentes de datos y fusionarlos en una sola fuente de datos.
  • Elimina la necesidad de programadores de núcleo duro
    SSSIS es una plataforma que tiene la capacidad de cargar una gran cantidad de datos desde Excel a una base de datos de SQL Server.
  • Integración con otros productos
    La herramienta SSSIS proporciona una estrecha integración con otros productos de Microsoft.
  • Más barato que otras herramientas ETL
    La herramienta SSSIS es más barata que la mayoría de las otras herramientas. Puede resistir con otros productos base, su manejabilidad, inteligencia empresarial, etc.
  • Manejo de errores complejos dentro de los flujos de datos
    SSSIS le permite manejar el error complejo dentro de un flujo de datos. Puede iniciar y detener el flujo de datos según la gravedad del error. Incluso puede enviar un correo electrónico al administrador cuando se produzca algún error. Cuando se resuelve un error, puede elegir la ruta entre el flujo de trabajo.

¿Cómo funciona SSIS?

Sabemos que SSIS es una plataforma para dos funciones, es decir, integración de datos y flujo de trabajo. Tanto las tareas de transformación de datos como la creación de flujo de trabajo se llevan a cabo mediante el paquete SSIS. El paquete SSIS consta de tres componentes:

Cómo funciona SSIS

Datos operacionales

Los datos operativos son una base de datos que se utiliza para integrar los datos de múltiples fuentes de datos para realizar operaciones adicionales en los datos. Es el lugar donde se almacenan los datos para la operación actual antes de enviarlos al almacén de datos para almacenarlos, informarlos o archivarlos.

ETL

  • ETL es el proceso más importante en la herramienta SSIS. ETL se utiliza para extraer, transformar y cargar los datos en un almacén de datos.
  • ETL es un proceso responsable de extraer los datos de múltiples fuentes de datos, transformar los datos en datos útiles y luego almacenarlos en un almacén de datos. Los datos pueden estar en cualquier formato de archivo xml, archivo plano o cualquier archivo de base de datos.
  • También asegura que los datos almacenados en el almacén de datos sean relevantes, precisos, de alta calidad y útiles para los usuarios comerciales.
  • Se puede acceder fácilmente a él para que el almacén de datos se pueda utilizar de forma eficaz y eficiente.
  • También ayuda a la organización a tomar decisiones basadas en datos recuperando los datos estructurados y no estructurados de múltiples fuentes de datos.

Un ETL es un concepto de tres palabras, pero se divide en cuatro fases:

Cómo funciona SSIS

Capturar: La fase de captura también se conoce como fase de extracción. En esta fase, selecciona los datos o metadatos de origen, y los datos pueden estar en cualquier formato, como archivo xml, archivo plano o cualquier archivo de base de datos.

Maleza: En esta fase, se verifican los datos originales. Comprueba los datos, ya sea que contengan errores o no. Comprueba los errores o la inconsistencia de los datos mediante el uso de algunas técnicas de inteligencia artificial. En definitiva, verifica si se cumple o no con la calidad del producto.

Transformar: Es la tercera fase en ETL. La transformación es el proceso en el que el formato original se convierte en un formato requerido que desee. La transformación consiste en modelar o cambiar los datos de acuerdo con los requisitos del usuario. Los cambios pueden ser cambios en el número de columnas o filas.

Carga e índice: La cuarta fase es Carga e índice. Carga los datos y valida el número de filas que se han procesado. Una vez que se completa la carga de datos, se utiliza la indexación. La indexación le ayuda a realizar un seguimiento del número de filas que se cargan en el almacén de datos. La indexación también ayuda a identificar los datos, ya sea que estén en el formato correcto o no.

Almacén de datos

El almacén de datos es un almacén de datos único, completo y coherente que se formula combinando los datos de varias fuentes de datos.

Diferencia entre base de datos y almacén de datos

La respuesta puede ser sí o no. Tanto la base de datos como el almacén de datos tienen una gran unidad de datos y una representación física similar, pero el tiempo de respuesta de consultas complejas en el almacén de datos es más rápido que en la base de datos.


Requisitos para los servicios de integración de SQL Server

Los siguientes son los requisitos para instalar SQL Server Integration Services:

  • Instale el servidor SQL
  • Instale las herramientas de datos de SQL Server

Siga los pasos a continuación para instalar las herramientas de datos de SQL Server:

Paso 1: Clic en el enlace https://docs.microsoft.com/en-us/sql/ssdt/previous-releases-of-sql-server-data-tools-ssdt-and-ssdt-bi?view=sql-server-2017 para descargar las herramientas de datos de SQL Server.

Paso 2: Cuando hace clic en el enlace anterior, aparece la pantalla que se muestra a continuación:

Requisitos para los servicios de integración de SQL Server

En la pantalla anterior, seleccione la versión de SSDT que desea instalar.

Paso 3: Una vez que se complete la descarga, ejecute el archivo descargado. Cuando ejecuta el archivo descargado, aparece la pantalla que se muestra a continuación:

Requisitos para los servicios de integración de SQL Server

Paso 4: Haga clic en el botón Siguiente.

Paso 5: Seleccione la instancia de Visual Studio y las herramientas que desea instalar en Visual Studio 2017.

Requisitos para los servicios de integración de SQL Server

Paso 6: Clickea en el Instalar en pc botón.


¿Qué es el paquete SSIS?

El paquete es un bloque fundamental donde codifica en SSIS. Aquí, el código no significa que esté codificando en algún lenguaje de programación; significa el desarrollo que haces. El desarrollo se realiza en el paquete SSIS. SSIS se utiliza principalmente para el proceso ETL y el proceso ETL se realiza dentro del paquete SSIS.

El paquete SSIS se compone de tres partes:

¿Qué es el paquete SSIS?

  • Conexiones
    El paquete SSIS tendrá algunas conexiones, y estas conexiones se utilizan para conectarse a varias fuentes de datos.
  • Elementos de flujo de control
    El paquete SSIS se compone de dos elementos, es decir, elementos de flujo de control y elementos de flujo de datos. Los elementos de flujo de control manejan los flujos de trabajo. Flujo de trabajo significa que estamos realizando algunas tareas en pasos, por lo que la secuencia se realiza a través del flujo de control.
  • Elementos de flujo de datos
    Los elementos del flujo de datos realizan transformaciones.

Tareas de SSIS

En el paquete SSIS, podemos agregar las tareas. Una tarea es una unidad de trabajo y tendremos diferentes tipos de tareas para realizar diferentes tipos de trabajo. Hay varios tipos de tareas, pero discutiremos las tareas más comunes que se usan en SSIS:

  • Ejecutar tarea SQL
    Se utiliza para ejecutar las sentencias SQL en una base de datos relacional.
  • Tarea de flujo de datos
    Se utiliza principalmente para leer los datos de una o varias fuentes de datos, transformar los datos y también puede cargar los datos en uno o más destinos.
  • Tarea de procesamiento de Analysis Services
    Se utiliza para procesar objetos de un cubo SSAS o modelo tabular.
  • Ejecutar tarea de paquete
    Esta tarea se usa para llamar a los otros paquetes dentro del mismo proyecto. Incluso puede pasar los valores de las variables al paquete llamado.
  • Ejecutar tarea de proceso
    Le permite ejecutar una aplicación o secuencias de comandos por lotes como SQL Server Integration Services. Puede usarse para abrir la aplicación estándar como Microsoft Excel, Microsoft Word, etc. También se usa para descomprimir el archivo comprimido.
  • Tarea del sistema de archivos
    Se puede utilizar para realizar las manipulaciones en el sistema de archivos, como mover archivos, eliminar archivos, cambiar el nombre de los archivos, cambiar el directorio, etc.
  • Tareas FTP
    Las tareas de IFTP se utilizan para realizar las operaciones en archivos y carpetas. Por ejemplo, si desea enviar o recibir el archivo desde el servidor FTP al directorio local, se utiliza la tarea FTP de SSIS.
  • Tarea de secuencia de comandos
    Esta tarea le permite escribir el código .Net que desea realizar.
  • Enviar tarea de correo
    Esta tarea se utiliza para enviar un correo electrónico. Se utiliza principalmente cuando desea notificar a los usuarios sobre el estado de la tarea, ya sea que esté en ejecución o se haya producido algún error.

Veamos un ejemplo funcional de un servicio de integración de datos.


Ejemplo de tarea de flujo de datos

Paso 1: Primero, creamos un archivo de Excel en Microsoft Excel. Supongamos que creo la base de datos de estudiantes en Microsoft Excel, y los campos en la tabla de estudiantes son student_id, student_name, marks y gender.

Tareas de SSIS

Paso 2: Abra Visual Studio (Herramientas de datos de SQL Server).

Tareas de SSIS

Paso 3: Haga clic en la opción Archivo y luego vaya a Nuevo-> Proyecto.

Tareas de SSIS

Paso 4: Al hacer clic en el Proyecto, aparece la pantalla, que se muestra a continuación:

Tareas de SSIS

En la pantalla anterior, haga clic en los Servicios de integración que aparecen en el lado izquierdo del panel y luego haga clic en Integración …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

file open start

Cómo abrir un archivo al iniciar en Windows 10

Función Perl qw