Saltar al contenido

Guía de conceptos de análisis

septiembre 24, 2021

Guía de conceptos de análisis

Por qué es necesario analizar

Un aspecto importante de la adecuación de los datos al propósito es la estructura en la que se encuentran. A menudo, la estructura en sí no es adecuada para las necesidades de los datos. Por ejemplo:

  • El sistema de captura de datos no tiene campos para cada información distinta con un uso distinto, lo que lleva a soluciones alternativas para el usuario, como ingresar muchas partes distintas de información en un solo campo de texto libre, o usar los campos incorrectos para información que no tiene ningún valor obvio. lugar (por ejemplo, colocar información de la empresa en campos de contacto individuales).
  • Los datos deben trasladarse a un nuevo sistema, con una estructura de datos diferente.
  • Los duplicados deben eliminarse de los datos, y es difícil identificarlos y eliminarlos debido a la estructura de los datos (por ejemplo, los identificadores de dirección clave, como el número de local, no están separados del resto de la dirección).

Alternativamente, la estructura de los datos puede ser sólida, pero su uso no está suficientemente controlado o está sujeto a errores. Por ejemplo:

  • Los usuarios no están capacitados para recopilar toda la información requerida, lo que causa problemas como ingresar contactos con ‘trampas de datos’ en lugar de nombres reales en los campos de nombre
  • La aplicación muestra los campos en un orden ilógico, lo que hace que los usuarios ingresen datos en los campos incorrectos.
  • Los usuarios ingresan registros duplicados de formas que son difíciles de detectar, como ingresar datos inexactos en múltiples registros que representan la misma entidad, o ingresar los datos precisos, pero en los campos incorrectos.

Todos estos problemas conducen a una mala calidad de los datos, lo que en muchos casos puede resultar costoso para la empresa. Por lo tanto, es importante que las empresas puedan analizar los datos de estos problemas y resolverlos cuando sea necesario.

El analizador OEDQ

El procesador OEDQ Parse está diseñado para que lo utilicen los desarrolladores de procesos de calidad de datos para crear analizadores empaquetados para la comprensión y transformación de tipos específicos de datos, por ejemplo, datos de nombres, datos de direcciones o descripciones de productos. Sin embargo, es un analizador genérico que no tiene reglas predeterminadas que sean específicas para ningún tipo de datos. Se pueden crear reglas específicas de datos analizando los datos en sí y estableciendo la configuración de Parse.

Terminología

El análisis es un término de uso frecuente tanto en el ámbito de la calidad de los datos como en la informática en general. Puede significar cualquier cosa, desde simplemente «dividir datos» hasta el análisis completo del lenguaje natural (PNL), que utiliza inteligencia artificial sofisticada para permitir que las computadoras «comprendan» el lenguaje humano. También se utilizan con frecuencia otros términos relacionados con el análisis sintáctico. Nuevamente, estos pueden tener significados ligeramente diferentes en diferentes contextos. Por lo tanto, es importante definir qué entendemos por análisis sintáctico y sus términos asociados en OEDQ.

Tenga en cuenta los siguientes términos y definiciones:

Término

Definición

Analizando

En OEDQ, el análisis se define como la aplicación de reglas de negocio e inteligencia artificial especificadas por el usuario para comprender y validar cualquier tipo de datos en masa y, si es necesario, mejorar su estructura para adecuarlos a su propósito.

Simbólico

Un token es un dato que el procesador Parse reconoce como una unidad mediante reglas. Un valor de datos dado puede constar de uno o varios tokens.

Un token puede reconocerse mediante el análisis sintáctico o semántico de los datos.

Tokenización

El análisis sintáctico inicial de los datos, con el fin de dividirlos en sus unidades más pequeñas (tokens base) mediante reglas. A cada token base se le asigna una etiqueta, como , que se utiliza para representar secuencias ininterrumpidas de caracteres alfabéticos.

Token base

Un token inicial, reconocido por Tokenization. Posteriormente, se puede combinar una secuencia de fichas base para formar una nueva ficha, en clasificación o reclasificación.

Clasificación

Análisis semántico de datos, con el fin de asignar significado a tokens base o secuencias de tokens base. Cada clasificación tiene una etiqueta, como ‘Edificio’, y un nivel de clasificación (Válido o Posible) que se usa al seleccionar la mejor comprensión de datos ambiguos.

Comprobación de token

Un conjunto de reglas de clasificación que se aplica a un atributo para verificar un tipo específico de token.

Reclasificación

Un paso de clasificación adicional opcional que permite que las secuencias de tokens clasificados y tokens no clasificados (base) se reclasifiquen como un solo token nuevo.

Patrón de token

Una explicación de una cadena de datos utilizando un patrón de etiquetas de token, ya sea en un solo atributo o en varios atributos.

Una cadena de datos se puede representar mediante varios patrones de token diferentes.

Selección

El proceso por el cual el procesador Parse intenta seleccionar la «mejor» explicación de los datos usando un algoritmo sintonizable, donde un registro tiene muchas explicaciones posibles (o patrones de token).

Resolución

La categorización de registros con una explicación seleccionada dada (patrón de token) con un Resultado (Pasa, Revisa o No pasa) y un Comentario opcional. La resolución también puede resolver los registros en una nueva estructura de salida utilizando reglas basadas en el patrón de token seleccionado.

Resumen del procesador OEDQ Parse

El siguiente diagrama muestra un resumen de la forma en que funciona el procesador OEDQ Parse:

Consulte las páginas de ayuda del procesador OEDQ Parse para obtener instrucciones completas sobre cómo configurarlo.

Calidad de datos empresariales de Oracle® Versión de ayuda 9.0
Copyright © 2006,2011 oracley / o sus afiliadas. Reservados todos los derechos.

close