in

Introducción a las incrustaciones de gráficos de conocimiento

Introducción a las incrustaciones de gráficos de conocimiento

Obtenga información sobre las incrustaciones de Knowledge Graphs y dos modelos populares para generarlos con DGL-KE

Balaji Kamakoti

15 de junio de 2020·10 min de lectura

Amazon lanzó recientemente DGL-KE, un paquete de software que simplifica este proceso con simples scripts de línea de comandos. Con DGL-KE, los usuarios pueden generar incrustaciones para gráficos muy grandes de 2 a 5 veces más rápido que las técnicas de la competencia. DGL-KE ofrece a los usuarios la flexibilidad de seleccionar modelos utilizados para generar incrustaciones y optimizar el rendimiento mediante la configuración del hardware, los parámetros de muestreo de datos y la función de pérdida. Sin embargo, para utilizar este paquete de forma eficaz, es importante comprender cómo funcionan las incrustaciones y las optimizaciones disponibles para calcularlas. Esta serie de blogs de dos partes está diseñada para proporcionar esta información y prepararlo para comenzar a aprovechar DGL-KE.

Que es un grafo

Los gráficos pueden ser homogéneo o heterogéneo. En un gráfico homogéneo, todos los nodos representan instancias del mismo tipo y todas las aristas representan relaciones del mismo tipo. Por ejemplo, una red social es un gráfico que consta de personas y sus conexiones, todas representando el mismo tipo de entidad. Por el contrario, en un gráfico heterogéneo, los nodos y los bordes pueden ser de diferentes tipos. Por ejemplo, el gráfico para codificar la información en un mercado tendrá comprador, vendedor, y producto nodos que están conectados a través de Querer comprar, ha comprado, es-cliente-de, y Esta vendiendo bordes.

Finalmente, otra clase de gráficos que es especialmente importante para los gráficos de conocimiento son multigraphs. Estos son gráficos que pueden tener varios bordes (dirigidos) entre el mismo par de nodos y también pueden contener bucles. Estos bordes múltiples son típicamente de diferentes tipos y, como tales, la mayoría de los gráficos múltiples son heterogéneos. Tenga en cuenta que los gráficos que no permiten estos múltiples aristas y bucles automáticos se denominan sencillo gráficos.

¿Qué es un gráfico de conocimiento?

Un gráfico de conocimiento (KG) es un multigraph heterogéneo dirigido cuyos tipos de nodos y relaciones tienen semántica de dominio específico. Los KG nos permiten codificar el conocimiento en una forma que sea interpretable por humanos y susceptible de análisis e inferencia automatizados. Los KG se están convirtiendo en un enfoque popular para representar diversos tipos de información en forma de diferentes tipos de entidades conectadas a través de diferentes tipos de relaciones.

Cuando trabajamos con KG, adoptamos una terminología diferente a la de los vértices y aristas tradicionales que se utilizan en los gráficos. Los vértices del gráfico de conocimiento a menudo se denominan entidades y los bordes dirigidos a menudo se llaman trillizos y se representan como un (h, r, t) tupla, donde h es la entidad principal, t es la entidad de cola, y r es la relación que asocia la cabeza con las entidades de cola. Tenga en cuenta que el término relación aquí se refiere al tipo de relación (por ejemplo, uno de quiere comprar, ha comprado, es cliente de y está vendiendo).

Examinemos ahora un KG con elenco de personas y el mundo en el que viven.

Incrustaciones de gráficos de conocimiento

Las incorporaciones del gráfico de conocimiento se calculan de modo que satisfagan ciertas propiedades; es decir, siguen un KGE determinado modelo. Estos modelos KGE definen diferentes funciones de puntuación que miden la distancia de dos entidades en relación con su tipo de relación en el espacio de incrustación de baja dimensión. Estas funciones de puntuación se utilizan para entrenar los modelos KGE de modo que las entidades conectadas por relaciones estén cerca unas de otras mientras que las entidades que no están conectadas estén lejos.

Hay muchos modelos de KGE populares, como TransE, TransR, RESCAL, DistMult, ComplEx y RotatE, que definen diferentes funciones de puntuación para aprender las incorporaciones de entidades y relaciones. DGL-KE hace que estas implementaciones sean accesibles con un argumento de entrada simple en el script de línea de comando. En esta publicación, presentamos y comparamos TransE y TransR, dos métodos comunes para proporcionar a los lectores algo de intuición sobre los modelos y las compensaciones.

TransE
El modelo de incrustación basado en traducción (TransE) es un modelo de distancia de traslación representativo que representa entidades y relaciones como vectores en el mismo espacio semántico de dimensión Rd, donde d es la dimensión del espacio objetivo con dimensión reducida. Un hecho en el espacio fuente se representa como un triplete (h, r, t) donde h es la abreviatura de cabeza, r es para el relación, yt es para el cola. La relación se interpreta como un vector de traducción, de modo que las entidades integradas están conectadas por la relación r y tienen una distancia corta. [3, 4]

1*Kz860 1DygvdEC8rYC3jFA

1*O9PgZY2Pjy9dHpsJUIheCw

1*U97Dzy42ZBLbWOX40rNedQ

La función de puntuación en TransR es similar a la que se usa en TransE y mide la distancia euclidiana entre h + r y t, pero la medida de distancia es por espacio de relación. Más formalmente:

1*8g2oEY5hEysa4VqDZ6JiAQ

Compensaciones
Los beneficios de proyecciones más expresivas en TransR aumentan la complejidad del modelo y una mayor tasa de transferencia de datos, lo que ha afectado negativamente al entrenamiento distribuido. TransE requiere O (D) parámetros por relación, donde dd es la dimensión del espacio semántico en TransE e incluye tanto entidades como relaciones. Como TransR proyecta entidades a un espacio de relación de dimensión kk, requerirá O (kd) parámetros por relación. Dependiendo del tamaño de k, esto podría potencialmente aumentar drásticamente el número de parámetros. Al explorar DGL-KE, examinaremos los beneficios de DGL-KE para hacer que el cálculo de la incorporación de conocimientos sea significativamente más eficiente. [5]…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

8cHjcB8iQjzxkGRr6hsqGd 1200 80

Reabastecimiento de Xbox Series X: Best Buy tenía muchas consolas: cuándo obtenerla a continuación

Controladores JDBC | Oráculo