in

Concepto de optimización bayesiana explicado en términos simples

1LJf4GrkOZp6KyF05anvefw

Concepto de optimización bayesiana explicado en términos simples

Optimización bayesiana para tontos

Wei Wang

18 de marzo de 2020·9 min de lectura

La optimización bayesiana se ha utilizado ampliamente para el propósito de ajuste de hiperparámetros en el mundo del aprendizaje automático. A pesar de que hay muchos términos y fórmulas matemáticas involucradas, el concepto subyacente resulta ser muy simple. El objetivo de este artículo es compartir lo que aprendí sobre la optimización bayesiana con una interpretación directa de la terminología de los libros de texto y, con suerte, le ayudará a comprender qué es la optimización bayesiana en un corto período de tiempo.

La descripción general de la optimización de hiperparámetros

Para completar el artículo, comencemos con la descripción general básica de los métodos de optimización de hiperparámetros, que generalmente son de 4 tipos:

Hombretual Búsqueda, búsqueda aleatoria, búsqueda en cuadrícula y optimización bayesiana

La optimización bayesiana se diferencia de la búsqueda aleatoria y la búsqueda de cuadrícula en que mejora la velocidad de búsqueda utilizando desempeños anteriores, mientras que los otros dos métodos son uniformes (o independientes) de evaluaciones pasadas. En ese sentido, la optimización bayesiana es como la búsqueda manual. Supongamos que está optimizando manualmente el hiperparámetro de un modelo de regresión de bosque aleatorio. En primer lugar, probaría un conjunto de parámetros, luego miraría el resultado, cambiaría uno de los parámetros, volvería a ejecutar y compararía los resultados, de modo que sepa si va en la dirección correcta. La optimización bayesiana hace algo similar: el rendimiento de su hiperparámetro pasado afecta la decisión futura. En comparación, la búsqueda aleatoria y la búsqueda en cuadrícula no tienen en cuenta el rendimiento anterior al determinar nuevos hiperparámetros para evaluar. Por tanto, la optimización bayesiana es un método mucho más eficaz.

Cómo funciona la optimización bayesiana

Continuemos usando nuestro ejemplo de optimización de hiperparámetros para un modelo de regresión de bosque aleatorio. Digamos que queremos encontrar un conjunto de hiperparámetros que minimicen el RMSE. Aquí, la función para calcular RMSE se llama función objetiva. Si tuviéramos que conocer la distribución de probabilidad de nuestra función objetivo, (en palabras simples, si tuviéramos que conocer la forma de la función objetivo), entonces simplemente podemos calcular el descenso del gradiente y encontrar el mínimo global. Sin embargo, dado que no conocemos las distribuciones de la puntuación RMSE (esto es en realidad lo que estamos tratando de averiguar), necesitamos la Optimización Bayesiana para ayudarnos a descifrar este modelo de caja negra.

Entonces, ¿qué es la optimización bayesiana?

La optimización bayesiana construye un modelo de probabilidad de la función objetivo y lo usa para seleccionar el hiperparámetro para evaluar en la función objetivo verdadera.

Esta oración puede parecer complicada, pero en realidad transmite un mensaje simple. Vamos a desglosarlo:

«La optimización bayesiana crea un modelo de probabilidad de la función objetivo»

La verdadera función objetivo es una función fija. Digamos que se supone que se parece a la figura 1, pero como mencioné, no sabemos esto al comienzo del ajuste de hiperparámetros.

1*S9oKMzOgbbk0W9HbuwE8cA

Fig 1: La verdadera función objetiva

Si hay recursos ilimitados, calcularíamos cada punto de la función objetivo para conocer su forma real (en nuestro ejemplo, siga llamando al modelo de regresión aleatoria de bosque hasta que tengamos las puntuaciones RMSE para todas las posibles combinaciones de hiperparámetros). Sin embargo, eso es imposible. Entonces, digamos que solo tenemos 10 muestras de la función objetivo verdadera, representada como círculos negros en la Fig 2:

1*OlgnEpytSBp464iWR9y qQ

Fig 2: 10 muestras de la verdadera función objetivo

Usando estas 10 muestras, necesitamos construir un modelo sustituto (también llamado modelo de superficie de respuesta) para aproximar la verdadera función objetivo. Eche un vistazo a la Fig. 3. El modelo sustituto se representa como la línea azul. El tono azul representa la desviación.

Fig 3: Iniciar el modelo sustituto

Un modelo sustituto por definición es «la representación de probabilidad de la función objetivo», que es esencialmente un modelo entrenado en el (hiperparámetro, puntuación de función objetiva verdadera) pares. En matemáticas, es p (puntuación de la función objetiva | hiperparámetro). Hay diferentes formas de construir un modelo sustituto, pero volveré a esto más adelante.

«Y utilícelo para seleccionar hiperparámetros»

ahora tenemos 10 muestras de la función objetivo y ¿cómo debemos decidir qué parámetro probar como la undécima muestra? Necesitamos construir un función de adquisición (también llamada función de selección). El siguiente hiperparámetro de elección es donde se maximiza la función de adquisición. En la Fig. 4, el tono verde es la función de adquisición y la línea recta roja es donde se maximiza. Por lo tanto, el hiperparámetro correspondiente y su puntaje de función objetivo, representado como un círculo rojo, se usa como la muestra número 11 para actualizar el modelo sustituto.

1*9EszMI ff2PbEPl38LpMQw

Fig 4: Maximice la función de adquisición para seleccionar el siguiente punto

«Evaluar en la verdadera función objetivo»

Como se describió anteriormente, después de usar una función de adquisición para determinar el siguiente hiperparámetro, se obtiene la puntuación de función objetiva verdadera de este nuevo hiperparámetro. Dado que el modelo sustituto se entrena en el (hiperparámetro, puntuación de función objetiva verdadera) pares, agregar un nuevo punto de datos actualiza el modelo sustituto.

… Repita los pasos anteriores hasta que se alcance el tiempo máximo o la iteración máxima. ¡Y bum! Ahora (con suerte) tiene una aproximación precisa de la función objetivo real y puede encontrar fácilmente el mínimo global de las muestras evaluadas en el pasado. ¡Se completa su optimización bayesiana!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Crear tablas 1

Cómo crear fácilmente tablas en Adobe Illustrator CC paso a paso

open dbaas monitor console

Inicio rápido de oracleDatabase Cloud Service (DBaaS)