Saltar al contenido

Feature Store como base para el aprendizaje automático

septiembre 29, 2021
1lz7Kj4lz5AM2uHvTAJ5KHQ

Dar sentido a los macrodatos

Feature Store como base para el aprendizaje automático

German Osin

10 de diciembre de 2020·12 min de lectura

1*lz7Kj4lz5AM2uHvTAJ5KHQ
Imagen de Yurchanka Siarhei de shutterstock

¿Qué es una tienda de características?

Un Feature Store es una capa de gestión de datos para funciones de aprendizaje automático. Las características de AA son propiedades medibles de fenómenos bajo observación, como palabras sin procesar, píxeles, valores de sensor, filas de datos en un almacén de datos, campos en un archivo CSV, agregados (mínimo, máximo, suma, media) o representaciones derivadas (incrustación o grupo).

  1. Tiempo de comercialización más rápido para nuevos modelos, impulsado por una mayor productividad de los ingenieros de ML. Esto permite a las organizaciones desacoplar la implementación de almacenamiento y las funciones que brindan servicio a la API de los ingenieros de ML, lo que les permite trabajar en modelos, no en problemas de latencia, para un servicio en línea más eficiente.

Conceptos de una tienda de características

Una tienda de características estandarizadas tiene ciertos conceptos clave que giran en torno a ella. Esos conceptos son:

Imagen del autor

# 1 fiesta

Feast es un servicio de aprendizaje automático que ayuda a los equipos a cerrar la brecha entre los datos y los modelos de aprendizaje automático. Permite a los equipos registrar, ingerir, servir y supervisar funciones en producción.

0*6oYo0

Imagen del autor

# 2 Hopsworks

Hopsworks es una plataforma empresarial para desarrollar y operar aplicaciones de IA. Permite a los equipos administrar las funciones de AA de forma rápida y eficiente. El equipo detrás de Hopsworks son evangelistas de la tienda de características y ofrecen una gran cantidad de contenido educativo excelente.

0*j ny0fq QhlowMz1

Imagen del autor

Desafíos de las plataformas de datos modernas

Antes de analizar los aspectos específicos de la creación de tiendas de características, se deben considerar los desafíos de las plataformas de datos modernas. Los almacenes de características no se pueden examinar de forma aislada del resto de los datos y la infraestructura de AA.

0*w1l6Y7src7ufa7F1

Imagen del autor

Cambios arquitectónicos emergentes

Para abordar estos desafíos, han surgido varios cambios arquitectónicos:

  1. De Data Lakes a Data Mesh. La propiedad de los dominios de datos, las canalizaciones de datos, los metadatos y la API se está moviendo de los equipos centralizados a los equipos de productos. Otro beneficio impactante es el tratamiento y la propiedad de los datos como un producto completo, en lugar de un efecto secundario que a nadie le importa.
  2. De los lagos de datos a la infraestructura de datos como plataforma. Si la propiedad de los datos está descentralizada, los componentes de la plataforma deben unificarse y empaquetarse en una plataforma de datos reutilizable.
  3. De la protección de endpoints a la gobernanza global de datos. Como parte del cambio hacia plataformas de datos centralizadas, las organizaciones se están alejando de Endpoint Protection a GLobal Data Governance, que es un plan de control de nivel superior para administrar las políticas de seguridad y acceso a datos en las fuentes de datos disponibles.
  4. Del almacén de metadatos al catálogo de datos global. Los almacenes de metadatos como Hive no pueden agregar muchas fuentes de datos. La industria necesita un catálogo de datos global para respaldar la experiencia del usuario en torno al descubrimiento de datos, el linaje y el control de versiones.
  5. Tienda de características. El almacén de características es un nuevo componente emergente de la pila de aprendizaje automático que permite escalar las operaciones y la experimentación de aprendizaje automático al agregar una capa de administración de datos separada para las características de aprendizaje automático.

# 1 Lagos Delta / Hudi

Los lagos de datos ACID permiten la ingestión administrada, el control de versiones eficiente del conjunto de datos para el entrenamiento de ML, las «eliminaciones» económicas para que sean compatibles con GDPR / CCPA y las «actualizaciones» para la ingestión de datos. También ofrecen un registro de auditoría para realizar un seguimiento de los cambios en el conjunto de datos y las transacciones ACID al tiempo que refuerzan la calidad de los datos a través de esquemas. Los lagos Delta y Hudi llevan el procesamiento de flujos a Big Data, proporcionando datos frescos de manera mucho más eficiente que el procesamiento por lotes tradicional.

# 2 Gobernanza global de datos

Debido a que ya no es un estándar administrar roles de AWS IAM, políticas de Amazon S3, puertas de enlace de API y permisos de base de datos a nivel de usuario, se debe utilizar una estructura de gobierno de datos en toda la empresa para:

  1. Poner en funcionamiento las políticas en una ubicación central. Gobierne las políticas de privacidad para garantizar que las políticas se gestionen de forma eficaz en toda la empresa. Defina y documente flujos de trabajo, vistas de trazabilidad y registros de procesos comerciales.
  2. Escale el cumplimiento a través de múltiples regulaciones. Utilice una plataforma diseñada y construida teniendo en cuenta la privacidad que se puede ampliar fácilmente para admitir nuevas regulaciones.

# 3 Catálogo de datos globales

Aunque no hay un solo …

close