in

Cómo construir un Tokenizer Transformer

1bOSSuJoKB5DU578tVIOU4g

Cómo construir un Tokenizer Transformer

Todo lo que necesita para crear un tokenizador personalizado utilizando transformadores de alta frecuencia

James Briggs

24 de junio·4 min de lectura

Imagen del autor

ACasi todos los proyectos de procesamiento del lenguaje natural (PNL) comienzan algo como esto:

Ahora, por supuesto, siempre hay alguna complicación. Tal vez los datos tengan alguna propiedad extraña que usted (ni nadie más) haya visto antes y hace que los datos sean una pesadilla para preprocesarlos, pero en cuanto a la configuración del modelo, generalmente podemos comenzar con un modelo preentrenado existente.

Eso es genial, pero ¿qué pasa si no hay un modelo previamente entrenado que se alinee con nuestros requisitos específicos?

Quizás nos gustaría nuestro modelo para entender un idioma menos común, por ejemplo, ¿cuántos modelos de transformadores se han formado en las lenguas piamontesa o náhuatl?

*cero*

En ese caso, debemos hacer algo diferente. Necesitamos construir nuestro propio modelo, desde cero.

Ahora, una gran parte del esfuerzo detrás de la construcción de un nuevo modelo de transformador es crear el nuevo modelo de tokenizador.

El tokenizer es nuestro traductor de texto legible por humanos a tokens legibles por transformadores. En este artículo, aprenderemos exactamente cómo construir nuestro propio tokenizador de transformador.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

cuenta xiaomi mi movil pc

¿Cómo crear una cuenta Xiaomi MI y para qué sirve? – Guía paso por paso

Descargas del centro de operaciones de oracleEnterprise Manager