in

Catálogo de transformaciones variables para que su modelo funcione mejor

RESERVA «TÉCNICAS DE ANÁLISIS DE DATOS PARA GANAR KAGGLE»

Catálogo de transformaciones variables para que su modelo funcione mejor

Más de 10 transformaciones de variables numéricas y 7 transformaciones de variables categóricas

Moto DEI

28 de diciembre de 2019·13 min de lectura

La transformación de variables es una forma de hacer que los datos funcionen mejor en su modelo. Las variables de datos pueden tener dos tipos de forma: variable numérica y variable categórica, y su transformación debe tener diferentes enfoques.

– Transformación de variable numérica: está convirtiendo una variable numérica en otra variable numérica. Por lo general, está destinado a cambiar la escala de valores y / o ajustar la distribución de datos sesgada a una distribución similar a la de Gauss mediante alguna «transformación monótona».

Los modelos basados ​​en árboles de decisión son menos sensibles a la escala y al sesgo que estas técnicas pueden no contribuir mucho, pero para otros modelos (por ejemplo, red neuronal, SVM, modelo lineal, etc.), podrían cambiar las reglas del juego o, en algunos casos, incluso obligatorio, como en el caso de que utilice términos de penalización con la norma L1 / L2.

– Transformación de variable categórica: está convirtiendo una variable categórica en una variable numérica. La transformación de variables categóricas es obligatoria para la mayoría de los modelos de aprendizaje automático porque solo pueden manejar valores numéricos.

También es llamado codificación o en minería de texto, incrustación también está destinado a manejar situaciones similares, pero generalmente se supone que la incrustación devuelve valores numéricos que contienen la semántica de los datos originales.

La transformación de variables categóricas es importante para cualquier modelo y su selección es muy importante para el rendimiento del modelo.

En esta publicación, presentaré las técnicas básicas a avanzadas para transformar la variable numérica y la variable categórica.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

05dL8ULsVavEKCutKCgzKEO 1.1632761331.fit lim.size 1200x630

TikTok ahora tiene más de mil millones de usuarios activos

Descubrimiento de información de Endeca – Descripción general