in

SCIEM: un orden de operaciones para el preprocesamiento de datos

1QRVI4dwzTN89P8awT8FC6A

SCIEM: un orden de operaciones para el preprocesamiento de datos

Mejore la eficiencia de la limpieza de datos minimizando el tiempo de depuración.

Clair Marie Wholean

7 de agosto de 2020·4 min de lectura

1*QRVI4dwzTN89P8awT8FC6A

¿Cómo se puede minimizar el tiempo de preprocesamiento para que el proceso sea más eficiente?

1*m ZTZ6Fr3mzJAS70t1pRPQ

Imagen del autor

PEDMAS es para las matemáticas como SCIEM es para la ciencia de datos.

1*T2RcKmUPr08Mt0VfL3wmJw

foto de Antoine Dautry
  1. Limpio: Limpieza miscelánea
  2. Imputar: Imputación de valores perdidos
  3. Codificar y escalar / Normalizar / Estandarizar / Transformar / Equilibrar: codificar para datos categóricos; escalar, normalizar, transformar datos numéricos según sea necesario. El equilibrio se refiere a corregir el desequilibrio de clases.
  4. Modelo: entrenar algoritmos de aprendizaje automático
1*cjkOMadWbGMJJDKNIeA3vQ

Imagen del autor
  • eliminando duplicados
  • eliminar filas según criterios filtrados
  • eliminar valores atípicos
  • eliminar valores erróneos
  • cambiar tipos de datos
  • dividir o combinar datos en formato de cadena
  • binning (convertir una característica en grupos)
  • agregación de características
  • discretización
  • remuestreo
  1. Jason Brownlee, Cómo preparar sus datos para el aprendizaje automático en Python con Scikit-Learn, 2016, dominio del aprendizaje automático.
  2. Syed danés, Guía práctica sobre el preprocesamiento de datos en Python usando Scikit Learn, 2016, Analytics Vidhya.
  3. Robert RF DeFilippi, Limpieza y preparación de datos con Python para la ciencia de datos: mejores prácticas y paquetes útiles, 2018, Medio.
  4. Salvador García, Julian Luengo y Francisco Herrera, Preprocesamiento de datos en minería de datos, 2015, Springer.
  5. Tarun Gupta, Preprocesamiento de datos en Python, 2019, Hacia la ciencia de datos.
  6. Rohan Gupta, Introducción a las técnicas de discretización para científicos de datos, 2019, Towards Data Science.
  7. Ihab Ilyas y Xu Chu, Limpieza de datos, 2019, Asociación de Maquinaria de Computación.
  8. P. Ethan Mccallum, Manual de datos incorrectos: limpieza de datos para que pueda volver a trabajar, 2012, O’Reilly.
  9. Jason Osborne, Mejores prácticas en la limpieza de datos: una guía completa de todo lo que necesita hacer antes y después de recopilar sus datos, 2012, Editorial SAGE.
  10. Pranjal Pandey, Procesamiento previo de datos: conceptos, 2019, Hacia la ciencia de datos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

protocolo smb1

Cómo habilitar y deshabilitar el protocolo SMB1 y SMB2 en Windows 10

Convenciones de código para el lenguaje de programación Java: 6. Declaraciones