in

Explicado claramente: en qué se diferencia el aprendizaje automático del modelado estadístico

1oSSkIe7N0F26RY0EEXO5Ag

Explicado claramente: en qué se diferencia el aprendizaje automático del modelado estadístico

Son muy diferentes entre sí y todos los científicos de datos deben entender por qué y cómo.

Juhi Ramzai

7 de mayo de 2020·6 min de lectura

1*oSSkIe7N0F26RY0EEXO5Ag

Esta publicación aborda una distinción muy importante que debemos entender como una parte activa del dominio de la ciencia de datos. El diagrama de Venn anterior fue publicado originalmente por SAS Institute, pero su diagrama no mostró superposición entre las estadísticas y el aprendizaje automático que, según tengo entendido, habría sido un descuido. He recreado el diagrama según mi mejor información y comprensión. Este diagrama de Venn expone las distinciones y la superposición de todas las ramas de la ciencia de datos de manera tan acertada.

Me gusta creer que Data Science es ahora el término general y que todos los demás pueden describirse como las ramas de Data Science, ¡cada una de las cuales es diferente y, sin embargo, muy similar a otras ramas!

Aprendizaje automático VS Modelado estadístico: Esta es una pregunta milenaria con la que se encuentran todos los científicos de datos / ingenieros de ML o cualquier persona que haya comenzado su viaje en estos campos. Al estudiar estos campos, a veces el aprendizaje automático se siente tan entrelazado con el modelado estadístico que nos hace preguntarnos cómo podemos diferenciar entre los dos o qué etiqueta será perfecta para qué modelo. Claro, el aprendizaje automático se ha convertido en una palabra de moda hoy en día, pero esto no implica que comencemos a etiquetar nuestros modelos estadísticos como modelos de aprendizaje automático porque, contrariamente a la creencia popular, ELLOS SON DIFERENTES! Aprendamos sobre las diferencias en detalle.

El flujo de esta publicación será:

  1. Definiciones de aprendizaje automático y modelado estadístico
  2. Diferencias entre el aprendizaje automático y el modelado estadístico
  3. ¿Cuándo usar cuál?
1*6iEkcXRWpOTfFqGmvDs1oA

Definiciones

Aprendizaje automático

El campo de estudio interesado en el desarrollo de algoritmos informáticos para transformar datos en acciones inteligentes sin depender de la programación basada en reglas se conoce como Machine Learning.

Modelado estadístico

Un modelo estadístico generalmente se especifica como una relación matemática entre una o más variables aleatorias y otras variables no aleatorias. Como tal, un modelo estadístico es «una representación formal de una teoría».

Ahora que las aburridas definiciones llenas de palabras están fuera de nuestro camino, profundicemos para comprender las diferencias entre estos dos dominios.

Diferencias entre el aprendizaje automático y el modelado estadístico

1. Historia y relevancia académica

El modelado estadístico entró en el advenimiento siglos antes de que apareciera el aprendizaje automático alrededor de la década de 1950, cuando se introdujo el primer programa ML: el programa de verificación de Samuel.

Todas las universidades de todo el mundo están lanzando ahora sus programas de aprendizaje automático e inteligencia artificial, pero no están cerrando sus departamentos de estadística.

El aprendizaje automático se enseña en conjunto con los departamentos de informática y los departamentos de inteligencia artificial independientes que se ocupan de la construcción de algoritmos predictivos que son capaces de volverse «inteligentes» por sí mismos aprendiendo a «aprender» de los datos sin ninguna regla preestablecida como se menciona en el definición de ML anterior.

MIENTRAS QUE

El modelado estadístico se enseña en conjunto con el departamento de matemáticas que se enfoca en construir modelos que primero pueden encontrar relaciones entre diferentes variables y luego pueden predecir un evento que puede describirse como una función de otras variables independientes.

2. Tolerancia a la incertidumbre

Este es un punto importante de distinción entre los dos dominios.

En Modelado estadístico, prestamos atención a muchas estimaciones de incertidumbre (como intervalos de confianza, pruebas de hipótesis) y tenemos que tener en cuenta que todos los supuestos deben satisfacerse antes de que podamos confiar en el resultado de un algoritmo en particular. Por lo tanto, tienen BAJA tolerancia a la incertidumbre.

Por ejemplo: si hemos construido un modelo de regresión lineal, tenemos que verificar que se cumplan las siguientes suposiciones antes de usar el resultado de este modelo:

  1. Una relación lineal entre las variables dependientes e independientes.
  2. Independencia de los términos de error
  3. Los términos de error (residuales) deben distribuirse normalmente
  4. Independencia media
  5. Sin multicolinealidad
  6. Se requiere homocedasticidad

En cambio, si hemos construido un modelo logístico, se deben tener en cuenta los siguientes supuestos:

  1. La regresión logística binaria requiere que la variable dependiente sea binaria y la regresión logística ordinal requiere que la variable dependiente sea ordinal.
  2. Las observaciones deben ser independientes entre sí.
  3. Sin multicolinealidad
  4. Linealidad de variables independientes y log-odds

MIENTRAS QUE

En Aprendizaje automático algoritmos, hay pocas suposiciones o ninguna que deban ser atendidas. Los algoritmos de ML son mucho más flexibles que los modelos estadísticos, ya que no tienen requisitos rígidos sobre colinealidad, distribución normal de residuos, etc. Por lo tanto, tienen ALTA tolerancia a la incertidumbre.

3. Requisitos de datos y enfoque

Modelos estadísticos no pueden operar en conjuntos de datos muy grandes, requieren conjuntos de datos manejables con menos cantidad de atributos y una cantidad decente de observaciones. En general, el número de atributos nunca supera los 10-12 en un modelo estadístico porque son muy propensos al sobreajuste. (se desempeña muy bien en el conjunto de datos de entrenamiento, pero se tambalea mal con los datos invisibles porque se ha ajustado muy cerca del conjunto de datos de entrenamiento, lo cual es un escenario no deseado)

También, La mayoría de los modelos estadísticos siguen Enfoque paramétrico (Ejemplo: regresión lineal, regresión logística)

MIENTRAS QUE

Los algoritmos de aprendizaje automático son algoritmos de aprendizaje y para aprender necesitan una gran cantidad de datos. por lo tanto, requieren datos con una gran cantidad de atributos y observaciones. ¡Cuanto mayor, mejor! Los algoritmos de ML de alguna manera requieren Big Data.

También, La mayoría de los modelos de aprendizaje automático siguen Enfoque no paramétrico (K-Vecinos más cercanos, árboles de decisión, bosque aleatorio, métodos de aumento de gradiente, SVM, etc.)

¿Cuándo usar cuál?

Esto depende principalmente de los factores que se explican a continuación. Repasaremos los puntos en teoría seguidos de ejemplos.

El modelo estadístico debe ser su elección preferida si:

  • La incertidumbre es baja ya que la mayoría de las suposiciones se cumplen cuando comienza a construir un modelo.
  • El tamaño de los datos no es muy grande.
  • Si desea aislar los efectos de una pequeña cantidad de variables
  • La incertidumbre / errores marginales en la predicción general está bien
  • Las interacciones entre varias variables independientes son relativamente pequeñas y se pueden especificar previamente.
  • Se requiere una alta interpretabilidad

El aprendizaje automático puede ser la mejor opción si

  • Cuando el resultado a predecir no tiene un fuerte componente de aleatoriedad; Por ejemplo, en el reconocimiento visual de patrones, un objeto debe ser un E o no un E
  • El algoritmo de aprendizaje se puede entrenar en un número ilimitado de réplicas exactas (por ejemplo, 1000 repeticiones de cada letra del alfabeto o de una determinada palabra para traducir al alemán)
  • Cuando la predicción general es el objetivo, sin poder describir el impacto de ninguna variable independiente o las relaciones entre las variables.
  • Uno no está muy interesado en estimar la incertidumbre en los pronósticos o en los efectos de predictores seleccionados.
  • El tamaño de los datos es enorme
  • No es necesario aislar el efecto de ninguna variable especial.
  • Baja interpretabilidad y el modelo es una «caja negra» está bien

Por ejemplo: si trabaja con una empresa de tarjetas de crédito y esta desea crear un modelo para realizar un seguimiento del desgaste de los clientes, lo más probable es que prefieran un modelo estadístico que tenga entre 10 y 12 predictores que puedan interpretar y vetar de acuerdo con su conocimiento del dominio empresarial. , no apreciarán un algoritmo de caja negra en este escenario porque la necesidad de interpretabilidad impulsa más que la precisión de la predicción.

Por otro lado, si está trabajando para un cliente como Netflix y Amazon que quiere construir motores de recomendación potentes, entonces en este escenario la necesidad de precisión en los resultados es mayor que la interpretabilidad del modelo, por lo tanto, un modelo de aprendizaje automático basta aquí.

Con esto llegamos al final de este post.

Puede leer más sobre la diferencia entre la minería de datos y el aprendizaje automático y los detalles completos de los 4 algoritmos de aprendizaje automático principales en mis siguientes publicaciones:

Explicado claramente: en qué se diferencia el aprendizaje automático de la minería de datos

Definiciones, confusiones, distinciones, todo explicado

haciadatascience.com

Explicado claramente: 4 tipos de algoritmos de aprendizaje automático

Definiciones, propósito, algoritmos populares y casos de uso: todo explicado

haciadatascience.com

¡Mire este espacio para obtener más información sobre aprendizaje automático, ciencia de datos y estadísticas!

Feliz aprendizaje:)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

R6hSn3h3oc8BbzJMdjfmAe 1200 80

Las mejores tabletas Windows 2021: los mejores dispositivos portátiles con Windows 10

Consultor de desarrollo empresarial | Clase de | Carreras