in

Líder en metodología CRISP-DM en minería de datos y big data

Líder en metodología CRISP-DM en minería de datos y big data

Una breve guía paso a paso de la metodología de aprendizaje automático

Israel Rodrigues

17 de febrero de 2020·7 min de lectura

En marzo de 2015 colaboré en un trabajo, denominado “Propuestas de negocio metodológicas para el desarrollo de proyectos de Big Data” [2], junto a Alberto Cavadia y Juan Gómez. En ese entonces, nos dimos cuenta de que los proyectos de big data suelen tener 7 partes.

Poco después, utilicé la metodología CRISP-DM para mi tesis porque era un estándar abierto, ampliamente utilizado[3] en los mercados y (gracias a un artículo anterior) sabía que era bastante similar a otros enfoques.

1*ZEAhBXYqKMwZP8woocd5dw

Como mi profesión de capa de datosl La carrera se desarrolla, no puedo evitar notar que la metodología CRISP-DM sigue siendo bastante relevante. En realidad, las unidades de gestión de datos y los perfiles de TI se basan en los pasos de esta metodología. Así que decidí, dedicarle un relato breve, a describir los pasos de la larga metodología ganadora.

1*wi0RkO 4RkAvVyJoQB2MJg

CRISP-DM son las siglas de Cross Industry Standard Process for Data Mining y es una metodología de 1996 creada para dar forma a los proyectos de Data Mining. Consta de 6 pasos para concebir un proyecto de Data Mining y pueden tener iteraciones cíclicas según las necesidades de los desarrolladores. Esos pasos son Comprensión empresarial, Comprensión de datos, Preparación de datos, Modelado, Evaluación e Implementación.

El primer paso es Comprensión empresarial y su objetivo es dar contexto a las metas y los datos para que el desarrollador / ingeniero tenga una noción de la relevancia de los datos en ese modelo de negocio en particular.

Se compone de reuniones, reuniones en línea, lectura de documentación, aprendizaje de campo específico y una larga lista de formas en que ayudan al equipo de desarrollo a hacer preguntas sobre el contexto relevante.

El producto de este paso es que el equipo de desarrollo comprende el contexto del proyecto. Los objetivos del proyecto deben definirse antes de que comience el proyecto. Por ejemplo, el equipo de desarrollo ya debe saber que el objetivo es aumentar las ventas y, una vez finalizado el paso, comprender qué está vendiendo el cliente y cómo lo vende.

El segundo paso es Comprensión de datos y su objetivo es saber qué se puede esperar y lograr a partir de los datos. Comprueba la calidad de los datos, en varios términos, como la integridad de los datos, la distribución de valores, el cumplimiento de la gobernanza de los datos.

Esta es una parte crucial del proyecto porque define cuán viables y confiables pueden ser los resultados finales. En este paso, los miembros del equipo intercambian ideas sobre cómo extraer el mejor valor de las piezas de información. En caso de que el uso o la relevancia de algún dato no esté claro para el equipo de desarrollo, pueden retroceder momentáneamente para comprender el negocio y cómo se beneficia de ese dato.

Gracias a este paso, el científico de datos ahora sabe cómo, en términos de datos, el resultado debe satisfacer los objetivos del proyecto, qué algoritmo y proceso traen ese resultado, cómo es el estado actual de los datos y cómo debe ser, en para ser útil al algoritmo y al proceso involucrado.

1*eHwAjHxx8OJ T6pQjIySyQ

El tercer paso es Preparación de datos e involucra el proceso ETL o ELT que convierte los datos en algo útil para los algoritmos y el proceso.

A veces, las políticas de gobernanza de datos no se respetan o no se establecen en una organización, y para dar un verdadero significado a los datos, se convierte en el trabajo de los ingenieros de datos y de los científicos de datos estandarizar la información.

Del mismo modo, algunos algoritmos funcionan mejor bajo ciertos parámetros, alguien no acepta valores no numéricos, otros no funcionan bien con una gran variación en los valores. Por otra parte, le corresponde al equipo de desarrollo normalizar la información.

La mayoría de los proyectos dedicaron la mayor parte de su tiempo a este paso. Este paso, creo, es la razón por la que hay un ingeniero de datos de llamadas de perfil de TI. Como lleva mucho tiempo y puede volverse realmente complejo cuando se trabaja con grandes cantidades de datos, los departamentos de TI podrían encontrar una ventaja al dedicar recursos para realizar específicamente estas tareas.

El cuarto paso es Modelado y es el núcleo de cualquier proyecto de aprendizaje automático. Este paso es responsable de los resultados que deben satisfacer o ayudar a satisfacer los objetivos del proyecto.

Aunque es la parte glamorosa del proyecto, también es la más corta en el tiempo, ya que si todo lo anterior se hace correctamente, hay poco que ajustar. En caso de que los resultados sean mejorables, la metodología está configurada para retroceder a la preparación de datos y mejorar los datos disponibles.

Algunos algoritmos como k-medias, agrupamiento jerárquico, series de tiempo, regresión lineal, k vecinos más cercanos, muchos otros, son las líneas de código centrales de este paso en la metodología.

1*WO6AY0YuL5gkj3AcSOTPfg

El quinto paso es Evaluación donde corresponde verificar que los resultados sean válidos y correctos. En caso de que los resultados sean incorrectos, la metodología permite volver a revisar el primer paso, con el fin de comprender por qué los resultados están equivocados.

Por lo general, en un proyecto de ciencia de datos, el científico de datos divide los datos en capacitación y pruebas. En este paso se utilizan los datos de prueba, su objetivo es verificar que el modelo (producto del paso de modelado) sea exacto a la realidad.

Dependiendo de la tarea y el contexto, existen diversas técnicas. Por ejemplo en el contexto del aprendizaje supervisado, con la tarea de clasificar ítems, una forma de verificar los resultados es con la matriz de confusión. Para el aprendizaje no supervisado, hacer la evaluación se vuelve más difícil, ya que no existe un valor estático para separar «correcto» de «incorrecto», por ejemplo, la tarea de clasificar ítems se evaluaría calculando la distancia inter e intra entre elementos en un (algunos ) grupo (s).

En cualquier caso, es importante especificar alguna fuente de medida de error. Esta medida de error le dice al usuario cómo puede confiar en los resultados, ya sea para: «seguro que esto funcionará» o «seguro que no funcionará». Si de alguna manera la medida del error pasa a ser 0 o ninguna en todos los casos, indicaría que el modelo está sobreajustado y la realidad podría funcionar de manera diferente.

El sexto y último paso es el Despliegue y consiste en presentar los resultados de una manera útil y comprensible, y al lograrlo, el proyecto debe alcanzar sus objetivos. Es el único paso que no pertenece a un ciclo.

Dependiendo del usuario final, una forma útil y comprensible puede variar. Por ejemplo, si el usuario final es otra pieza de software, como en el programa del sitio web de ventas que pregunta a su sistema de recomendaciones qué sugerirle a un comprador, una forma útil sería un JSON que lleve la respuesta a una consulta específica. En otro caso, como un alto ejecutivo que requiere información proyectada para la toma de decisiones, la mejor manera de presentar los hallazgos es almacenarlos en una base de datos analítica y presentarlos como un tablero en una solución de inteligencia empresarial.

1*MUw0oW7C5HowLsdTEPoJwA

Decidí escribir esta breve descripción / explicación porque me sorprende la larga relevancia de la metodología. Esta metodología ha estado ahí durante mucho tiempo y parece que prevalecerá por más tiempo.

Esta metodología es bastante lógica y avanza en sus pasos. Como evalúa todos los aspectos de un proyecto de minería de datos y permite círculos en su ejecución, es robusto y gana confianza. No es de extrañar que la mayoría de desarrolladores y directores de proyectos lo elijan y que las metodologías alternativas sean bastante similares.

Espero que esta breve introducción, ayude a los profesionales de TI a dar una argumentación sobre el desarrollo metodológico de sus tareas. Varias otras áreas de la informática pueden leer esta historia y obtener una comprensión básica de lo que están haciendo los científicos de datos y cómo se relaciona con otros perfiles, como el ingeniero de datos y la inteligencia empresarial.

Espero que lo hayan disfrutado ya que esta es mi primera historia :).

Referencias:

[1] algedroid, Equipo, Trabajo, Negocios, Cooperación (2019), URL: https://pixabay.com/photos/team-work-business-cooperation-4503157/

[2] Alberto Cavadia, Juan Gómez, e Israel Rodríguez, Propuestas Empresariales Metodológicas para el Desarrollo de Proyectos de Big Data (2015), PAPER DE CIENCIAS DE DATOS

[3] Gregory Piatetsky, CRISP-DM, sigue siendo la principal metodología para proyectos de análisis, minería de datos o ciencia de datos (2014), URL: https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data- mining-data-science-projects.html

[4] Kenneth Jensens, Diagrama de proceso que muestra la relación entre las diferentes fases de CRISP-DM (2012), URL: https://es.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining#/media/Archivo:CRISP-DM_Process_Diagram.png

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

00uSemqEQcdUj260h1AXI9w 22.1631635285.fit lim.size 1200x630

¿Quieres probar Windows 11? Cómo configurar y personalizar su instalación

social og oracle badge

¿Qué es SaaS? | Oráculo