in

¿Qué es ETL?

1s3RpmBencHph1tzSBv0a7w

EMPEZANDO

¿Qué es ETL?

y por qué es fundamental para la ciencia de datos

Omer Mahmood

1 de marzo·7 min de lectura

Filtro de goteo de café

Filtro de goteo de café

Foto de Goran Ivos en Unsplash

En mi última publicación, hablé sobre lo que significa mover modelos de aprendizaje automático (ML) a producción al presentar el concepto de MLOps. Esta vez veremos el extremo opuesto de los pasos de la ciencia de datos para ML: extracción e integración de datos.

El TL; DR

ETL significa Extraer-Transformar-Cargar, por lo general, implica mover datos de una o más fuentes, realizar algunos cambios y luego cargarlos en un nuevo destino único.

  • En la mayoría de empresas los datos tienden a estar en silos, almacenado en varios formatos y a menudo es inexacto o inconsistente
  • Esta situación está lejos de ser ideal si queremos poder analizar y obtener fácilmente conocimientos de esos datos o usarlo para la ciencia de datos

🚣🏼 Cómo llegamos aquí

La mayoría de los algoritmos ML requieren laIncrementar cantidades de datos de entrenamiento para producir modelos que puedan hacer predicciones precisas. También requieren datos de formación de buena calidad, representativos del problema que estamos intentando solucionar.

Para reforzar este punto, encontré un gran ejemplo, análogo a la ‘jerarquía de necesidades de Maslow’ que destaca la importancia de la recopilación y el almacenamiento de datos en lo que respecta a la ciencia de datos:

Jerarquía de necesidades de ciencia de datos

Jerarquía de necesidades de ciencia de datos

Figura 1: La jerarquía de necesidades de la ciencia de datos, FUENTE: “LA JERARQUÍA DE NECESIDADES DE LA IA” MONICA ROGATI[1]

En la base de la pirámide está la necesidad básica de recopilar los datos correctos, en los formatos y sistemas correctos, y en la cantidad correcta.

Cualquier aplicación de IA y ML solo será tan buena como la calidad de los datos recopilados.

Entonces, digamos que ha enmarcado su problema y ha determinado que es una buena opción para ML. Sabes qué datos necesitas, al menos para empezar a experimentar. Pero, lamentablemente, se encuentra en diferentes sistemas y se encuentra disperso por toda su organización.

El siguiente paso es descubrir cómo unir esos datos, transformarlos según sea necesario y luego colocarlos en algún lugar como un solo conjunto de datos integrado. Solo puede comenzar a explorar los datos, realizar ingeniería de características y entrenamiento de modelos una vez que sea accesible; aquí es donde entra en juego nuestro amigable acrónimo ETL.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

06LYMXflNTyWN5Sb1z5d2ey 24.1632169362.fit lim.size 1200x630

Revisión de Aviron Rower | PCMag

Procedimientos almacenados de SQL