La diferencia entre datos ‘disponibles’ y datos ‘accesibles’
Tim Lysecki
18 de noviembre de 2019·4 min de lectura
Un poco de historia
Hace unos meses, nuestra empresa disfrutó de un retiro unas horas al norte de la ciudad. Nos unimos, intercambiamos ideas y establecimos visiones y objetivos para el desarrollo de nuestra empresa y nuestros productos.
También tuvimos hogueras con s’mores, y eso es más relevante de lo que piensas.
A nuestro regreso a la ciudad, terminamos con una sorpresatus de malvaviscos – alrededor de 4 bolsas adicionales. Permanecieron intactos durante una semana completa, sentados en un cajón al lado del café, lo que significa que definitivamente eran conocidos, ya que el café solo puede describirse como ‘intacto’ durante un máximo de 30 minutos a la vez en nuestra oficina.
Pero luego, uno de nuestro personal vació una bolsa de malvaviscos en un recipiente transparente, similar a algunos otros bocadillos que tenemos por aquí.
Al final del día, quedaban cuatro.
¿Porqué me estas diciendo esto?
No me malinterpretes, sé que esto suena como un clickbait con errores tipográficos hasta ahora:
¡Movimos algunos malvaviscos a un recipiente transparente y NO CREERÁS lo que sucederá después!
Pero han ido bajando de manera constante. Y si no pensaba que esto iba a ir a ninguna parte que valiera la pena, abroche el cinturón, porque estoy absolutamente a punto de relacionar esto con los datos.
Al moverlos, presentarlos y resolver algunos problemas logísticos, los malvaviscos pasaron de estar disponibles a accesibles, y hay un mundo de diferencia entre los dos.
Está bien, estoy empezando a entenderlo
Hay cantidades de datos disponible que son más grandes de lo que cualquier ser humano puede percibir. Se genera a través de innumerables teléfonos inteligentes, computadoras, sensores, dispositivos de IoT y, básicamente, cualquier cosa que se conecte. Todo eso además de encuestas, censos, eventos naturales, eventos del mercado … De hecho, creo que es hora de actualizar la tercera ley de Newton :
Para cada acción, hay una reacción igual y opuesta, y se recopilan datos sobre ambas.
Pero estos datos rara vez son accesibles. Está escondido en portales, viene en formatos oscuros, los encabezados son incorrectos, los tipos de columnas son incorrectos, la codificación de caracteres no es la que estás acostumbrado, hay todo tipo de barreras.
Aprovechar los datos alternativos significa transformar su disponibilidad en accesibilidad. Los datos útiles no son fáciles de encontrar a través de los motores de búsqueda. Extraer datos una vez desde un portal web torpe no es lo mismo que administrar scripts para realizar recopilaciones programadas a intervalos regulares. Y una vez que haya resuelto todo eso, no solo tiene mágicamente los datos que desea, sino que debe reformatearlos, limpiarlos y estandarizarlos para integrarlos con los datos y la infraestructura existentes dentro de su organización.
¿Qué se puede hacer?
Afortunadamente, los datos son mutables. Existen procesos para transformarlo, normalizarlo y empaquetarlo en un esquema optimizado que haría que los datos fueran más fáciles de acceder y, por lo tanto, más valiosos.
Sin embargo, eso no escala cuando se trata de resolver con el poder de la gente. No importa el tamaño de su organización, llegará un momento en el que la cantidad de datos útiles pero inutilizables eclipsa las capacidades de su equipo de ciencia de datos. De hecho, probabilísticamente, ese momento ya está aquí; debido a la abrumadora e insondable cantidad de datos que se crean a diario, no hay forma de controlar cada fuente, actualización y segmento del mercado, y las probabilidades dictan que hay datos que no está aprovechando que podrían mejorar sus soluciones y profundizar sus capacidades analíticas.
¿Cómo gestiono la variedad de datos a escala?
Hemos escrito sobre lo crítico que es Estrategia de DataOps es si su empresa quiere estar basada en datos. Sin la automatización de su lado, es solo cuestión de tiempo antes de que cualquier equipo de ciencia de datos se estanque. Su equipo debe poder descargar el ‘trabajo sucio’ para garantizar que su tiempo se distribuya de manera uniforme entre todas las partes móviles de la ciencia de datos, la ingeniería de datos y el análisis de datos.
Dado que la ciencia de datos es una de las especialidades más demandadas en el mundo en este momento, el valor de los datos es obvio. Sin embargo, invertir en DataOps no solo aliviará el cuello de botella en las etapas de abastecimiento, preparación y procesamiento de los datos, sino que también liberará a sus científicos de datos para obtener nuevos datos, descubrir nuevos conocimientos, presentar análisis más significativos con mayor rapidez y, en todo caso, va de acuerdo con el plan, genera nuevos ingresos.
Un cambio de enfoque
Es fácil atribuir los problemas de la ciencia de datos a la escasez de talento, pero hacer crecer un equipo de datos solo llegará hasta cierto punto. No importa cuán profundo sea el grupo de talentos, no tiene sentido comercial tener un crecimiento uno a uno en productos de datos y profesionales de datos.
Para cualquier empresa que busque aprovechar el mundo de los datos disponibles, la prioridad número uno debe ser crear los flujos de trabajo más simples para obtener datos desde cualquier lugar de su organización, automatizando las tareas repetitivas y lentas que obstaculizan la productividad.
Así es como conviertes el enorme mundo de datos disponibles en accesible datos.