in

Mi experiencia como científico de datos en una startup

19Ki2LBKlOdlVdi2mWCWqWA
Foto de Proxyclick Visitor Management System en Unsplash

Horas de oficina

Mi experiencia como científico de datos en una startup

¿Cuáles son las principales expectativas cuando se trabaja como científico de datos en una empresa «más pequeña»?

Eryk Lewinson

Eryk Lewinson

16 de diciembre de 2020·10 min de lectura

Vivimos en tiempos de rápida expansión de datos, ya que básicamente cualquier actividad que realizamos utilizando tecnología (y no solo) genera algún tipo de datos, que luego se pueden analizar y utilizar para obtener información. ¡No es de extrañar que Harvard Business Review nombró a «científico de datos» el trabajo más sexy del siglo XXI!

Dada esta breve introducción, solo tiene sentido que las empresas utilicen los datos disponibles para tomar decisiones comerciales mejores y más informadas, mientras que al mismo tiempo mejoran la experiencia de los clientes (al menos en principio). Ahí es donde entra en juego el papel de los analistas / científicos de datos.

CómomiVer, la definición de científico de datos, o más bien las tareas que realmente maneja un científico de datos, difiere mucho según la empresa, la industria, etc. En este artículo, quería brindar mi perspectiva describiendo cómo se veía trabajar como científico de datos para una startup FinTech en los Países Bajos.

Foto de Danielle MacInnes en Unsplash

Un científico de datos de productos

Mi puesto podría describirse con mayor precisión como un científico de datos de productos, tanto por la estructura de los equipos dentro de la empresa como por las tareas en las que solía trabajar. Mi función estaba profundamente arraigada en el equipo de producto, que estaba formado por un propietario de producto, diseñadores, desarrolladores front-end y back-end, y más. Se podría decir que cada científico de datos trabajó en dos equipos: el Equipo de Inteligencia Comercial general y luego en el Equipo de Producto respectivo. En la práctica, ese tipo de enfoque híbrido de la estructura del equipo funcionó muy bien y permitió una colaboración eficiente, al tiempo que mantuvo a todos informados sobre lo que está sucediendo actualmente en los equipos.

Después de esta breve introducción, quería tocar algunos de los puntos que se destacaron durante mi tiempo allí y que creo que pueden ser útiles para otras personas que buscan trabajo en startups.

Estar cerca de las decisiones

Definitivamente, uno de los aspectos más destacados de trabajar como científico de datos para una empresa más pequeña es que estás más cerca de las decisiones y las partes interesadas. Esto significa que sus proyectos, ya sea un solo Jupyter Notebook, un tablero de varias hojas o un modelo implementado, pueden usarse directamente para tomar decisiones o dar forma al producto (en mi caso, era una aplicación móvil). Eso puede ser especialmente gratificante para los científicos de datos, ya que ven que su trabajo se usa realmente (a diferencia de algún informe enterrado en una avalancha de correos electrónicos) y proporciona un valor agregado claro al negocio.

Conocimiento del dominio y gestión de las partes interesadas

Estar tan cerca de las decisiones permite a los científicos de datos comprender la lógica empresarial y obtener una valiosa experiencia en el dominio. De esta manera, pueden comprender mejor los requisitos y expectativas potenciales de los grupos de interés, lo que hace que la cooperación sea más fácil y fructífera.

A modo de ejemplo, sucede que los stakeholders sí tienen algún objetivo en mente, pero en lugar de expresarlo, ya describen los medios para lograr ese objetivo, que se les ocurrió. Si bien una iniciativa de este tipo siempre es bienvenida y puede ser muy útil, también sucede que se debe seguir otro enfoque, ya sea porque el sugerido tiene algunas desventajas o tal vez no hay tales datos disponibles, etc. Porque al final, esto es exactamente el trabajo del científico de datos para señalar la mejor manera de lograr los objetivos de las partes interesadas.

Científico de datos = jack de todos los oficios

Cuando escuche el término científico de datos, puede asociarlo con una persona que está entrenando principalmente modelos de aprendizaje automático, ajustando constantemente los hiperparámetros para mejorar la precisión / precisión / recuperación / otra puntuación con el fin de impactar el negocio. Si bien este puede ser el caso de empresas más grandes o empresas con productos de aprendizaje automático dedicados, en mi empresa (y de manera similar para otras startups de las que escuché) el rol era más un un mil usos.

En la práctica, esto significaba que estábamos trabajando en una variedad de proyectos diferentes. Naturalmente, la mayoría de ellos estaban relacionados con el trabajo típico de los científicos de datos, pero algunos de ellos podrían caer fácilmente bajo la etiqueta de ingeniería de datos o software.

En cuanto a la diversidad de los proyectos, si bien algunos de ellos implicaron la construcción de modelos predictivos (por ejemplo, un modelo de predicción de conversión), otros podrían ser sustancialmente diferentes. A veces, tuvimos que construir e implementar un importador que descargó el gasto de marketing de las plataformas de redes sociales y lo almacenó en la base de datos interna para obtener más informes.

En otra ocasión, creamos un embudo de incorporación detallado, que podría usarse para optimizar el recorrido del usuario, localizar los cuellos de botella y reducir la caída. También planificamos y diseñamos experimentos y analizamos los resultados de múltiples pruebas A / B. Y esos proyectos fueron solo la punta del iceberg.

Yo diría que trabajar para una startup permite una diversidad de proyectos significativamente mayor que en un equipo dedicado, por ejemplo, centrándose en la segmentación de clientes o la agrupación de series de tiempo. Si esto es algo que le gustaría experimentar (la compensación potencial de ancho versus profundidad) depende completamente de usted. Para mí, fue muy divertido y definitivamente aprendí mucho de diferentes áreas de la ciencia de datos. Y luego documenté algunos de esos aprendizajes en forma de artículos de Medium 🙂

Enfoque pragmático

Creo que las startups son uno de los mejores lugares para aprender enfoque pragmático de la ciencia de datos. Esto se debe a que, como empresas jóvenes, necesitan crecer, desarrollarse y ganar terreno rápidamente. Para lograr estos objetivos, a menudo es mejor centrarse en las frutas más fáciles. Supongamos que tiene un modelo de predicción de conversiones que indica si es probable que un cliente determinado realice una conversión esta semana o no. Probablemente pueda pasar meses tratando de mejorar la métrica de interés, ya sea creando nuevas características, probando el clasificador de última generación o ajustando los hiperparámetros utilizando cualquiera de las diez bibliotecas disponibles. Sí, ese número está inventado y probablemente subestimado seriamente.

Pero la verdadera pregunta es, ¿este o dos puntos porcentuales adicionales por encima de un clasificador de Random Forest perfectamente bueno aportará mucho valor a la empresa? Suponiendo que la empresa no sea un gigante como Google o Facebook, probablemente no. Es por eso que lograr resultados satisfactorios en un período de tiempo razonable es tan crucial para las empresas más pequeñas y, al contrario de lo que podría pensar en este momento, es algo con lo que los científicos de datos (incluido yo mismo) a menudo luchan. Cuándo dejarlo, conformarse con la solución actual y pasar a otro proyecto. Eso es exactamente cuando los consejos de un gerente experimentado con una vista panorámica pueden realmente ayudar.

No solo las cosas brillantes

Conectado con lo anterior, pero en un contexto un poco más amplio, para muchas personas, los modelos de entrenamiento y ajuste es el lugar donde está toda la diversión. Además, para ir un paso más allá, todos escucharon que un científico de datos dedica el 80% de su tiempo a limpiar y discutir los datos y el 20% al modelado real.

Pero en la práctica, el trabajo de todos los días puede que ni siquiera implique modelos de entrenamiento. A veces, ya se puede extraer mucho valor al realizar algunas agregaciones inteligentes en pandas o preparar un tablero rápido y eficiente en Tableau para contar su historia. Personalmente, para algunas solicitudes ad-hoc, a menudo descubrí que en realidad trabajar con SQL era más rápido y tan bueno como cargar los datos en Python para un análisis más detallado.

¿Es lo más glorioso que se puede hacer como científico de datos? Para muchos, probablemente no. Pero yo diría que mucho depende de la definición real de científico de datos. Lo más probable es que en solo un pequeño% de los puestos de científicos de datos, la persona solo trabaje en el entrenamiento y ajuste de los modelos. Y para muchas empresas, especialmente las más pequeñas, un científico de datos es un término genérico para una persona que toma datos, hace algo de magia y genera información crucial para el negocio. Para mí, fue gratificante que se me presentara un problema o una tarea, y luego tener la posibilidad de decidir qué enfoque (estadísticas agregadas simples, un modelo elegante o algo intermedio) sería el más adecuado para resolverlo.

Los datos

Puede parecer obvio, pero no hay científicos de datos sin los datos. Antes de comenzar el trabajo real, muchos estudiantes y aspirantes a científicos de datos juegan principalmente con conjuntos de datos limpios disponibles en línea (ya sea el Repositorio de aprendizaje automático de la UCI o Kaggle) y, desafortunadamente, esto está bastante lejos de la verdad. En mi empresa, ya teníamos una excelente canalización de ingeniería de datos construida por mi gerente, que eliminó muchos puntos débiles potenciales.

Sin embargo, todavía encontramos bastantes problemas cuando queríamos agregar más datos (como información de sesión de usuario o datos de partes externas, como eventos de Firebase para pruebas A / B). Un ejemplo podría ser una secuencia extraña de eventos que suceden para algunos usuarios (que en teoría no debería ser posible), que solo surgió al intentar crear un embudo lineal o aplicar técnicas de minería de procesos.

Pero no diría que esto fue algo malo al final. Por supuesto, agregó algo de trabajo adicional para localizar esos patrones extraños. Pero primero, fue satisfactorio detectar realmente el problema (a veces se requirió la cooperación de los desarrolladores para delimitar el problema). En segundo lugar, cada caso nos dejó más inteligentes y sabíamos qué buscar en el futuro y cómo evitar que volvieran a ocurrir problemas similares. Así que en general, definitivamente fue una experiencia muy educativa.

1*U2QKBQ8 AVrOBWaDfDBfEA

Foto de Headway en Unsplash

Fomento de la creatividad

Si bien ya mencioné la diversidad de proyectos en startups, mi empresa fue excelente cuando se trataba de apoyar sus propias iniciativas. Cuando no había que hacer un sprint urgente, de vez en cuando podíamos pasar un día jugando con una nueva biblioteca o investigando algunos conceptos que podrían ser aplicables en la empresa. Al final, es una situación en la que todos ganan, en la que los científicos de datos crecen y desarrollan nuevas habilidades, mientras que la empresa puede beneficiarse del uso de un enfoque novedoso. A menudo, estas pequeñas «cosas» exploratorias se convirtieron en proyectos más grandes y significativos.

En mi opinión, es genial encontrar una empresa con un alto enfoque en el desarrollo personal. Por lo tanto, no solo completa sus tareas y aprende en el camino, sino que también puede intentar encontrar algo que valga la pena perseguir por su cuenta. Y luego, la compañía lo apoya brindándole tiempo o recursos para llevarlo a cabo.

Responsabilidad y propiedad

Conectado a los puntos anteriores, en mi empresa anterior, los científicos de datos tienen mucha libertad para abordar las tareas, qué herramientas usan o incluso proponer nuevas ideas y explorarlas para proporcionar un MVP o prueba de concepto. .

Una persona que trabaje directamente en el proyecto podría tener algunas ideas sobre por qué un determinado enfoque podría ser mejor o qué tipo de análisis podrían ser beneficiosos para la empresa en su conjunto. En última instancia, la empresa confía en que el científico de datos siempre hará todo lo posible y proporcionará productos de la más alta calidad. Esta atmósfera de confianza fomentó aún más la creatividad y te hizo querer poner tu mejor esfuerzo en cada proyecto. Porque no era solo uno de los veinte proyectos en trámite que se le asignaron este medio año, sino algo que podría moldear, construir e implementar de forma activa.

Pila de tecnología

Lo que definitivamente es más común para las nuevas empresas que las grandes empresas (especialmente aquellas bajo muchas regulaciones como los bancos) es usar la última y mejor tecnología disponible …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

W4f8HToaq6LnVAuW9oTmXe 1200 80

Las mejores impresoras HP de 2021: portátiles, láser, todo en uno, de inyección de tinta y más

1632804049 social og oracle badge

Agente de seguridad de acceso a la nube (CASB)