in

¿Cómo convertirse en científico de datos?

1lH8CpqMth9yzj1h Ztay6A

¿Cómo convertirse en científico de datos?

Taesun Yoo

5 de julio de 2019·8 min de lectura

Introducción:

Estoy bastante seguro de que muchos de nosotros encontramos el artículo de Harvard Business Review en 2012. Un científico de datos es un profesional conocido como el trabajo más sexy del siglo XXI. Además, una investigación realizada por McKinsey Global Institute en 2013 proyectó que habrá aproximadamente 425.000 y 475.000 puestos de análisis de datos sin cubrir en América del Norte para 2018. El mensaje para llevar aquí es que habrá un flujo constante de talento analítico. requerido en todas las industrias, donde las empresas recopilan y utilizan datos para sus ventajas competitivas.

Qué mi¿De verdad un científico de datos?

En una descripción demasiado simplificada, un científico de datos es un profesional que puede trabajar con una gran cantidad de datos y extraer conocimientos analíticos. Comunican sus hallazgos a las partes interesadas (es decir, liderazgo superior, administración y clientes). Por lo tanto, las empresas pueden beneficiarse de tomar las decisiones mejor informadas para impulsar el crecimiento y la rentabilidad de su negocio (es decir, depende del contexto de las industrias).

¿Por qué es tan difícil convertirse en científico de datos?

La naturaleza de la ciencia de datos es un híbrido de muchas disciplinas. Donde se compone de diferentes áreas temáticas como matemáticas (es decir, estadística, cálculo, etc.), gestión de bases de datos, visualización de datos, programación / ingeniería de software, conocimiento del dominio, etc. En mi opinión, esta puede ser la razón principal por la que las personas interesadas en saltar a la carrera de ciencia de datos de nivel de entrada a menudo se siente completamente perdido. La mayoría de la gente no sabe por dónde empezar porque es posible que le falte un área por completo o que varias áreas dependan de la formación académica y la experiencia laboral de cada uno.

Sin embargo, la buena noticia es que no necesita preocuparse demasiado por eso. En estos días, nos enfrentamos al lado completamente opuesto de un problema. Simplemente hay demasiados recursos para elegir. Por lo tanto, no necesariamente sabe cuál podría funcionar mejor para usted. En este artículo, me centraré en cómo convertirme en científico de datos desde tres perspectivas.

Sección 1: ¿Dónde aprender ciencia de datos?

Comencemos desde dónde aprender ciencia de datos. Hay tres vías principales para obtener educación en ciencia de datos de cursos en línea abiertos masivos (MOOC), título / certificado universitario y entrenamiento de campo de entrenamiento.

Aquí hay una figura de muestra que demuestra el compromiso de tiempo estimado frente a la tasa de éxito en la colocación laboral en cada opción. Esto da una idea de que la educación del campo de entrenamiento puede brindarle una ventaja para conseguir un trabajo de científico de datos más rápido que las otras dos opciones.

Aquí hay una tabla de resumen que proporciona información más detallada sobre cada vía educativa. Básicamente, cada opción tiene ventajas y desventajas con respecto al costo, la flexibilidad y la duración del programa. Sin embargo, el mejor consejo para tomar la decisión correcta es preguntarse qué es lo que realmente le importa más. Por ejemplo, tiene un lujo de tiempo y desea minimizar el costo de inversión. O puede ser una persona que quiera conseguir un trabajo lo antes posible, incluso si el costo de inversión inicial es alto.

Sección 2: ¿Qué aprender sobre ciencia de datos?

Hay muchas cosas que aprender con seguridad como científico de datos. Comencemos a analizar el camino de la educación en ciencia de datos a partir de cinco pasos principales.

El paso 1, ponerse al día con las matemáticas básicas relacionadas con la estadística, el cálculo y el álgebra lineal es un buen comienzo. Esto es esencial como científico de datos para comprender los mecanismos detrás de cómo funcionan los diferentes algoritmos. Desarrolla la intuición sobre cómo ajustar o modificar algoritmos para resolver problemas comerciales únicos. Además, conocer las estadísticas le ayuda a convertir sus hallazgos de las pruebas de diseño experimental (es decir, pruebas A / B) en métricas comerciales clave.

Paso 2, los científicos de datos deben estar familiarizados con un conjunto de herramientas para trabajar con datos en varios entornos. Un conjunto de herramientas contiene una combinación de SQL, línea de comandos, codificación y herramienta en la nube. A continuación, se muestra un resumen de cómo se utiliza cada herramienta. Para la extracción y manipulación de datos de las bases de datos relacionales, SQL es el lenguaje fundamental que se utiliza en casi cualquier lugar. Para propósitos de programación general (es decir, funciones, para bucles, iteraciones, etc.), Python es una buena opción ya que ya está empaquetado con muchas bibliotecas (es decir, visualización, aprendizaje automático, etc.). Para un impulso adicional, conocer las líneas de comando proporciona beneficios adicionales, especialmente para ejecutar trabajos en entornos de nube.

Paso 3, este es el mejor momento para aprender algo de lenguaje para construir la base de la ciencia de datos. Para el software comercial, puede elegir entre SAS o SPSS. De las plataformas de código abierto, muchas personas eligen R o Python. Desde aquí, puede obtener conceptos sobre la manipulación / disputa de datos (es decir, datos de importación, agregación, datos dinámicos y tratamiento de valores perdidos). Después de esto, tiene la parte más divertida de aprender sus datos a partir de la visualización de datos (es decir, gráficos de barras, histogramas, gráficos circulares, mapas de calor y visualizaciones de mapas).

Paso 4, tiene la opción de elegir entre el aprendizaje automático aplicado o la ruta del ecosistema de big data. Tenga en cuenta que siempre puede volver a dominar otro camino más tarde. En mi caso, elijo aprender primero sobre el aprendizaje automático aplicado. Básicamente, cubre el aspecto de la construcción de un modelo de aprendizaje automático de un extremo a otro (es decir, desde la exploración de datos hasta la implementación del modelo). Para aprender sobre big data, cubriré más sobre dónde obtener esa educación (es decir, libros y cursos).

Paso 5, este es el paso más crucial para mostrar su potencial como candidato a científico de datos. Una vez que se familiarice con la ciencia de datos, debe tener una cartera de proyectos. Un portafolio de proyectos es su mejor oportunidad para mostrar lo que ha hecho a partir de sus experiencias laborales y de aprendizaje. A partir de la recopilación de datos (es decir, dónde recoger o extraer datos por su cuenta), plantee su hipótesis, realice un análisis exploratorio (es decir, extraiga algunas ideas interesantes), cree su (s) modelo (s) de aprendizaje automático y finalmente comparta sus hallazgos de redacción o presentaciones. En mi caso, hice tanto una redacción como un podcast de video trabajando en el proyecto final con un mentor asignado. Nunca podré enfatizar lo suficiente sobre la importancia de tener un mentor que pueda trabajar directamente contigo 1 a 1. Tu mentor es el mejor amigo para guiarte y pedirte ayuda cuando te quedas atascado en algunas ideas de proyectos, sintonizando tu modelo, comunicando tus resultados, etc. De hecho, algunas investigaciones mencionaron que tener un mentor puede impulsar su carrera cinco veces más que las personas sin un mentor (s).

Sección 3: ¿Cómo aprender ciencia de datos?

En esta sección, aprenderá a elegir los mejores recursos para convertirse en científico de datos. Quiero hacer recomendaciones basadas en mi experiencia de aprendizaje.

Para la educación SQL, el curso DAT201x ofrecido por Microsoft de Edx es una de las mejores opciones. El curso cubre los siguientes aspectos de SQL desde tipos de datos, filtrado, uniones, agregación (agrupar por), funciones de ventana y conceptos avanzados (es decir, procedimientos almacenados). El curso asegura que practique mucho utilizando el mejor almacén de datos de muestra (es decir, AdventureWorks). Alternativamente, puede utilizar la plataforma Mode Analytics para practicar y mejorar sus habilidades de SQL. Lo mejor de Mode Analytics es que no necesita tener un servidor SQL y un almacén de datos de muestra instalados en su máquina. Todo lo que necesita es tener una cuenta gratuita y conexión a Internet para disfrutar de su aprendizaje.

Para la educación en aprendizaje automático, hay dos opciones que me gusta recomendar. El primer curso es bien conocido por los profesionales de la ciencia de datos en el campo. Curso de aprendizaje automático de Andrew Ng de Coursera. Utilicé este curso para comprender conceptos básicos y consejos sobre cómo ajustar mis modelos de aprendizaje automático. Para la perspectiva de la experiencia de codificación, recomiendo encarecidamente este libro llamado Python Machine Learning 2nd edition de Sebastian Raschka. Realmente creo que este es el mejor libro de aprendizaje automático. Este libro le ayuda a comprender los mecanismos básicos de cada algoritmo, una gran cantidad de ejemplos de codificación y referencias complementarias (es decir, artículos de investigación). Lo mejor de este libro es que explica cómo implementar cada algoritmo de aprendizaje automático línea por línea con explicaciones detalladas. Esto es muy importante, como lo mencionan muchos científicos de datos, uno debería poder escribir la codificación desde cero y saber cómo implementarla. En estos días, hay muchos problemas complejos que no puede resolver directamente utilizando bibliotecas existentes de Python.

Aquí hay una lista completa de recursos a los que puede hacer referencia para aprender cada componente básico de la educación en ciencia de datos.

1. Matemáticas:

· Pista de matemáticas de Khan Academy

· MIT Open Courseware: álgebra lineal y cálculo

· Udacity: Estadística Inferencial e Inferencial

2. Kit de herramientas de ciencia de datos:

· SQL

o Edx: DAT201x – Consulta con Transact SQL

o Mode Analytics: Tutorial de SQL (Introducción a Avanzado)

o WiseOwl: Tutorial de SQL (Introducción a Avanzado)

· Línea de comando

o Libro: Ciencia de datos en la línea de comandos

· Codificación Python

o Udemy: Bootcamp completo de Python

o Libro: Aprende Python de la manera difícil (3.a edición)

o Libro: Automatizar cosas aburridas con Python

3. Aprendizaje automático:

· Coursera: Aprendizaje automático por Andrew Ng

· Coursera: Aprendizaje automático aplicado (U Michigan)

· Harvard: CS109 – Introducción a la ciencia de datos

· Libro: Python Machine Learning (2.ª edición) de Sebastian Raschka

· Libro: Python Machine Learning by Example

· Libro: Introducción al aprendizaje automático con Python

4. Big Data:

· Hadoop

o Libro: Hadoop The Definitive Guide

o Udacity: Introducción a Hadoop y MapReduce

o IBM: Insignia de aprendizaje de fundamentos de Hadoop

· Chispa – chispear

o Edx: Cursos UC Berkeley Spark (CS105, CS120)

o Datacamp: Introducción a PySpark, motor de recomendación de construcción en PySpark

o Libro: Aprendiendo PySpark, Análisis avanzado con Spark

Sección de bonificación: solicite ayuda y trabajo en red

Ahora, me gustaría terminar este artículo proporcionando algunos consejos adicionales. Al principio, como un entusiasta novato de la ciencia de datos, no necesariamente tiene un mentor que pueda guiar su experiencia de aprendizaje. Por lo tanto, necesita un lugar para solicitar opiniones y comentarios de la comunidad de ciencia de datos. Bueno, la buena noticia es que hay un par de foros en los que puedes pedir ayuda con tus problemas. Algunos sitios web como StackOverflow, Quora, etc. le permiten publicar su pregunta y recibir una respuesta a sus publicaciones.

Otro consejo está relacionado con la creación de redes. Esto realmente se aplica a cualquiera que realmente esté buscando nuevas oportunidades y establezca conexiones. En Toronto, hay muchas reuniones locales y grandes conferencias relacionadas con la ciencia de datos. Trate de asistir a tantos eventos como pueda y preséntese (es decir, motivación, objetivo, pasión). Además, si tiene la oportunidad de conectarse con oradores y organizadores de eventos, trabaje para establecer conexiones significativas con ellos. Creo que una de las tácticas útiles que aprendí de mi experiencia es buscar oportunidades para presentar mi cartera de proyectos en cualquier medio disponible. Lo que quise decir es la oportunidad de presentarse en reuniones locales o incluso un video webcast a través del horario de oficina de ciencia de datos remota. De esta experiencia, pude aprender de mis tontos errores y mejorar de una presentación a otra. Esto aporta mucho valor como candidato a científico de datos para ofrecer una presentación eficaz y poder comunicar claramente los conocimientos analíticos.

Gracias por leer este artículo. Espero que…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

CE3xB72VY678mUaEbBSeBQ 1200 80

Las mejores cámaras DSLR que puedes comprar ahora mismo

Safra A. Catz | Biografia ejecutiva