Visión general
- ¿Qué hace un científico de datos en el día a día? Una pregunta popular e imprescindible
- Analizamos esta pregunta desde la perspectiva de un científico de datos por medio de la lente de 5 respuestas detalladas y reveladoras de científicos de datos experimentados.
Introducción
Soy una persona curiosa por naturaleza. Cada vez que me encuentro con un concepto del que no había oído hablar antes, no puedo esperar para profundizar y descubrir cómo funciona. Esto ha sido bastante útil en mi propio Ciencia de los datos viaje.
Pero antes de obtener mi primera posibilidad en la ciencia de datos, siempre sentí curiosidad por saber qué hacían los científicos de datos todos los días. ¿Se suponía que debía simplemente construir modelos todo el tiempo? ¿O el dicho a menudo citado sobre pasar del 70 al 80% de nuestro tiempo limpiando datos era verdaderamente cierto?
Estoy seguro de que además te preguntaste (o al menos te preguntaste) sobre esto. El papel de un científico de datos podría ser el «trabajo más sexy del siglo XXI», pero ¿qué implica eso en el día a día?
Decidí investigar esto. Quería expandir mis horizontes y comprender cómo los científicos de datos ven su papel en diferentes dominios (como la PNL). Esto me ayudó a comprender mejor nuestro papel y por qué siempre deberíamos leer diferentes perspectivas cuando se trata de ciencia de datos.
Entonces, aquí hay una lista de las 5 respuestas principales para ayudarlo a tener una idea de cuál es la rutina típica de un científico de datos. Prepárese para sorprenderse: ¡la creación de modelos no es la función principal (y única) en las tareas diarias de un científico de datos!
Además te animo a participar en un discusión sobre esta cuestión aquí. ¡Esto enriquecerá su comprensión actual de lo que hace un científico de datos y sus pensamientos fomentarán una discusión entre nuestra comunidad!
Nota: Tomé las respuestas textualmente de Quora y agregué mis pensamientos al comienzo de cada respuesta. Esto te ayudará a tener una buena perspectiva de lo que cubre la solución sin diluir los pensamientos del autor. ¡Disfrutar!
Me gusta esta respuesta debido a que es nítida, directa y sencilla. El autor inclusive ha diseñado un diagrama de flujo y ha explicado su procedimiento de pensamiento de una manera maravillosamente ilustrada. Aquí está su respuesta completa:
El aprendizaje automático está muy orientado a procesos. Por eso, siempre estoy en algún lugar de una de las imágenes a continuación:
Los ingenieros de aprendizaje automático pasan mucho tiempo en las dos primeras imágenes (o etapas). La parte divertida está verdaderamente en la tercera etapa, pero es solo una pequeña parte de lo que sucede en el mundo real.
Algunas cosas clave a prestar atención sobre la ciencia de datos en el mundo real:
- Casi todo el aprendizaje automático aplicado está supervisado. Eso significa que construimos modelos contra conjuntos de datos estructurados.
- La disputa de datos es una gran parte de lo que sucede en el mundo real
- Cuando escuche la palabra supervisado, piense en clasificación y regresión. La mayoría de mis modelos son problemas de clasificación.
- La construcción de modelos es aproximadamente el 20% de mi trabajo. ¡Sí, eso es todo!
- Muchas pequeñas y medianas compañías no usan el aprendizaje profundo en absoluto. ¿Por qué? Debido a que los algoritmos de datos estructurados como XGBoost siempre ganan
- Todo lo que hago es programático
- La mayoría de los datos del mundo real residen en bases de datos relacionales. Será su trabajo elaborar consultas para extraer los datos que necesita
- Big Data son datos no estructurados. Si tiene que construir sus modelos contra big data, necesitará aprender otro conjunto de habilidades
- La nube llegó para quedarse. Utilizo BigQuery para mis datos estructurados verdaderamente grandes. La mayoría de los modelos grandes no se pueden construir en su computadora portátil
- Las computadoras son monolingües. Solo hablan números. Cuando pasa datos a su modelo, está pasando un conjunto de datos numéricos altamente estructurados y bien depurados
Me gusta mucho el uso de la visualización por parte de Vinita. La descripción porcentual de cada tarea de ciencia de datos es útil y reveladora. Vinita además se ha apoyado en su experiencia para explicar el trabajo paso a paso que hace un científico de datos. ¡Es una respuesta de lectura obligada!
Contrariamente a la creencia popular, la ciencia de datos no es todo glamour. Los siguientes resultados de la encuesta de CrowdFlower resumen con precisión un día típico para un científico de datos:
Hay mucho retroceso involucrado. A veces, inclusive necesita poder predecir qué consecuencias podría tener borrar / agregar una variable.
- Recopilación de conjuntos de datos: Los datos son el sustento de la ciencia de datos, por lo que dedicamos mucho tiempo a seleccionarlos. En raras ocasiones, es factible que algunos proyectos ya tengan muchos datos
- Limpieza y organización de datos: Este es el paso más largo y crucial de todo el procedimiento. Tiene un gran impacto en los resultados finales. Por lo general, después de este paso, la gran cantidad de datos se reduce, por lo que es factible que necesitemos compilar más datos para un entrenamiento efectivo.
- Procesamiento de datos: Es la práctica de examinar grandes bases de datos preexistentes para generar nueva información. Una vez que los datos están organizados y almacenados en bases de datos, en resumen podemos comenzar a obtener valor de ellos al hallar patrones dentro de los datos.
- Creación de conjuntos de entrenamiento y conjuntos de prueba: Una vez que tengamos una cantidad decente de datos, tenemos que dividirlo en el conjunto de entrenamiento y el conjunto de prueba. Un conjunto de entrenamiento es un conjunto de datos que se usan para descubrir relaciones potencialmente predictivas. Contiene toda la información sobre la salida esperada. Un conjunto de prueba es un conjunto de datos que se usan para examinar la fuerza y la utilidad de una vinculación predictiva. Contiene variables mixtas
- Refinamiento de algoritmos: Empezamos con un algoritmo esquelético. Es muy básico y establece aproximadamente qué resultado se espera. Después de algunas sesiones, se registra la exactitud, precisión, etc. y el algoritmo se refina para maximizar su eficiencia.
Esta es una respuesta excelente y con la que puedo identificarme. Tenga en cuenta que el aprendizaje automático, el aspecto más esperado del trabajo de un científico de datos, solo ocupa el 5% del tiempo total. Del mismo modo que Vinita, además ha explicado sus tareas en términos de porcentaje. Aquí está la opinión de Justin:
- Tareas asociadas con la PNL (15%). No debe extrañarnos que la tecnología de corrección automática de PaperRater requiera un uso intensivo de analizadores sintácticos, etiquetadores, expresiones regulares y otras ventajas de la PNL como parte de los algoritmos centrales y los módulos de retroalimentación.
- Aprendizaje automático (5%). Ésta suele ser la parte más agradable. Limpieza de datos, extracción / ingeniería / selección de características y construcción de modelos
- Informes y análisis (10%). Ejecutar consultas, revisar análisis y ayudar con la toma de decisiones estratégicas
- Administración de datos (5%). Configurar y administrar servidores de bases de datos, incluidos MySQL, Redis y MongoDB. Los proyectos más grandes pueden requerir Hadoop o Spark
- Desarrollo de software general (40%). Muchos científicos de datos disponen experiencia en ciencias de la computación, por lo tanto espere colaborar si cuenta con una experiencia adecuada. Integración de API, desarrollo web y cualquier otro lugar donde pueda agregar valor. Inclusive en una startup de IA, la mayor parte del desarrollo no va a involucrar IA
- Otro (25%). Esto incluye una amplia variedad de tareas, incluidas publicaciones en blogs, marketing, administración, documentación técnica, soporte técnico, copia del portal web, correos electrónicos, reuniones, etc.
El autor, Tim Kiely, utiliza un diagrama de Venn para explicar qué es la ciencia de datos. Solo eche un vistazo a este diagrama de Venn a continuación: lo dejará boquiabierto. Tim además habla sobre lo que se supone que son los científicos de datos al adoptar una visión un tanto contradictoria de la definición general. Aquí está la solución de Tim:
El «Data Scientist» es un poco un mito, en mi opinión. No quiere decir que no estén ahí fuera, pero son mucho más raros de lo que se entiende popularmente y son más la excepción que la regla.
Lo comparo con el título de «Web Master» de la burbuja de las puntocom: estas supuestas personas que podrían hacer programación completa, desarrollo de front-end, marketing, todo. Todos esos roles / habilidades siempre fueron especializados y lo siguen siendo hoy.
Se supone que los “científicos de datos” son arquitectos de bases de datos, entienden la computación distribuida, disponen un conocimiento profundo de las estadísticas Y de alguna área de negocio o experiencia en el campo. Eso es pedir mucho cuando cualquiera de esos conjuntos de habilidades puede tomar una carrera para construir.
Los científicos de datos con los que he trabajado suelen tener un doctorado. en inteligencia artificial o aprendizaje automático y son comunicadores efectivos, lo que les da la capacidad de dirigir a los analistas, personas de DevOps, programadores y administradores de bases de datos a su disposición para solucionar problemas con soluciones sustentadas en datos. Ellos describen la respuesta deseada y dejan que sus equipos llenen los vacíos.
Profundicemos en una especialización particular del aprendizaje automático. Uno de mis favoritos – Procesamiento del lenguaje natural (NLP)! Quería sacar a relucir la opinión de un ingeniero de aprendizaje automático aquí (un papel con el que todo científico de datos debería familiarizarse). Vea la solución completa de Evan:
Hoy en día trabajando en PNL, en su mayor parte, incluida la clasificación de intenciones y la extracción de entidades. Este es un día típico para mí:
- Ponte a trabajar, abre GitHub y revisa el tablero de ZenHub (algo así como Jira, excepto que es mucho más genial). Tenía algunos modelos que estaban entrenando anoche en nuestros servidores y debería haber recibido un email que indicaba que terminaron. ¡Yo hice!
- Probablemente pasaré unos minutos probando esos nuevos modelos y posteriormente ajustaré algunos parámetros, posteriormente reiniciaré el procedimiento de entrenamiento
- El resto del día suelo estar codificando, ya sea trabajando en una aplicación Python de back-end que proporcionará la inteligencia artificial para uno de nuestros productos, o implementando un nuevo algoritmo que quiero probar.
- A modo de ejemplo, recientemente leí un post sobre recocido simulado acoplado (CSA) y quería probarlo para ajustar los parámetros para XGBoost como una alternativa a una búsqueda de cuadrícula. CSA es una forma generalizada de recocido simulado (SA), que es un algoritmo para aprovechar al máximo una función que no utiliza ninguna información sobre la derivada de la función.
- Desafortunadamente, no pude hallar una implementación en Python, por lo tanto decidí escribir la mía propia. ¡Dos días después, había enviado mi primer paquete a PyPI!
Notas finales
El rol del científico de datos es verdaderamente multifacético, ¿no es así? MUCHOS aspirantes a científicos de datos asumen que principalmente construirán modelos durante todo el día, pero ese no es el caso.
Hay todo tipo de tareas involucradas en un proyecto típico de ciencia de datos en las que se encontrará trabajando día a día. Me gusta bastante debido a que abre caminos para aprender nuevos conceptos y aplicarlos en el mundo real.
Publicaré algunos posts más relacionados con la carrera en DataPeaker, ¡por lo tanto estad atentos y sigan aprendiendo!