¿Qué hace un científico de datos a diario?

Visión general

¿Qué hace un científico de datos en el día a día? Una pregunta popular e imprescindible
Analizamos esta pregunta desde la perspectiva de un científico de datos por medio de la lente de 5 respuestas detalladas y reveladoras de científicos de datos experimentados.

Introducción

Soy una persona curiosa por naturaleza. Cada vez que me encuentro con un concepto del que no había oído hablar antes, no puedo esperar para profundizar y descubrir cómo funciona. Esto ha sido bastante útil en mi propio Ciencia de los datos viaje.

Pero antes de obtener mi primera posibilidad en la ciencia de datos, siempre sentí curiosidad por saber qué hacían los científicos de datos todos los días. ¿Se suponía que debía simplemente construir modelos todo el tiempo? ¿O el dicho a menudo citado sobre pasar del 70 al 80% de nuestro tiempo limpiando datos era verdaderamente cierto?

Estoy seguro de que además te preguntaste (o al menos te preguntaste) sobre esto. El papel de un científico de datos podría ser el «trabajo más sexy del siglo XXI», pero ¿qué implica eso en el día a día?

Decidí investigar esto. Quería expandir mis horizontes y comprender cómo los científicos de datos ven su papel en diferentes dominios (como la PNL). Esto me ayudó a comprender mejor nuestro papel y por qué siempre deberíamos leer diferentes perspectivas cuando se trata de ciencia de datos.

Entonces, aquí hay una lista de las 5 respuestas principales para ayudarlo a tener una idea de cuál es la rutina típica de un científico de datos. Prepárese para sorprenderse: ¡la creación de modelos no es la función principal (y única) en las tareas diarias de un científico de datos!

Además te animo a participar en un discusión sobre esta cuestión aquí. ¡Esto enriquecerá su comprensión actual de lo que hace un científico de datos y sus pensamientos fomentarán una discusión entre nuestra comunidad!

Nota: Tomé las respuestas textualmente de Quora y agregué mis pensamientos al comienzo de cada respuesta. Esto te ayudará a tener una buena perspectiva de lo que cubre la solución sin diluir los pensamientos del autor. ¡Disfrutar!

Me gusta esta respuesta debido a que es nítida, directa y sencilla. El autor inclusive ha diseñado un diagrama de flujo y ha explicado su procedimiento de pensamiento de una manera maravillosamente ilustrada. Aquí está su respuesta completa:

El aprendizaje automático está muy orientado a procesos. Por eso, siempre estoy en algún lugar de una de las imágenes a continuación:

Los ingenieros de aprendizaje automático pasan mucho tiempo en las dos primeras imágenes (o etapas). La parte divertida está verdaderamente en la tercera etapa, pero es solo una pequeña parte de lo que sucede en el mundo real.

Algunas cosas clave a prestar atención sobre la ciencia de datos en el mundo real:

Casi todo el aprendizaje automático aplicado está supervisado. Eso significa que construimos modelos contra conjuntos de datos estructurados.
La disputa de datos es una gran parte de lo que sucede en el mundo real
Cuando escuche la palabra supervisado, piense en clasificación y regresión. La mayoría de mis modelos son problemas de clasificación.
La construcción de modelos es aproximadamente el 20% de mi trabajo. ¡Sí, eso es todo!
Muchas pequeñas y medianas compañías no usan el aprendizaje profundoEl aprendizaje profundo, una subdisciplina de la inteligencia artificial, se basa en redes neuronales artificiales para analizar y procesar grandes volúmenes de datos. Esta técnica permite a las máquinas aprender patrones y realizar tareas complejas, como el reconocimiento de voz y la visión por computadora. Su capacidad para mejorar continuamente a medida que se le proporcionan más datos la convierte en una herramienta clave en diversas industrias, desde la salud... en absoluto. ¿Por qué? Debido a que los algoritmos de datos estructurados como XGBoost siempre ganan
Todo lo que hago es programático
La mayoría de los datos del mundo real residen en bases de datos relacionales. Será su trabajo elaborar consultas para extraer los datos que necesita
Big Data son datos no estructurados. Si tiene que construir sus modelos contra big data, necesitará aprender otro conjunto de habilidades
La nube llegó para quedarse. Utilizo BigQuery para mis datos estructurados verdaderamente grandes. La mayoría de los modelos grandes no se pueden construir en su computadora portátil
Las computadoras son monolingües. Solo hablan números. Cuando pasa datos a su modelo, está pasando un conjunto de datos numéricos altamente estructurados y bien depurados

Me gusta mucho el uso de la visualización por parte de Vinita. La descripción porcentual de cada tarea de ciencia de datos es útil y reveladora. Vinita además se ha apoyado en su experiencia para explicar el trabajo paso a paso que hace un científico de datos. ¡Es una respuesta de lectura obligada!

Contrariamente a la creencia popular, la ciencia de datos no es todo glamour. Los siguientes resultados de la encuesta de CrowdFlower resumen con precisión un día típico para un científico de datos:

Hay mucho retroceso involucrado. A veces, inclusive necesita poder predecir qué consecuencias podría tener borrar / agregar una variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.....

Recopilación de conjuntos de datos: Los datos son el sustento de la ciencia de datos, por lo que dedicamos mucho tiempo a seleccionarlos. En raras ocasiones, es factible que algunos proyectos ya tengan muchos datos
Limpieza y organización de datos: Este es el paso más largo y crucial de todo el procedimiento. Tiene un gran impacto en los resultados finales. Por lo general, después de este paso, la gran cantidad de datos se reduce, por lo que es factible que necesitemos compilar más datos para un entrenamientoEl entrenamiento es un proceso sistemático diseñado para mejorar habilidades, conocimientos o capacidades físicas. Se aplica en diversas áreas, como el deporte, la educación y el desarrollo profesional. Un programa de entrenamiento efectivo incluye la planificación de objetivos, la práctica regular y la evaluación del progreso. La adaptación a las necesidades individuales y la motivación son factores clave para lograr resultados exitosos y sostenibles en cualquier disciplina.... efectivo.
Procesamiento de datos: Es la práctica de examinar grandes bases de datos preexistentes para generar nueva información. Una vez que los datos están organizados y almacenados en bases de datos, en resumen podemos comenzar a obtener valor de ellos al hallar patrones dentro de los datos.
Creación de conjuntos de entrenamiento y conjuntos de prueba: Una vez que tengamos una cantidad decente de datos, tenemos que dividirlo en el conjunto de entrenamiento y el conjunto de prueba. Un conjunto de entrenamiento es un conjunto de datos que se usan para descubrir relaciones potencialmente predictivas. Contiene toda la información sobre la salida esperada. Un conjunto de prueba es un conjunto de datos que se usan para examinar la fuerza y la utilidad de una vinculación predictiva. Contiene variables mixtas
Refinamiento de algoritmos: Empezamos con un algoritmo esquelético. Es muy básico y establece aproximadamente qué resultado se espera. Después de algunas sesiones, se registra la exactitud, precisión, etc. y el algoritmo se refina para maximizar su eficiencia.

Esta es una respuesta excelente y con la que puedo identificarme. Tenga en cuenta que el aprendizaje automático, el aspecto más esperado del trabajo de un científico de datos, solo ocupa el 5% del tiempo total. Del mismo modo que Vinita, además ha explicado sus tareas en términos de porcentaje. Aquí está la opinión de Justin:

Tareas asociadas con la PNL (15%). No debe extrañarnos que la tecnología de corrección automática de PaperRater requiera un uso intensivo de analizadores sintácticos, etiquetadores, expresiones regulares y otras ventajas de la PNL como parte de los algoritmos centrales y los módulos de retroalimentación.
Aprendizaje automático (5%). Ésta suele ser la parte más agradable. Limpieza de datos, extracción / ingeniería / selección de características y construcción de modelos
Informes y análisis (10%). Ejecutar consultas, revisar análisis y ayudar con la toma de decisiones estratégicas
Administración de datos (5%). Configurar y administrar servidores de bases de datos, incluidos MySQL, Redis y MongoDB. Los proyectos más grandes pueden requerir Hadoop o Spark
Desarrollo de software general (40%). Muchos científicos de datos disponen experiencia en ciencias de la computación, por lo tanto espere colaborar si cuenta con una experiencia adecuada. Integración de API, desarrollo web y cualquier otro lugar donde pueda agregar valor. Inclusive en una startup de IA, la mayor parte del desarrollo no va a involucrar IA
Otro (25%). Esto incluye una amplia variedad de tareas, incluidas publicaciones en blogs, marketing, administración, documentación técnica, soporte técnico, copia del portal web, correos electrónicos, reuniones, etc.

El autor, Tim Kiely, utiliza un diagrama de Venn para explicar qué es la ciencia de datos. Solo eche un vistazo a este diagrama de Venn a continuación: lo dejará boquiabierto. Tim además habla sobre lo que se supone que son los científicos de datos al adoptar una visión un tanto contradictoria de la definición general. Aquí está la solución de Tim:

El «Data Scientist» es un poco un mito, en mi opinión. No quiere decir que no estén ahí fuera, pero son mucho más raros de lo que se entiende popularmente y son más la excepción que la regla.

Lo comparo con el título de «Web Master» de la burbuja de las puntocom: estas supuestas personas que podrían hacer programación completa, desarrollo de front-end, marketing, todo. Todos esos roles / habilidades siempre fueron especializados y lo siguen siendo hoy.

Se supone que los “científicos de datos” son arquitectos de bases de datos, entienden la computación distribuida, disponen un conocimiento profundo de las estadísticas Y de alguna área de negocio o experiencia en el campo. Eso es pedir mucho cuando cualquiera de esos conjuntos de habilidades puede tomar una carrera para construir.

Los científicos de datos con los que he trabajado suelen tener un doctorado. en inteligencia artificial o aprendizaje automático y son comunicadores efectivos, lo que les da la capacidad de dirigir a los analistas, personas de DevOps, programadores y administradores de bases de datos a su disposición para solucionar problemas con soluciones sustentadas en datos. Ellos describen la respuesta deseada y dejan que sus equipos llenen los vacíos.

Profundicemos en una especialización particular del aprendizaje automático. Uno de mis favoritos – Procesamiento del lenguaje natural (NLP)! Quería sacar a relucir la opinión de un ingeniero de aprendizaje automático aquí (un papel con el que todo científico de datos debería familiarizarse). Vea la solución completa de Evan:

Hoy en día trabajando en PNL, en su mayor parte, incluida la clasificación de intenciones y la extracción de entidades. Este es un día típico para mí:

Ponte a trabajar, abre GitHub y revisa el tablero de ZenHub (algo así como Jira, excepto que es mucho más genial). Tenía algunos modelos que estaban entrenando anoche en nuestros servidores y debería haber recibido un email que indicaba que terminaron. ¡Yo hice!
Probablemente pasaré unos minutos probando esos nuevos modelos y posteriormente ajustaré algunos parámetrosLos "parámetros" son variables o criterios que se utilizan para definir, medir o evaluar un fenómeno o sistema. En diversos campos como la estadística, la informática y la investigación científica, los parámetros son fundamentales para establecer normas y estándares que guían el análisis y la interpretación de datos. Su adecuada selección y manejo son cruciales para obtener resultados precisos y relevantes en cualquier estudio o proyecto...., posteriormente reiniciaré el procedimiento de entrenamiento
El resto del día suelo estar codificando, ya sea trabajando en una aplicación Python de back-end que proporcionará la inteligencia artificial para uno de nuestros productos, o implementando un nuevo algoritmo que quiero probar.
A modo de ejemplo, recientemente leí un post sobre recocido simulado acoplado (CSA) y quería probarlo para ajustar los parámetros para XGBoost como una alternativa a una búsqueda de cuadrícula. CSA es una forma generalizada de recocido simulado (SA), que es un algoritmo para aprovechar al máximo una función que no utiliza ninguna información sobre la derivada de la función.
Desafortunadamente, no pude hallar una implementación en Python, por lo tanto decidí escribir la mía propia. ¡Dos días después, había enviado mi primer paquete a PyPI!

Notas finales

El rol del científico de datos es verdaderamente multifacético, ¿no es así? MUCHOS aspirantes a científicos de datos asumen que principalmente construirán modelos durante todo el día, pero ese no es el caso.

Hay todo tipo de tareas involucradas en un proyecto típico de ciencia de datos en las que se encontrará trabajando día a día. Me gusta bastante debido a que abre caminos para aprender nuevos conceptos y aplicarlos en el mundo real.

Publicaré algunos posts más relacionados con la carrera en DataPeaker, ¡por lo tanto estad atentos y sigan aprendiendo!

Relacionado

Posteos recientes

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.

¿Qué hace un científico de datos a diario?

Contenidos

Visión general

Introducción

Notas finales

Relacionado

Posteos recientes

Estás mandando las imágenes de tus clientes a servidores de terceros sin decírselo. Y probablemente sea ilegal.

Impulsa la venta de vehículos eléctricos e híbridos con directorios en línea

Inteligencia artificial en vídeo: ¿cómo están cambiando las nuevas tecnologías la producción de vídeo?

IT profiles you should consider

¿Cómo grabar una pantalla en una computadora con Windows?

¿Do you know the seniority levels?

Suscribite a nuestro Newsletter

Gaming

Brands

Business

Idiomas

¿Qué hace un científico de datos a diario?

Contenidos

Visión general

Introducción

Notas finales

Relacionado

Posts Relacionados:

Posteos recientes

Estás mandando las imágenes de tus clientes a servidores de terceros sin decírselo. Y probablemente sea ilegal.

Impulsa la venta de vehículos eléctricos e híbridos con directorios en línea

Inteligencia artificial en vídeo: ¿cómo están cambiando las nuevas tecnologías la producción de vídeo?

IT profiles you should consider

¿Cómo grabar una pantalla en una computadora con Windows?

¿Do you know the seniority levels?

Suscribite a nuestro Newsletter

Gaming

Brands

Business

Idiomas