Viaje de un novato de Python a un Kaggler en Python
Entonces tu pretendes conviértete en un científico de datos o puede ser que ya lo sea y desee ampliar su repositorio de herramientas. Ha aterrizado en el lugar correcto. El objetivo de esta página es proporcionar una ruta de aprendizaje integral a las personas nuevas en Python para la ciencia de datos. Esta ruta proporciona una descripción general completa de los pasos que debe aprender a utilizar. Python para la ciencia de datos. Si ya tiene algunos antecedentes, o no necesita todos los componentes, no dude en adaptar sus propios caminos y háganos saber cómo hizo los cambios en el camino.
Además puede consultar la versión mini de esta ruta de aprendizaje -> Infografía: Guía rápida para aprender ciencia de datos en Python.
¿Leyendo esto en 2019? Hemos diseñado un ruta de aprendizaje actualizada ¡para ti! Compruébelo en nuestro portal de cursos y comience hoy su viaje por la ciencia de datos.
Paso 0: Calentamiento
Antes de comenzar su viaje, la primera pregunta a responder es:
¿Por qué utilizar Python?
o
¿Cómo sería de utilidad Python?
Mira los primeros 30 minutos de este hablar de jeremy, Fundador de DataRobot en PyCon 2014, Ucrania, para tener una idea de lo útil que podría ser Python.
Paso 1: configuración de su máquina
Ahora que tomó una decisión, es hora de configurar su máquina. La forma más sencilla de proceder es simplemente descargar Anaconda de Continuum.io. Viene empaquetado con la mayoría de las cosas que necesitará. La principal desventaja de tomar esta ruta es que deberá esperar a que Continuum actualice sus paquetes, inclusive cuando puede haber una actualización disponible para las bibliotecas subyacentes. Si eres un principiante, eso no debería importar.
Si se enfrenta a algún desafío en la instalación, puede hallar más instrucciones detalladas para varios sistemas operativos aquí.
Paso 2: aprende los conceptos básicos del lenguaje Python
Debe comenzar por comprender los conceptos básicos del lenguaje, las bibliotecas y la estructura de datos. los gratis curso de DataPeaker en Python es uno de los mejores lugares para comenzar su viaje. Este curso se centra en cómo comenzar a usar Python para la ciencia de datos y, al final, debería sentirse cómodo con los conceptos básicos del lenguaje.
Asignación: Toma el impresionante curso gratuito de Python de DataPeaker
Recursos alternativos: Si la codificación interactiva no es su estilo de aprendizaje, además puede consultar The Clase de Google para Python. Es una serie de clases de 2 días y además cubre algunas de las partes que se comentan más adelante.
Paso 3: aprende expresiones regulares en Python
Deberá usarlos mucho para la limpieza de datos, especialmente si está trabajando con datos de texto. La mejor manera de aprender expresiones regulares es pasar por la clase de Google y mantener esto hoja de trucos práctico.
Asignación: Hacer el ejercicio de nombres de bebé
Si aún necesita más práctica, siga este tutorial para la limpieza de texto. Lo desafiará en varios pasos involucrados en la administración de datos.
Paso 4: Aprenda las bibliotecas científicas en Python: NumPy, SciPy, Matplotlib y Pandas
¡Aquí es donde comienza la diversión! Aquí hay una breve introducción a varias bibliotecas. Comencemos a practicar algunas operaciones comunes.
- Practica el Tutorial de NumPy a fondo, especialmente las matrices NumPy. Esto formará una buena base para lo que vendrá.
- A continuación, mire el Tutoriales de ciencia ficción. Repase la introducción y los conceptos básicos y haga los restantes según sus necesidades.
- Si adivinaste los tutoriales de Matplotlib a continuación, ¡estás equivocado! Son demasiado completos para nuestra necesidad aquí. En lugar de eso, mira esto cuaderno ipython hasta la línea 68 (dicho de otra forma, hasta las animaciones)
- En conclusión, echemos un vistazo a Pandas. Pandas proporciona la funcionalidad DataFrame (como R) para Python. Aquí es además donde debes pasar un buen rato practicando. Pandas se convertiría en la herramienta más eficaz para todos los análisis de datos de tamaño medio. Empiece con una breve introducción, 10 minutos para pandas. Después, pase a una descripción más detallada. tutorial sobre pandas.
Además puede consultar el análisis de datos exploratorios con Pandas y el análisis de datos con Pandas.
Recursos adicionales:
- Si necesita un libro sobre Pandas y NumPy, «Python para análisis de datos por Wes McKinney «
- Hay muchos tutoriales como parte de la documentación de Pandas. Puedes echarles un vistazo aquí
Asignación: Resuelve esto tarea del curso CS109 de Harvard.
Paso 5: visualización de datos eficaz
Pasa por esto formulario de conferencia CS109. Puede ignorar los 2 minutos iniciales, ¡pero lo que sigue es increíble! Siga esta conferencia con esta asignación.
Paso 6: Aprenda Scikit-learn y Machine Learning
Ahora, llegamos al meollo de todo este procedimiento. Scikit-learn es la biblioteca más útil en Python para el aprendizaje automático. Aquí hay una breve descripción de la biblioteca. Pasar de la lección 10 a la lección 18 de Curso CS109 de Harvard. Pasará por una descripción general del aprendizaje automático, algoritmos de aprendizaje supervisado como regresiones, árboles de decisión, modelado de conjuntos y algoritmos de aprendizaje no supervisados como la agrupación en clústeres. Siga conferencias individuales con el asignaciones de esas conferencias.
Además debería consultar el ‘Introducción a la ciencia de datosdesde luego para darse un gran impulso en su búsqueda para obtener un puesto de científico de datos.
Recursos adicionales:
Paso 7: practica, practica y practica
¡Felicitaciones, lo lograste!
Ahora tiene todo lo que necesita en habilidades técnicas. Es una cuestión de práctica y qué mejor lugar para practicar que competir con otros científicos de datos en el Plataforma DataHack. Ve, sumérgete en una de las competiciones en vivo que se llevan a cabo en este momento en DataHack y Kaggle y prueba todo lo que has aprendido.
Paso 8: aprendizaje profundo
Ahora que ha aprendido la mayoría de las técnicas de aprendizaje automático, es hora de darle una posibilidad al aprendizaje profundo. Es muy probable que ya sepa qué es el aprendizaje profundo, pero si aún necesita una breve introducción, aquí está.
Yo mismo soy nuevo en el aprendizaje profundo, por lo tanto tome estas sugerencias con cautela. El recurso más completo es deeplearning.net. Aquí encontrará todo: conferencias, conjuntos de datos, desafíos, tutoriales. Además puedes probar el curso de Geoff Hinton un intento en un intento por comprender los conceptos básicos de las redes neuronales.
Comience con Python: Un tutorial completo para aprender ciencia de datos con Python desde cero
PD En caso de que necesite usar bibliotecas de Big Data, pruebe Pydoop y PyMongo. No se incluyen aquí, puesto que la ruta de aprendizaje de Big Data es un tema completo en sí mismo.