Introducción
Google «trabajos de PNL» y aparece un número notable de búsquedas relevantes. ¡Hay empresas que están surgiendo en todo el mundo que se ocupan exclusivamente de los roles de procesamiento del lenguaje natural (PNL)! La demanda de la industria de expertos en PNL nunca ha sido tan alta, y se espera que aumente exponencialmente en los próximos años.
Pero el lado de la oferta se está quedando corto. Los novatos e incluso las personas con experiencia que quieren conseguir un puesto basado en la PNL están luchando por entrar en la industria. Podemos señalar una de las áreas de mayor dolor: la falta de aprendizaje estructurado.
Hay demasiados recursos en estos días que cubren los conceptos de PNL, pero la mayoría de ellos lo hacen de manera dispersa. Los recién llegados tienden a leer artículos y libros, analizar varios blogs y videos, y terminan luchando por reconstruir una comprensión de un extremo a otro.
¡Aquí es donde entra en juego nuestro camino de aprendizaje de PNL! ¡Estamos encantados de presentar una ruta de aprendizaje integral y estructurada para ayudarlo a aprender y dominar la PNL desde cero en 2020!
Esta ruta de aprendizaje ha sido seleccionada por expertos de DataPeaker que han pasado por cientos de recursos para seleccionarlo para nuestra comunidad. ¡Sigue este camino en 2020 y pronto estarás a punto de conseguir un puesto en el dominio de la PNL!
Nuestro marco para la ruta de aprendizaje de PNL
Estructura: es el núcleo de todo lo que hacemos. Nuestras rutas de aprendizaje son populares tanto por su estructura como por su naturaleza integral. Así es como hemos desglosado cada mes de la ruta de aprendizaje de PNL para ayudarlo a planificar su viaje de aprendizaje:
- Objetivo: ¿Qué aprenderás en ese mes? ¿Cuáles son las conclusiones clave? ¿Cómo progresará su viaje a la PNL? Mencionamos esto al comienzo de cada mes para asegurarnos de que sepa dónde se encuentra y dónde estará al final de ese mes en particular.
- Hora sugerida: Cuánto tiempo en promedio debe dedicar a esa sección por semana
- Recursos para aprender: Una colección de los principales recursos para los temas de PNL que aprenderá en ese mes. Esto incluye artículos, tutoriales, videos, trabajos de investigación y otros recursos similares.
¿Busca otras rutas de aprendizaje en ciencia de datos? Tu espera ha terminado:
¡Vamos a sumergirnos en ello!
Mes 0: requisitos previos (opcional)
Objetivo: Esto es para todos los que aún no están familiarizados con Python y Data Science. A finales de este mes, debería tener una idea clara sobre los componentes básicos del aprendizaje automático y cómo programar en Python.
Hora sugerida: 6 horas / semana
Python para la ciencia de datos:
Aprender estadísticas:
Preparación de datos:
Regresión lineal:
Regresión logística:
Algoritmo de árbol de decisión:
Validación cruzada de K-fold:
Descomposición de valores singulares (SVD):
Mes 1: sentirse cómodo con los datos de texto
Objetivo: ¡Y nos vamos! Este mes se trata de que se familiarice y se sienta cómodo con las técnicas básicas de preprocesamiento de texto. Debería poder crear un modelo de clasificación de texto al final de esta sección.
Hora sugerida: 5 horas / semana
Cargar datos de texto de varias fuentes:
Aprenda a usar expresiones regulares:
Procesamiento previo de texto:
Análisis exploratorio de datos de texto:
Extraer metacaracterísticas del texto:
Proyecto:
- Construya un modelo de clasificación de texto usando meta características. Puede utilizar el conjunto de datos del problema de práctica Identificar los sentimientos
Mes 2 – Lingüística computacional y vectores de palabras
Objetivo: Este mes empezarás a ver la magia de la PNL. Aprenderá cómo se puede utilizar la gramática inglesa para extraer información clave del texto. También trabajará con vectores de palabras, una técnica avanzada para crear características a partir de texto.
Hora sugerida: 5 horas / semana
Extraer características lingüísticas:
- Etiquetado de parte del discurso usando spaCy:
- Reconocimiento de entidad nombrada usando spaCy:
- Análisis de dependencia de Stanford:
Representación de texto en el espacio vectorial:
Modelado de temas:
Extracción de información:
Proyectos:
- Cree un modelo de detección de sentimientos utilizando incrustaciones de Word. Puede utilizar el conjunto de datos del problema de práctica Identificar los sentimientos
- Categorizar artículos de noticias mediante el modelado de temas
Mes 3 – Actualización de aprendizaje profundo para PNL
Objetivo: El aprendizaje profundo está en el corazón de los desarrollos y avances recientes en la PNL. Desde BERT de Google hasta GPT-2 de OpenAI, todos los entusiastas de la PNL deben tener al menos una comprensión básica de cómo funciona el aprendizaje profundo para impulsar estos marcos de PNL de vanguardia. Así que este mes, se centrará en los conceptos, algoritmos y herramientas relacionados con el aprendizaje profundo.
Hora sugerida: 5 horas / semana
Redes neuronales:
Algoritmos de optimización:
Redes neuronales recurrentes (RNN) y LSTM:
- Una introducción amistosa a los RNN:
Introducción a PyTorch:
Mes 4 – Modelos de aprendizaje profundo para PNL
Objetivo: Ahora que tiene una idea del aprendizaje profundo y cómo se aplica en el contexto de la PNL, es hora de llevar las cosas a un nivel superior. Sumérjase en conceptos avanzados de aprendizaje profundo como redes neuronales recurrentes (RNN), memoria a corto plazo a largo plazo (LSTM), entre otros. Estos le ayudarán a dominar los casos de uso de PNL de nivel industrial.
Hora sugerida: 5 horas / semana
Redes neuronales recurrentes (RNN) para clasificación de texto:
Modelos de CNN para PNL:
Proyectos:
- Construya un modelo para encontrar entidades nombradas en el texto usando LSTM. Puede obtener el conjunto de datos de aquí
Mes 5 – Modelado secuencial
Objetivo: En este mes, aprenderá a utilizar modelos secuenciales que tratan con secuencias como entradas y / o salidas. ¡Un concepto muy útil en PNL como pronto descubrirás!
Hora sugerida: 5 horas / semana
Modelado de idiomas:
- Modelos de lenguaje y RNN de Stanford:
Modelado secuencia a secuencia:
Proyectos:
- Entrenar un modelo de lenguaje en Conjunto de datos de correo electrónico de Enron para construir un sistema de autocompletado
- Cree un modelo de traducción automática neuronal (del inglés a cualquier idioma que elija)
Mes 6 – Transferir el aprendizaje en PNL
Objetivo: El aprendizaje por transferencia está de moda en la PNL en este momento. De hecho, esto ha ayudado a democratizar los marcos de PNL de última generación con los que se habría encontrado antes. Este mes presenta BERT, GPT-2, ULMFiT y Transformers.
Hora sugerida: 5 horas / semana
ULMFiT:
Transformadores:
Modelos de idiomas grandes previamente entrenados (BERT y GPT-2):
Ajuste de modelos pre-entrenados:
Mes 7: chatbots y procesamiento de audio
Objetivo: Aprenderá a crear un chatbot o un agente conversacional este mes. Una vez que haya dominado la PNL, la próxima frontera que puede abordar es el procesamiento de audio.
Hora sugerida: 5 horas / semana
Chatbots:
Procesamiento de audio:
Proyecto:
- Construye un chatbot con interfaz de voz usando Rasa
Infografía – Ruta de aprendizaje de PNL para 2020
A nuestra comunidad le encantan las infografías que diseñamos para cada ruta de aprendizaje. Estas infografías tienen dos propósitos principales:
- Nos ayudan a visualizar la estructura de cómo aprenderemos diferentes temas.
- Se pueden utilizar como listas de verificación para marcar conceptos a medida que avanza en su camino hacia la PNL.
Por lo tanto, ¡estamos encantados de presentar a continuación la infografía de la ruta de aprendizaje de PNL para 2020! Puede descargar una versión de alta resolución desde aquí.