Etapas para concluir um projeto de aprendizado de máquina

Introdução

80329roadmap-9726882 — Flujo de trabajo del proyecto de aprendizaje automático

1. Coleta de dados

¿Qué tipo de problema estamos tratando de resolver?
¿Qué fuentes de datos ya existen?
¿Qué problemas de privacidad existen?
¿Son públicos los datos?
¿Dónde debemos almacenar los archivos?

Dados estruturados: aparecen en formato tabulado (estilo de filas y columnas, como lo que encontraría en una hoja de cálculo de Excel). Contiene diferentes tipos de datos, por exemplo, series de tiempo numéricas, categóricas.

· Nominal / categórico – Una cosa u otra (mutuamente excluyentes). Por exemplo, para las básculas de automóviles, el color es una categoría. Un automóvil puede ser azul pero no blanco. No importa un pedido.

Numérico: Cualquier valor continuo donde la diferencia entre ellos importa. Por exemplo, al vender casas, $ 107,850 é mais que $ 56,400.

Ordinal: Datos que tienen orden pero se desconoce la distancia entre valores. Por exemplo, una pregunta como, ¿cómo calificaría su salud del 1 al 5? 1 siendo pobre, 5 saludable. Puede responder 1, 2, 3, 4, 5, pero la distancia entre cada valor no significa necesariamente que una respuesta de 5 sea cinco veces más buena que una respuesta de 1. Séries Temporais: datos a lo largo del tiempo. Por exemplo, los valores históricos de venta de las topadoras de 2012 uma 2018.

Séries Temporais: Datos a lo largo del tiempo. Por exemplo, los valores históricos de venta de las topadoras de 2012 uma 2018.

Dados não estruturados: Datos sin estructura rígida (imagens, vídeo, voz, Talvez uma analogia melhor seria
texto de idioma)

2. Preparação de dados

Análise exploratória de dados (EDA), aprender sobre los datos con los que está trabajando

¿Cuáles son las variables de características (entrada) y la variable de destino (Saída)? Por exemplo, para predecir una enfermedad cardíaca, las variables características pueden ser la edad, el peso, la frecuencia cardíaca promedio y el nivel de actividad física de una persona. Y la variable objetivo será si tienen o no una enfermedad.
¿Qué tipo de tienes? Series temporales estructuradas, no estructuradas, numéricas. ¿Faltan valores? En caso de que los elimine o los complete, la función de imputación.
¿Dónde están los valores atípicos? Cuantos de ellos hay? ¿Por qué están ellos ahí? ¿Hay alguna pregunta que pueda hacerle a un experto en el dominio sobre los datos? Por exemplo, ¿podría un médico especialista en enfermedades cardíacas arrojar algo de luz sobre su conjunto de datos de enfermedades cardíacas?

Pré-processamento de dados, preparación de sus datos para modelarlos.

Función de imputación: completar los valores faltantes (un modelo de aprendizaje automático no puede aprender
en datos que no están ahí)

Imputación única: Llenar con media, una mediana de la columna.
Múltiples imputaciones: Modele otros valores perdidos y con lo que encuentre su modelo.
KNN (k vecinos más cercanos): Complete los datos con un valor de otro ejemplo que sea similar.
Muchos más, como la imputación aleatoria, la última observación llevada adelante (para series de tiempo), la ventana móvil y las más frecuentes.

Codificación de funciones (convertir valores en números). Un modelo de aprendizaje automático
requiere que todos los valores sean numéricos)

Uma codificação quente: Convierta todos los valores únicos en listas de ceros y unos donde el valor objetivo es 1 y el resto son ceros. Por exemplo, cuando un automóvil colorea verde, vermelho, azul, verde, el futuro del color del automóvil se representaría como [1, 0, e 0] y una roja seria [0, 1, e 0].

Codificador de etiquetas: Convierta las etiquetas en valores numéricos distintos. Por exemplo, si sus variables objetivo son animales diferentes, como perro, gato, pájaro, estos podrían convertirse en 0, 1 e 2, respectivamente.

Codificación de incrustación: Aprenda una representación entre todos los diferentes puntos de datos. Por exemplo, un modelo de lenguaje es una representación de cómo diferentes palabras se relacionan entre sí. La incrustación también está cada vez más disponible para datos estructurados (tabulares).

Normalización de funciones (escalado) o estandarización: Cuando las variables numéricas están en diferentes escalas (por exemplo, el número_de_bathroom está entre 1 e 5 y el tamaño_of_land entre 500 e 20000 pés quadrados), algunos algoritmos de aprendizaje automático no funcionan muy bien. El escalado y la estandarización ayudan a solucionar este problema.

Engenharia de funções: transformar los datos en una representación (potencialmente) más significativa al agregar conocimiento del dominio

Descomponer
Discretização: convertir grupos grandes en grupos más pequeños
Funciones de cruce e interacción: combinación de dos o más funciones
Las características del indicador: usar otras partes de los datos para indicar algo potencialmente significativo

Seleção de recursos: seleccionando
las características más valiosas de su conjunto de datos para modelar. Potencialmente reduciendo el tiempo de entrenamiento y sobreajuste (menos datos generales y menos datos redundantes para entrenar) y mejorando la precisión.

Redução de dimensionalidade: Un método común de reducción de dimensionalidad, PCA o análisis de componentes principales toma una gran cantidad de dimensiones (caracteristicas) y usa álgebra lineal para reducirlas a menos dimensiones. Por exemplo, supongamos que tiene 10 funciones numéricas, podría ejecutar PCA para reducirlo a 3.
Importancia de la función (modelado posterior): Ajuste un modelo a un conjunto de datos, luego inspeccione qué características fueron más importantes para los resultados, elimine las menos importantes.
Métodos de envoltura como los algoritmos genéticos y la eliminación de características recursivas implican crear grandes subconjuntos de opciones de características y luego eliminar las que no importan.

Hacer frente a los desequilibrios: ¿Sus datos tienen 10,000 ejemplos de una clase pero solo 100 ejemplos de otra?

Recopile más datos (si puede)
Utilice el paquete scikit-learn-contrib imbalanced- aprender
Utilice SMOTE: técnica sintética de sobremuestreo de minorías. Crea muestras sintéticas de tu clase menor para intentar nivelar el campo de juego.
Un artículo útil para mirar es “Aprendiendo de los datos desequilibrados”.

Conjunto de entrenamiento (geralmente 70-80% dos dados): el modelo aprende sobre esto.
Conjunto de validación (normalmente del 10 al 15% dos dados): los hiperparámetros del modelo se ajustan a este
Conjunto de prueba (normalmente entre el 10% e ele 15% dos dados): el rendimiento final de los modelos se evalúa sobre esta base. Si lo ha hecho bien, es de esperar que los resultados del conjunto de prueba den una buena indicación de cómo debería funcionar el modelo en el mundo real. No utilice este conjunto de datos para ajustar el modelo.

3. Entrene el modelo sobre los datos (3 Passos: elija un algoritmo, ajustar o modelo, reduzca el ajuste con regularización)

Algoritmos supervisados: regressão linear, Regressão logística, KNN, SVM, árbol de decisiones y bosques aleatorios, AdaBoost / Gradient Boosting Machine (impulso)
Algoritmos no supervisados: agrupamento, redução de dimensionalidade (PCA, O desempenho é exibido como gráficos de dispersão e caixa, t-SNE), detecção de anomalia

Aprendizaje por lotes
Aprender en línea
Aprendizagem de transferência
Aprendizaje activo
conjunto

Desajuste – ocurre cuando su modelo no funciona tan bien como le gustaría en sus datos. Intente entrenar para un modelo más largo o más avanzado.

Sobreajuste– ocurre cuando la pérdida de validación comienza a aumentar o cuando el modelo funciona mejor en el conjunto de entrenamiento que en el de prueba.

Regularização: una colección de tecnologías para prevenir / reducir el sobreajuste (por exemplo, L1, L2, Abandono, Parada anticipada, Aumento de dados, Normalización de lotes)

Ajuste de hiperparâmetros – Ejecute un montón de experimentos con diferentes configuraciones y vea cuál funciona mejor

4. Análise / Avaliação

Classificação: precisão, precisão, Recuperação, F1, matriz de confusão, precisión media media (detecção de objeto)
Regressão – MSE, MUITO DE, R ^ 2
Métrica basada en tareas: por exemplo, para el automóvil autónomo, es posible que desee saber el número de desconexiones

Importância do recurso
Treinamento / tiempo de inferencia / custo
¿Qué pasa si la herramienta: cómo se compara mi modelo con otros modelos?
Ejemplos menos seguros: ¿en qué se equivoca el modelo?
Compensación de sesgo / variância

5. Modelo de servicio (implementación de un modelo)

Pon el modelo en Produção y mira como te va.
Instrumentos que puede utilizar: TensorFlow Servinf, PyTorch Serving, Google AI Platform, Sagemaker
MLOps: donde la ingeniería de software se encuentra con el aprendizaje automático, esencialmente toda la tecnología requerida en torno a un modelo de aprendizaje automático para que funcione en producción

6. Volver a entrenar modelo

Vea cómo funciona el modelo después de la publicación (o antes de la publicación) en función de varias métricas de evaluación y vuelva a consultar los pasos anteriores según sea necesario (lembrar, el aprendizaje automático es muy experimental, por lo que aquí es donde querrá realizar un seguimiento de sus datos y experimentos.

También encontrará que las predicciones de su modelo comienzan a ‘envejecer’ (generalmente no en un estilo elegante) o ‘derivar’, como cuando las fuentes de datos cambian o se actualizan (nuevo hardware, etc.). Aquí es cuando querrás volver a entrenarlo.