Big Data

Entenda o aprendizado de máquina | O que é aprendizado de máquina?

Este artigo foi publicado como parte do Data Science Blogathon.

O que é aprendizado de máquina?

Aprendizado de máquina: Aprendizado de máquina (ML) es un proceso altamente iterativo y ML Los modelos se aprenden de experiencias pasadas y también para analizar los datos históricos. O que mais, los modelos ML pueden identificar los patrones para hacer predicciones sobre el futuro del conjunto de datos dado.

C¿Por qué es importante el aprendizaje automático?

Dado que las 5V están dominando el mundo digital actual (volume, variedad, visibilidad de variación y valor), la mayoría de las industrias están desarrollando varios modelos para analizar su presencia y oportunidades en el mercado, basándose en este resultado, están entregando los mejores productos. servicios a sus clientes a gran escala.

¿Cuáles son las principales aplicaciones de aprendizaje automático?

Aprendizado de máquina (ML) es ampliamente aplicable en muchas industrias y la implementación y mejora de sus procesos. Atualmente, ML se ha utilizado en múltiples campos e industrias sin límites. O seguinte figura"Figura" é um termo usado em vários contextos, Da arte à anatomia. No campo artístico, refere-se à representação de formas humanas ou animais em esculturas e pinturas. Em anatomia, designa a forma e a estrutura do corpo. O que mais, em matemática, "figura" está relacionado a formas geométricas. Sua versatilidade o torna um conceito fundamental em várias disciplinas.... representa el área donde ML juega un papel vital.

¿Dónde está el aprendizaje automático en el espacio de la IA?

Solo eche un vistazo al Diagrama de Venn, podríamos entender dónde está el ML en el espacio de la IA y cómo se relaciona con otros componentes de la IA.

Como sabemos los Jargons que vuelan a nuestro alrededor, veamos rápidamente de qué habla exactamente cada componente.

¿Cómo se relacionan la ciencia de datos y el aprendizaje automático?

Proceso de aprendizaje automático, es el primer paso en el proceso de ML para tomar los datos de múltiples fuentes y seguido de un proceso de datos afinado, estos datos serían la fuente para los algoritmos de ML basados en la declaración del problema, como los modelos predictivos, de clasificación y otros que están disponibles en el espacio del mundo ML. Discutamos cada proceso uno por uno aquí.

Aprendizado de máquina – Etapas: Podemos dividir las etapas del proceso de AA en 5 como se menciona a continuación en el diagrama de flujo.

Conjunto de dados
Negociación de datos
Construção do modelo
Avaliação de modelo
Implantação de modelo

Identificación de los problemas comerciales, antes de pasar a las etapas anteriores. Então, debemos tener claro el objetivo del propósito de la implementación del ML. Encontrar la solución al problema dado / identificado. debemos recopilar los datos y realizar un seguimiento adecuado de las etapas siguientes.

Conjunto de dados

La recopilación de datos de diferentes fuentes puede ser interna y / o externa para satisfacer los requisitos / problemas comerciales. Los datos pueden estar en cualquier formato. CSV, XML.JSON, etc., aquí Big Data juega un papel vital para asegurarse de que los datos correctos estén en el formato y estructura esperados.

Negociación de datos y procesamiento de datos: El objetivo principal de esta etapa y enfoque son los siguientes.

Processamento de dados (EDA):

Comprender el conjunto de datos dado y ayudar a limpiar el conjunto de datos dado.
Le brinda una mejor comprensión de las características y las relaciones entre ellas
Extraer variables esenciales y dejar atrás / eliminar variables no esenciales.
Manejo de valores perdidos o error humano.
Identificación de valores atípicos.
El proceso de EDA maximizaría los conocimientos de un conjunto de datos.

Engenharia de funções:

Manejo de valores perdidos en las variables
Convierta categórico en numérico ya que la mayoría de los algoritmos necesitan características numéricas.
Necesita corregir no gaussiano (normal). Los modelos lineales asumen que las variables tienen distribución gaussiana.
Encontrar valores atípicos están presentes en los datos, por lo que truncamos los datos por encima de un umbral o transformamos los datos mediante la transformación de registros.
Escale las características. Esto es necesario para dar la misma importancia a todas las características y no más a aquella cuyo valor es mayor.
La ingeniería de características es un proceso costoso y que requiere mucho tiempo.
La ingeniería de características puede ser un proceso manual, se puede automatizar

a tela de configurações do calendárioO treinamento é um processo sistemático projetado para melhorar as habilidades, Conhecimento ou habilidades físicas. É aplicado em várias áreas, como esporte, Educação e desenvolvimento profissional. Um programa de treinamento eficaz inclui planejamento de metas, prática regular e avaliação do progresso. A adaptação às necessidades individuais e a motivação são fatores-chave para alcançar resultados bem-sucedidos e sustentáveis em qualquer disciplina.... y pruebas:

Los datos de entrenamiento se utilizan para asegurarse de que la máquina reconozca los patrones de los datos, se utiliza la validación cruzada de los datos para garantizar una mejor precisión y
la eficiencia del algoritmo que se utiliza para entrenar la máquina.
Los datos de prueba se utilizan para ver qué tan bien la máquina puede predecir nuevas respuestas en función de su entrenamiento.
El procedimiento de división de prueba de tren se utiliza para estimar el rendimiento de ML de los algoritmos cuando se utilizan para hacer predicciones sobre datos que no son
utilizado para entrenar el modelo.

Treinamento

Los datos de entrenamiento son el conjunto de datos en el que entrena el modelo.
Entrene datos de los que el modelo ha aprendido las experiencias.
Los conjuntos de entrenamiento se utilizan para ajustar y ajustar sus modelos.

Pruebas

Los datos de prueba son los datos que se utilizan para verificar si el modelo tiene
aprendió lo suficientemente bien de las experiencias que obtuvo en el conjunto de datos de trenes.
Conjuntos de prueba
son datos “invisibles” para evaluar sus modelos.

Datos del tren: Entrena nuestro algoritmo de aprendizaje automático
e depois verifique se o segundo parâmetro tem um valor: Depois de treinar o modelo, los datos de prueba se utilizan para probar su eficiencia y rendimiento del modelo.

El propósito del estado aleatorio en la división de prueba de tren: estado aleatorio asegura que el divisões que generas son reproducibles. a estado aleatorio que proporcionas se utiliza como semilla para el aleatória generador de números. Esto asegura que el aleatória los números se generan en el mismo orden.

Datos divididos en conjunto de entrenamiento / prova

Solíamos dividir un conjunto de datos en datos de entrenamiento y datos de prueba en el espacio de aprendizaje automático.
El rango dividido suele ser del 20% al 80% entre las etapas de prueba y entrenamiento del conjunto de datos dado.
Se gastaría una gran cantidad de datos para entrenar su modelo
El resto de la cantidad se puede gastar para evaluar su modelo de prueba.
Pero no puede mezclar / reutilizar los mismos datos para fines de entrenamiento y prueba
Si evalúa su modelo con los mismos datos que utilizó para entrenarlo, su modelo podría estar muy sobreajustado. Luego se plantea la cuestión de si los modelos pueden predecir nuevos datos.
Portanto, debe tener subconjuntos de prueba y entrenamiento separados de su conjunto de datos.

EVALUACIÓN DEL MODELO: Cada modelo tiene su propia mitología de evaluación de modelos, algunas de las mejores evaluaciones están aquí.

Evaluar la regresión Modelo.
1. Suma del error al cuadrado (SSE)
2. Raiz do erro quadrático médio (MSE)
3. Raiz do erro quadrático médio (RMSE)
4. Erro médio absoluto (MUITO DE)
5. Coeficiente de determinación (R2)
6. R2 ajustado
Evaluar Classificação Modelo.
1. Matriz de confusão.
2. Puntuación de precisión.
3. AUC y ROC.

Desdobramento, desenvolvimento de um ML-modelo simplemente significa la integración del modelo finalizado en un entorno de producción y la obtención de resultados para tomar decisiones comerciales.