Fonte: https://www.serokell.io
Na foto acima, puede ver que los correos electrónicos se clasifican como spam o no. Então, es un ejemplo de clasificación (classificação binária).
1. Regressão logística
2. Bayes ingenuo
3. Vizinhos mais próximos
5. Árvore de decisão
Veremos todos los algoritmos con un pequeño código aplicado en el conjunto de datos del iris que se utiliza para las tareas de clasificación. O conjunto de dados tem 150 instancias (filas), 4 caracteristicas (colunas) y no contiene ningún valor nulo. Existem 3 clases en el conjunto de datos de iris:
– Silky Iris
– Iris Versicolor
– Iris Virginica
Es un algoritmo de clasificación muy básico pero importante en el aprendizaje automático que utiliza una o más variables independientes para establecer un resultado. La regresión logística intenta hallar la vinculación que mejor se ajuste entre la variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... dependiente y un conjunto de variables independientes. La línea que mejor se ajusta en este algoritmo se parece a la forma de S, como se muestra en la figura"Figura" é um termo usado em vários contextos, Da arte à anatomia. No campo artístico, refere-se à representação de formas humanas ou animais em esculturas e pinturas. Em anatomia, designa a forma e a estrutura do corpo. O que mais, em matemática, "figura" está relacionado a formas geométricas. Sua versatilidade o torna um conceito fundamental em várias disciplinas.....
Fonte: https://www.equiskill.com
Prós:
- Es un algoritmo muy simple y eficiente.
- Varianza baja.
- Fornece probabilidade puntuación de las observaciones.
Contras:
- Mal manejo un gran número de características categóricas.
- Asume que los datos están libres de valores perdidos y que los predictores son independientes entre sí.
Exemplo:
from sklearn.datasets import load_iris from sklearn.linear_model import LogisticRegression X, y = load_iris() LR_classifier = LogisticRegression(random_state = 0) LR_classifier.fit(X, e) LR_classifier.predict(X[:3, :])
Produção:
variedade([0, 0, 0]) It predicted 0 class for all 3 tests given to predict function.
2. Bayes ingenuo
Naive Bayes se basa en Teorema de bayes lo que da un supuesto de independencia entre predictores. Este clasificador asume que la presencia de una característica particular en una clase no está relacionada con la presencia de ninguna otra
característica / variável.
Los clasificadores Naive Bayes son de tres tipos: Multinomial Naive Bayes, Bernoulli Naive Bayes, Gaussian Naive Bayes.
Prós:
- Este algoritmo funciona muy rápido.
- Además se puede usar para solucionar problemas de predicción de varias clases, dado que es bastante útil con ellos.
- Este clasificador funciona mejor que otros modelos con menos datos de TreinamentoO treinamento é um processo sistemático projetado para melhorar as habilidades, Conhecimento ou habilidades físicas. É aplicado em várias áreas, como esporte, Educação e desenvolvimento profissional. Um programa de treinamento eficaz inclui planejamento de metas, prática regular e avaliação do progresso. A adaptação às necessidades individuais e a motivação são fatores-chave para alcançar resultados bem-sucedidos e sustentáveis em qualquer disciplina.... si se mantiene el supuesto de independencia de las características.
Contras:
- Assume
que todas las funciones son independientes. Aunque puede sonar genial en
teoria, pero en la vida real, nadie puede hallar un conjunto de características independientes.
Exemplo:
from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB X, y = load_iris(return_X_y = True) X_train, X_test, y_train, y_test = train_test_split(X, e, test_size=0.25, random_state=142) Naive_Bayes = GaussianNB() Naive_Bayes.fit(X_train, y_train) prediction_results = Naive_Bayes.predict(X_test) imprimir(prediction_results)
Produção:
variedade([0, 1, 1, 2, 1, 1, 0, 0, 2, 1, 1, 1, 2, 0, 1, 0, 2, 1, 1, 2, 2, 1,0, 1, 2, 1, 2, 2, 0, 1, 2,
1, 2, 1, 2, 2, 1, 2])
These are the classes predicted for X_test data by our naive Bayes model.
3. Algoritmo de vecino más cercano K
Debes haber oído hablar de un dicho popular:
“Dios los cría y ellos se juntan.”
KNN funciona según el mismo principio. Clasifica los nuevos puntos de datos en función de la clase de la mayoría de los puntos de datos entre el vecino K, donde K es el número de vecinos a considerar. KNN captura la idea de similitud (a veces llamada distancia,
proximidad o cercanía) con algunas fórmulas matemáticas básicas de distancia como distancia euclidiana, distancia de Manhattan, etc.
Fonte: https://www.javatpoint.com
Seleccionar el valor correcto para K
Para elegir la K adecuada para los datos que desea entrenar, ejecute el algoritmo KNN varias veces con diferentes valores de K y elija ese valor de K que reduce la cantidad de errores en los datos no vistos.
Prós:
- KNN es simple y fácil de poner en práctica.
- No es necesario crear un modelo, ajustar varios parametroso "parametros" são variáveis ou critérios usados para definir, medir ou avaliar um fenômeno ou sistema. Em vários domínios, como a estatística, Ciência da Computação e Pesquisa Científica, Os parâmetros são essenciais para estabelecer normas e padrões que orientam a análise e interpretação dos dados. Sua seleção e manuseio adequados são cruciais para obter resultados precisos e relevantes em qualquer estudo ou projeto.... o hacer suposiciones adicionales como algunos de los otros algoritmos de clasificación.
- Se puede usar para clasificación, regresión y búsqueda. Então, es flexible.
- El algoritmo se torna significativamente más lento a mediro "medir" É um conceito fundamental em várias disciplinas, que se refere ao processo de quantificação de características ou magnitudes de objetos, Fenômenos ou situações. Na matemática, Usado para determinar comprimentos, Áreas e volumes, enquanto nas ciências sociais pode se referir à avaliação de variáveis qualitativas e quantitativas. A precisão da medição é crucial para obter resultados confiáveis e válidos em qualquer pesquisa ou aplicação prática.... que aumenta el número de ejemplos y / o predictores / variáveis independentes.
from sklearn.neighbors import KNeighborsClassifier X_train, X_test, y_train, y_test = train_test_split(X, e, test_size=0.25, random_state=142) knn = KNeighborsClassifier(n_neighbors=3) knn.fit(X_train, y_train) prediction_results = knn.predict(X_test[:5,:) imprimir(prediction_results)
Produção:
variedade([0, 1, 1, 2, 1]) We predicted our results for 5 sample rows. Hence we have 5 results in array.
4. SVM
SVM son las siglas de Support Vector Machine. Este es un algoritmo de aprendizaje automático supervisado que se utiliza con mucha frecuencia para desafíos de clasificación y regresión. Apesar disto, usado principalmente em problemas de classificação. El concepto básico de Support Vector Machine y cómo funciona se puede comprender mejor con este sencillo ejemplo. Então, imagina que tienes dos etiquetas: verde y azul, y nuestros datos disponen dos características: X e e. Queremos un clasificador que, dado un par de (x, e) coordenadas, salidas si es verde o azul. Trace los datos de entrenamiento etiquetados en un plano y después intente hallar un plano (el hiperplano de dimensiones aumenta) que segrega los puntos de datos de ambos colores con mucha claridad.
Fonte: https://www.javatpoint.com
Pero este es el caso de los datos lineales. Mas, ¿qué pasa si los datos no son lineales, entonces utiliza el truco del kernel? Então, para manejar esto, aumentamos la dimensão"Dimensão" É um termo usado em várias disciplinas, como a física, Matemática e filosofia. Refere-se à extensão em que um objeto ou fenômeno pode ser analisado ou descrito. Em física, por exemplo, fala-se de dimensões espaciais e temporais, enquanto em matemática pode se referir ao número de coordenadas necessárias para representar um espaço. Compreendê-lo é fundamental para o estudo e..., esto trae datos en el espacio y ahora los datos se vuelven linealmente separables en dos grupos.
Prós:
- SVM funciona relativamente bien cuando existe un claro margenEl margen es un término utilizado en diversos contextos, como la contabilidad, la economía y la impresión. En contabilidad, se refiere a la diferencia entre los ingresos y los costos, lo que permite evaluar la rentabilidad de un negocio. En el ámbito editorial, el margen es el espacio en blanco alrededor del texto en una página, que facilita la lectura y proporciona una presentación estética. Su correcta gestión es esencial... de separación entre clases.
- SVM es más eficaz en espacios de gran dimensión.
Contras:
- SVM no es adecuado para grandes conjuntos de datos.
- SVM no funciona muy bien cuando el conjunto de datos tiene más ruido, Em outras palavras, cuando las clases de destino se superponen. Então, necesita ser manejado.
Exemplo:
from sklearn import svm svm_clf = svm.SVC() X_train, X_test, y_train, y_test = train_test_split(X, e, test_size=0.25, random_state=142) svm_clf.fit(X_train, y_train) prediction_results = svm_clf.predict(X_test[:7,:]) imprimir(prediction_results)
Produção:
variedade([0, 1, 1, 2, 1, 1, 0])
5.Árvore de decisão
El árbol de decisiones es uno de los algoritmos de aprendizaje automático más utilizados. Se usan para problemas de clasificación y regresión. Los árboles de decisión imitan el pensamiento a nivel humano, por lo que es muy fácil comprender los datos y realizar buenas intuiciones e interpretaciones. Na realidade, te hacen ver la lógica de los datos para interpretarlos. Los árboles de decisión no son como algoritmos de caja negra como SVM, redes neurais, etc.
Fonte: https://www.aitimejournal.com
Como um exemplo, si clasificamos a una persona como apta o no apta, A árvore de decisão se parece um pouco com isso na foto.
Então, em resumo, un árbol de decisión es un árbol donde cada nóO Nodo é uma plataforma digital que facilita a conexão entre profissionais e empresas em busca de talentos. Através de um sistema intuitivo, permite que os usuários criem perfis, Compartilhar experiências e acessar oportunidades de trabalho. Seu foco em colaboração e networking torna o Nodo uma ferramenta valiosa para quem deseja expandir sua rede profissional e encontrar projetos que se alinhem com suas habilidades e objetivos.... representa un
característica / atributo, cada rama representa una decisión, una regla y cada hoja representa un resultado. Este resultado puede ser de valor categórico o continuo. Categórico en caso de clasificación y continuo en caso de aplicaciones de regresión.
Prós:
- En comparación con otros algoritmos, los árboles de decisión requieren menos esfuerzo para la preparación de datos a lo largo del preprocesamiento.
- Tampoco requieren la padronizaçãoA padronização é um processo fundamental em várias disciplinas, que busca estabelecer padrões e critérios uniformes para melhorar a qualidade e a eficiência. Em contextos como engenharia, Educação e administração, A padronização facilita a comparação, Interoperabilidade e compreensão mútua. Ao implementar normas, a coesão é promovida e os recursos são otimizados, que contribui para o desenvolvimento sustentável e a melhoria contínua dos processos.... de datos ni el escalado.
- El modelo elaborado en el árbol de decisiones es muy intuitivo y fácil de explicar tanto a los equipos técnicos como a las partes interesadas.
Contras:
- Si se realiza inclusive un pequeño cambio en los datos, eso puede conducir a un gran cambio en la estructura del árbol de decisiones que causa inestabilidad.
- As vezes, el cálculo puede ser mucho más complejo en comparación con otros algoritmos.
- Los árboles de decisión suelen tardar más en entrenar el modelo.
Exemplo:
from sklearn import tree dtc = tree.DecisionTreeClassifier() X_train, X_test, y_train, y_test = train_test_split(X, e, test_size=0.25, random_state=142) dtc.fit(X_train, y_train) prediction_results = dtc.predict(X_test[:7,:]) imprimir(prediction_results)
Produção:
variedade([0, 1, 1, 2, 1, 1, 0])
Notas finais
Estes são os 5 algoritmos de clasificación más populares, hay muchos más y además algoritmos avanzados. Explórelos además. Vamos conectar LinkedIn
Obrigado por ler se você chegou aqui 🙂
A mídia mostrada nesta postagem não é propriedade da DataPeaker e é usada a critério do autor.
Postagens Relacionadas:
- Algoritmos de regressão | 5 algoritmos de regressão que você deve conhecer
- 10 funções úteis de string do Python que você deve definitivamente conhecer!
- Classificação da árvore de decisão | Guia de classificação de árvore de decisão
- Classificação de várias tags | Resolução de problemas de classificação de várias etiquetas