Modelos de classificação em aprendizado de máquina

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Introdução

algoritmos de aprendizagem de máquina de classificação-6195900

E nós aprendemos ao longo do caminho.

As empresas, de forma similar, aplicar seu aprendizado anterior à tomada de decisões relacionadas a operações e novas iniciativas, por exemplo, relacionado à classificação do cliente, produtos, etc. Porém, aqui fica um pouco mais complexo, pois existem várias partes interessadas envolvidas. O que mais, as decisões devem ser precisas devido ao seu impacto mais amplo.

Com a evolução da tecnologia digital, humanos desenvolveram múltiplos ativos; máquinas são uma delas. Temos aprendido (e nós continuamos) usar máquinas para analisar dados usando estatísticas para gerar informações úteis para auxiliar na tomada de decisões e previsões.

Máquinas não fazem mágica com dados, eles aplicam estatísticas simples.

Neste contexto, Vamos revisar alguns algoritmos de aprendizado de máquina comumente usados ​​para classificação e tentar entender como eles funcionam e se comparam entre si. Mas primeiro, vamos entender alguns conceitos relacionados.

Conceitos básicos

o aprendizagem supervisionada se define como la categoría de análisis de datos donde el resultado objetivo es conocido o etiquetado, por exemplo, se o cliente ou clientes compraram um produto ou não. Porém, quando a intenção é agrupá-los com base no que todos compraram, então se torna não supervisionado. Isso pode ser feito para explorar a relação entre os clientes e o que eles compram.

Tanto a classificação quanto a regressão pertencem à aprendizagem supervisionada, mas o primeiro se aplica quando o resultado é finito, enquanto o último é para infinitos valores de resultados possíveis (por exemplo, prever o valor em dólares da compra).

La distribución normal es la conocida distribución en forma de campana de una variável contínuo. Esta é uma extensão natural dos valores que um parâmetro normalmente assume.

Uma vez que os preditores podem ter diferentes intervalos de valores, por exemplo, peso humano pode ser de até 150 (kg), mas a altura típica é apenas até 6 (tortas); valores precisam de escala (em torno da respectiva média) para torná-los comparáveis.

Colinearidade é quando dois ou mais preditores estão relacionados, quer dizer, seus valores se movem juntos.
Outliers são valores excepcionais de um preditor, Pode ser verdade ou não.

regressão vs classificação no aprendizado de máquina-4568442

Regressão logística

A regressão logística usa o poder da regressão para realizar a classificação e tem feito isso muito bem por várias décadas., para ficar entre os modelos mais populares. Um dos principais motivos do sucesso do modelo é seu poder de explicabilidade, quer dizer, apontar a contribuição de preditores individuais, quantitativamente.

Ao contrário da regressão que usa mínimos quadrados, o modelo usa a probabilidade máxima para ajustar uma curva sigmóide na distribuição da variável alvo.

Dada a suscetibilidade do modelo à multicolinearidade, aplicá-lo passo a passo acaba sendo uma abordagem melhor para finalizar os preditores escolhidos do modelo.

O algoritmo é uma escolha popular em muitas tarefas de processamento de linguagem natural, por exemplo, detecção de fala tóxica, classificação de tópicos, etc.

plot-3541612

Redes neurais artificiais

Redes neurais artificiais (ANN), assim chamados porque tentam imitar o cérebro humano, são adequados para conjuntos de dados grandes e complexos. Sua estrutura é composta por camadas de nós intermediários (semelhantes aos neurônios) que são mapeados juntos para as várias entradas e a saída de destino.

É um algoritmo de autoaprendizagem, uma vez que começa com um mapeamento inicial (aleatória) e, a partir de então, Iterativamente, sintoniza automaticamente os pesos relacionados para fazer o ajuste fino da saída desejada para todos os registros. Las múltiples capas brindan una capacidad de aprendizado profundo para poder extraer características de nivel superior de los datos sin procesar.

O algoritmo fornece alta precisão de previsão, mas é necessário dimensionar características numéricas. Tem amplas aplicações em campos futuros, incluindo visão computacional, PNL, reconhecimento de voz, etc.

artificial-neural-network-3501528_960_720-5695969

Floresta aleatória

Uma floresta aleatória é um conjunto confiável de múltiplas árvores de decisão (o CART); embora mais populares para classificação do que aplicativos de regressão. Aqui, árvores individuais são construídas por ensacamento (quer dizer, agregação de bootstraps que nada mais são do que conjuntos de dados de fluxo múltiplos criados por amostragem de registro com substituição) e dividir usando menos recursos. A floresta diversa resultante de árvores não correlacionadas exibe variação reduzida; portanto, é mais robusto para mudanças de dados e move sua precisão de previsão para novos dados.

Porém, o algoritmo não funciona bem para conjuntos de dados com muitos outliers, algo que precisa ser resolvido antes de construir o modelo.

Possui ampla aplicação nas áreas financeiras, varejista, aeronáutica e muitos outros.

forest7-3591004

Bayes ingenuo

Embora possamos não perceber isso, Este é o algoritmo mais comumente usado para filtrar e-mails de spam!!

Aplique o que é conhecido como probabilidade posterior usando o Teorema de Bayes para categorizar dados não estruturados. E ao fazer isso, ingenuamente assume que os preditores são independentes, o que pode não ser verdade.

El modelo funciona bien con un pequeño conjunto de datos de Treinamento, desde que todas as classes do preditor categórico estejam presentes.

ingênuo-2432706

KNN

O algoritmo vizinho K-Nemost (KNN) prevê com base no número especificado (k) dos pontos de dados vizinhos mais próximos. Aqui, o pré-processamento de dados é significativo, pois afeta diretamente as medições de distância. Diferente de outros, o modelo não tem fórmula matemática, nem habilidade descritiva.

Aqui, o parâmetro 'k’ deve ser escolhido sabiamente; uma vez que um valor inferior ao ideal leva a um viés, enquanto um valor mais alto afeta a precisão da previsão.

É um modelo simples e bastante preciso, preferido principalmente para conjuntos de dados menores, devido aos enormes cálculos envolvidos em preditores contínuos.

Em um nível simples, KNN pode ser usado em um ambiente preditivo bivariado, por exemplo, altura e peso, para determinar o sexo dado uma amostra.

knn2-8013361

Juntando tudo

O desempenho de um modelo depende principalmente da natureza dos dados. Uma vez que os conjuntos de dados de negócios têm vários preditores e são complexos, é difícil identificar um algoritmo que sempre funciona bem. Portanto, a prática usual é tentar vários modelos e encontrar o certo.

Como uma comparação de alto nível, los aspectos más destacados que se encuentran generalmente para cada uno de los algoritmos anteriores se anotan a continuación en algunos parametros comunes; para servir como um instantâneo de referência rápida.

32753screenshot202020-11-2820at2010-09-4020pm-9816822

O que mais, existem múltiplas alavancas, por exemplo, balanceamento de dados, imputação, validação cruzada, definido entre algoritmos, maior conjunto de dados de trem, etc. mais ajuste de hiperparâmetro de modelo, que pode ser usado para obter precisão. Embora a precisão da previsão possa ser a mais desejável, as empresas também procuram preditores proeminentes que contribuem (quer dizer, um modelo descritivo ou sua explicabilidade resultante).

Finalmente, o aprendizado de máquina permite que os humanos decidam quantitativamente, prever e olhar além do óbvio, embora às vezes também em aspectos previamente desconhecidos.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.