Big Data

Uma rápida visão geral dos algoritmos de regressão no aprendizado de máquina

A mídia mostrada neste artigo não é propriedade da Analytics Vidhya e é usada a critério do autor.

Introdução

Basicamente formamos máquinas para que elas incluam algum tipo de automação nelas. No aprendizado de máquina, usamos vários tipos de algoritmos para permitir que as máquinas aprendam os relacionamentos dentro dos dados fornecidos e façam previsões com eles. Então, o tipo de previsão do modelo em que precisamos da saída prevista é um valor numérico contínuo, é chamado de problema de regressão.

A análise de regressão gira em torno de algoritmos simples, que são frequentemente usados em finanças, investimentos e outros, e estabelece a relação entre uma única variável dependente que depende de vários. Por exemplo, prever o preço da casa ou o salário de um empregado, etc., são os problemas de regressão mais comuns.

Discutiremos primeiro os tipos de algoritmos de regressão em breve e, em seguida, passaremos para um exemplo. Esses algoritmos podem ser lineares e não lineares..

Algoritmos de ML lineares

85864kevin-ku-w7zyugynprq-unsplash-1807577 — fonte: abrir

Regressão linear

É um algoritmo comumente usado e pode ser importado da classe Linear Regression. Uma única variável de entrada é usada (o significativo) para prever uma ou mais variáveis de saída, assumindo que a variável de entrada não está correlacionada uma com a outra. É representado como:

y = b * x + c

onde variável dependente de y, independente de x, inclinação b da linha de melhor ajuste que poderia obter uma saída precisa e c – sua interseção. A menos que haja uma linha exata que relacione as variáveis dependentes e independentes, pode haver uma perda na produção que normalmente é tomada como o quadrado da diferença entre a produção esperada e a real, quer dizer, função de perda.

Quando você usa mais de uma variável independente para obter resultados, se denomina Regressão linear múltipla. Este tipo de modelo assume que existe uma relação linear entre a característica dada e a saída., qual é seu limitación.

Regressão de cume: la normal L2

Este é um tipo de algoritmo que é uma extensão de uma regressão linear que tenta minimizar a perda, também usa dados de regressão múltipla. Seus coeficientes não são estimados por mínimos quadrados ordinários (MCO), mas por um estimador chamado crista, que é tendencioso e tem uma variância menor do que o estimador OLS, então obtemos uma contração nos coeficientes. Com este tipo de modelo, também podemos reduzir a complexidade do modelo.

Embora a contração do coeficiente ocorra aqui, não completamente reduzido a zero. Portanto, seu modelo final ainda incluirá tudo.

Regressão de loop: a norma L1

É o operador mínimo absoluto de seleção e contração. Isso penaliza a soma dos valores absolutos dos coeficientes para minimizar o erro de previsão. Faz com que os coeficientes de regressão para algumas das variáveis sejam reduzidos a zero. Pode ser construído usando a classe LASSO. Uma das vantagens do loop é a seleção simultânea de funções. Isso ajuda a minimizar a perda de previsão. Por outro lado, devemos levar em conta que o laço não pode fazer uma seleção de grupo, também selecione recursos antes de saturar.

Ambos lasso e ridge são métodos de regularização.

68323dlanor-s-2xeqdxb0ss4-unsplash-1689797

Vamos rever alguns exemplos:

Suponha um dado com anos de experiência e salário de diferentes funcionários. Nosso objetivo é criar um modelo que prever o salário do funcionário com base no ano de experiência. Uma vez que contém uma variável independente e uma dependente, podemos usar regressão linear simples para este problema.

Algoritmos AA não lineares

Regressão da árvore de decisão

Quebra um conjunto de dados em subconjuntos cada vez menores, dividindo-o, que resulta em uma árvore com nós de decisão e nós folha. Aqui a ideia é traçar um valor para qualquer novo ponto de dados que conecte o problema. O tipo de maneira em que a divisão é realizada é determinado pelos parâmetros e pelo algoritmo, e a divisão para quando atinge o número mínimo de informações a serem adicionadas. Árvores de decisão geralmente dão bons resultados, mas mesmo que haja uma pequena alteração nos dados, toda a estrutura muda, o que significa que os modelos se tornam instáveis.

Tome um caso de previsão de preços de casas, dado um conjunto de 13 características e ao redor 500 filas, aqui você precisa prever o preço da casa. Como você tem um número considerável de amostras aqui, deve optar por árvores ou outros métodos para prever valores.

Floresta aleatória

A ideia por trás da regressão aleatória da floresta é que, para encontrar o resultado, usa várias árvores de decisão. As etapas envolvidas são:

– Escolha K pontos de dados aleatórios do conjunto de treinamento.

– Construir uma árvore de decisão associada a esses pontos de dados

– Escolha o número de árvores que precisamos construir e repita os passos acima (fornecido como argumento)

– Para um novo ponto de dados, faça com que cada uma das árvores preveja valores da variável dependente para a entrada dada.

– Mapeie o valor médio dos valores previstos para a saída final real.

Isso é semelhante a adivinhar o número de bolas em uma caixa. Suponha que anotamos aleatoriamente os valores de previsão dados por muitas pessoas e, em seguida, calculemos a média para tomar uma decisão sobre o número de bolas na caixa.. A floresta aleatória é um modelo que usa várias árvores de decisão., que nós sabemos, mas como tem muitas árvores, também requer muito tempo para treinar e poder computacional, o que ainda é uma desvantagem.

K Vizinhos mais próximos (Modelo KNN)

Pode ser usado a partir da classe KNearestNeighbors. São simples e fáceis de implementar. Para uma entrada inserida no conjunto de dados, os k vizinhos mais próximos ajudam a encontrar as k instâncias mais semelhantes no conjunto de treinamento. Qualquer um dos valores médios da mediana dos vizinhos é tomado como valor para essa entrada..

O método para encontrar o valor pode ser dado como um argumento, cujo valor padrão é “Minkowski”, uma combinação de distâncias “Euclidiana” e “Manhattan”.

As previsões podem ser lentas quando os dados são grandes e de baixa qualidade. Como a previsão deve levar em consideração todos os pontos de dados, o modelo ocupará mais espaço durante o treinamento.

Máquinas de vetor de suporte (SVM)

Pode resolver problemas de regressão linear e não linear. Criamos um modelo SVM usando a classe SVR. em um espaço multidimensional, quando temos mais de uma variável para determinar a saída, então cada um dos pontos não é mais um ponto como em 2D, mas são vetores. O tipo mais extremo de atribuição de valor pode ser feito usando este método. Você separa as classes e dá a elas valores. A separação é pelo conceito de Max-Margin (um hiperplano). O que você precisa estar ciente é que os SVMs não são adequados para prever valores para grandes conjuntos de treinamento. SVM fracasso quando os dados são mais ruidosos.

Se os dados de treinamento forem muito maiores que o número de recursos, KNN é melhor que SVM. O SVM supera o KNN quando há funções maiores e menos dados de treinamento.

Nós vamos, chegamos ao final deste artigo, discutimos brevemente os tipos de algoritmos de regressão (teoria). Este é Surabi, tenho licenciatura em tecnologia. dê uma olhada em mim Perfil do linkedIn e conectar. Espero que tenha gostado de ler isso. Obrigado.

A mídia mostrada neste artigo não é propriedade da Analytics Vidhya e é usada a critério do autor.