Amostragem de bootstrap | Amostragem de bootstrap em aprendizado de máquina

Conteúdo

Introdução

Você já se esforçou para melhorar sua classificação em um hackathon de aprendizado de máquina em DataHack ou Kaggle? Você já tentou todos os seus truques e técnicas favoritas, mas sua pontuação se recusa a ceder. Eu estava lá e é uma experiência bastante frustrante!!

Isto é especialmente relevante durante os seus primeiros dias neste campo.. Nós tendemos a usar as técnicas familiares que aprendemos, como regressão linear, regressão logística, etc. (dependendo da declaração do problema).

E então vem o Bootstrap Sampling. É um conceito poderoso que impulsionou minha classificação para os escalões mais altos dessas tabelas de classificação de hackathon.. E foi um aprendizado e tanto!!

bootstrap-3838795

A amostragem de bootstrap é uma técnica que eu sinto que todo cientista de dados faz., aspirante ou estabelecido, deve aprender.

Então, neste artigo, Aprenderemos tudo o que você precisa saber sobre amostragem de inicialização. O que é, Por que é necessário, Como funciona e onde se encaixa na imagem do aprendizado de máquina. Também implementaremos a amostragem de inicialização em Python.

O que é Bootstrap Sampling?

Aqui está uma definição formal de Bootstrap Sampling:

Nas estatísticas, Bootstrap Sampling é um método que envolve a extração de dados de amostra repetidamente com a substituição de uma fonte de dados para estimar um parâmetro de população.

Esperando, Isso é muito complexo.. Vamos analisar e entender os termos-chave:

  • Amostragem: No que diz respeito às estatísticas, Amostragem é o processo de seleção de um subconjunto de elementos de uma grande coleção de elementos (população) estimar uma determinada característica de toda a população.
  • Amostragem com substituição: Isso significa que um ponto de dados em uma amostra extraída também pode reaparecer em futuras amostras extraídas..
  • Estimativa de parâmetros: É um método de estimativa de parâmetros para a população utilizando amostras. Um parâmetro é uma característica mensurável associada a uma população. Por exemplo, A altura média dos residentes em uma cidade, contagem de glóbulos vermelhos, etc.

Com esse conhecimento, Vá em frente e releia a definição acima. Vai fazer muito mais sentido agora!!

Por que precisamos da amostragem do Bootstrap?

Essa é uma questão fundamental com a qual vi os entusiastas do aprendizado de máquina lidarem.. Qual é o objetivo do Bootstrap Sampling? Onde você pode usá-lo? Deixe-me dar um exemplo para explicar isso..

Digamos que queremos encontrar a altura média de todos os alunos de uma escola. (que tem uma população total de 1000). Então, Como podemos realizar esta tarefa?

Um método envolve medir a altura de todos os alunos e, em seguida, calcular a altura média.. Ilustrei este processo abaixo:

img_1-1-7953286 (em inglês)

Porém, Esta seria uma tarefa tediosa. Pense nisso, Teríamos que medir individualmente as alturas de 1,000 alunos e, em seguida, calcular a altura média. Vai demorar dias! Precisamos de uma abordagem mais inteligente neste domínio.

É aqui que o Bootstrap Sampling entra em jogo.

Em vez de medir as alturas de todos os alunos, Podemos extrair uma amostra aleatória de 5 alunos e medir suas alturas. Repetiríamos este processo 20 vezes e, em seguida, calcularíamos a média dos dados de altura coletados de 100 alunos (5 x 20). Essa altura média seria uma estimativa da altura média de todos os alunos da escola..

Bem direto, verdade? Esta é a ideia básica do Bootstrap Sampling.

img_2-1-8912401 (em inglês)

Portanto, Quando temos que estimar um parâmetro de uma grande população, podemos ter a ajuda do Bootstrap Sampling.

Amostragem de bootstrap no Machine Learning

A amostragem de bootstrap é usada em um algoritmo de pacote de aprendizado de máquina chamado agregação de bootstrap (Também chamado de embalagem). Ajuda a evitar o excesso de ajuste e melhora a estabilidade dos algoritmos de aprendizado de máquina.

No ensacamento, Um certo número de subconjuntos do mesmo tamanho é extraído de um conjunto de dados substituído. Mais tarde, Um algoritmo de aprendizado de máquina é aplicado a cada um desses subconjuntos e as saídas são montadas conforme ilustrado abaixo.:

ensacamento-9992005

Você pode ler e aprender mais sobre como aprender juntos aqui:

Implementar amostragem de bootstrap em Python

É hora de testar nosso aprendizado e implementar o conceito de Bootstrap Sampling em Python.

Nesta secção, Tentaremos estimar a média populacional com a ajuda da amostragem de bootstrap. Vamos importar as bibliotecas necessárias:

A seguir, Criaremos uma distribuição (população) Gaussian de 10,000 elementos com a média populacional de 500:

Produção: 500.00889503613934

Agora, Vamos extrair 40 Tamanho das amostras 5 da distribuição (população) e calcularemos a média para cada amostra:

Vamos verificar a média dos valores médios do 40 amostras:

np.mean(sample_mean)

Produção: 500.024133172629

Acaba por ser bastante próximo da média da população!! É por isso que o Bootstrap Sampling é uma técnica tão útil em estatística e aprendizado de máquina..

Resumindo o que aprendemos

Neste artigo, aprendeu sobre a utilidade do Bootstrap Sampling em estatística e aprendizado de máquina. Também o implementamos em Python e verificamos sua eficácia..

Aqui estão alguns dos principais benefícios do bootstrapping:

  • O bootstrap do parâmetro de estimativa de amostra é comparável ao parâmetro de população real
  • Uma vez que só precisamos de algumas amostras para inicializar, O requisito de cálculo é muito menor
  • Na Random Forest, o tamanho da amostra de bootstrap de até mesmo o 20% dá um desempenho muito bom, como mostrado abaixo:

RF-6123404

O desempenho do modelo atinge o pico quando os dados fornecidos são inferiores a 0,2 Fração do conjunto de dados original.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.