Introdução
Você já se esforçou para melhorar sua classificação em um hackathon de aprendizado de máquina em DataHack ou Kaggle? Você já tentou todos os seus truques e técnicas favoritas, mas sua pontuação se recusa a ceder. Eu estava lá e é uma experiência bastante frustrante!!
Isto é especialmente relevante durante os seus primeiros dias neste campo.. Nós tendemos a usar as técnicas familiares que aprendemos, como regressão linear, regressão logística, etc. (dependendo da declaração do problema).
E então vem o Bootstrap Sampling. É um conceito poderoso que impulsionou minha classificação para os escalões mais altos dessas tabelas de classificação de hackathon.. E foi um aprendizado e tanto!!
A amostragem de bootstrap é uma técnica que eu sinto que todo cientista de dados faz., aspirante ou estabelecido, deve aprender.
Então, neste artigo, Aprenderemos tudo o que você precisa saber sobre amostragem de inicialização. O que é, Por que é necessário, Como funciona e onde se encaixa na imagem do aprendizado de máquina. Também implementaremos a amostragem de inicialização em Python.
O que é Bootstrap Sampling?
Aqui está uma definição formal de Bootstrap Sampling:
Nas estatísticas, Bootstrap Sampling es un método que implica la extracción de datos de muestra repetidamente con reemplazo de una Fonte de dadosUMA "Fonte de dados" refere-se a qualquer lugar ou meio onde as informações podem ser obtidas. Essas fontes podem ser primárias e, como levantamentos e experimentos, como secundário, como bancos de dados, Artigos acadêmicos ou relatórios estatísticos. A escolha certa de uma fonte de dados é crucial para garantir a validade e confiabilidade das informações em pesquisa e análise.... para estimar un parámetro de población.
Esperando, Isso é muito complexo.. Vamos analisar e entender os termos-chave:
- Amostragem: No que diz respeito às estatísticas, Amostragem é o processo de seleção de um subconjunto de elementos de uma grande coleção de elementos (população) estimar uma determinada característica de toda a população.
- Amostragem com substituição: Isso significa que um ponto de dados em uma amostra extraída também pode reaparecer em futuras amostras extraídas..
- Estimación de parametroso "parametros" são variáveis ou critérios usados para definir, medir ou avaliar um fenômeno ou sistema. Em vários domínios, como a estatística, Ciência da Computação e Pesquisa Científica, Os parâmetros são essenciais para estabelecer normas e padrões que orientam a análise e interpretação dos dados. Sua seleção e manuseio adequados são cruciais para obter resultados precisos e relevantes em qualquer estudo ou projeto....: É um método de estimativa de parâmetros para a população utilizando amostras. Um parâmetro é uma característica mensurável associada a uma população. Por exemplo, A altura média dos residentes em uma cidade, contagem de glóbulos vermelhos, etc.
Com esse conhecimento, Vá em frente e releia a definição acima. Vai fazer muito mais sentido agora!!
Por que precisamos da amostragem do Bootstrap?
Essa é uma questão fundamental com a qual vi os entusiastas do aprendizado de máquina lidarem.. Qual é o objetivo do Bootstrap Sampling? Onde você pode usá-lo? Deixe-me dar um exemplo para explicar isso..
Digamos que queremos encontrar a altura média de todos os alunos de uma escola. (que tem uma população total de 1000). Então, Como podemos realizar esta tarefa?
Um método envolve medir a altura de todos os alunos e, em seguida, calcular a altura média.. Ilustrei este processo abaixo:
Porém, Esta seria uma tarefa tediosa. Pense nisso, Teríamos que medir individualmente as alturas de 1,000 alunos e, em seguida, calcular a altura média. Vai demorar dias! Precisamos de uma abordagem mais inteligente neste domínio.
É aqui que o Bootstrap Sampling entra em jogo.
Em vez de medir as alturas de todos os alunos, Podemos extrair uma amostra aleatória de 5 alunos e medir suas alturas. Repetiríamos este processo 20 vezes e, em seguida, calcularíamos a média dos dados de altura coletados de 100 alunos (5 x 20). Essa altura média seria uma estimativa da altura média de todos os alunos da escola..
Bem direto, verdade? Esta é a ideia básica do Bootstrap Sampling.
Portanto, Quando temos que estimar um parâmetro de uma grande população, podemos ter a ajuda do Bootstrap Sampling.
Amostragem de bootstrap no Machine Learning
A amostragem de bootstrap é usada em um algoritmo de pacote de aprendizado de máquina chamado agregação de bootstrap (Também chamado de embalagem). Ajuda a evitar o excesso de ajuste e melhora a estabilidade dos algoritmos de aprendizado de máquina.
No ensacamento, Um certo número de subconjuntos do mesmo tamanho é extraído de um conjunto de dados substituído. Mais tarde, Um algoritmo de aprendizado de máquina é aplicado a cada um desses subconjuntos e as saídas são montadas conforme ilustrado abaixo.:
Você pode ler e aprender mais sobre como aprender juntos aqui:
Implementar amostragem de bootstrap em Python
É hora de testar nosso aprendizado e implementar o conceito de Bootstrap Sampling em Python.
Nesta secção, Tentaremos estimar a média populacional com a ajuda da amostragem de bootstrap. Vamos importar as bibliotecas necessárias:
A seguir, Criaremos uma distribuição (população) Gaussian de 10,000 elementos com a média populacional de 500:
Produção: 500.00889503613934
Agora, Vamos extrair 40 Tamanho das amostras 5 da distribuição (população) e calcularemos a média para cada amostra:
Vamos verificar a média dos valores médios do 40 amostras:
np.mean(sample_mean)
Produção: 500.024133172629
Acaba por ser bastante próximo da média da população!! É por isso que o Bootstrap Sampling é uma técnica tão útil em estatística e aprendizado de máquina..
Resumindo o que aprendemos
Neste artigo, aprendeu sobre a utilidade do Bootstrap Sampling em estatística e aprendizado de máquina. Também o implementamos em Python e verificamos sua eficácia..
Aqui estão alguns dos principais benefícios do bootstrapping:
- O bootstrap do parâmetro de estimativa de amostra é comparável ao parâmetro de população real
- Uma vez que só precisamos de algumas amostras para inicializar, O requisito de cálculo é muito menor
- Na Random Forest, o tamanho da amostra de bootstrap de até mesmo o 20% dá um desempenho muito bom, como mostrado abaixo:
O desempenho do modelo atinge o pico quando os dados fornecidos são inferiores a 0,2 Fração do conjunto de dados original.