Visão geral
- A ciência de dados está em constante evolução com novas ferramentas, Frameworks & Tecnologias.
- Cada ferramenta / O técnico tem seu próprio caso de uso exclusivo, juntamente com recursos e funções
- Confira esta lista exaustiva de cheat sheets sobre conceitos populares de ciência de dados.
Introdução
A ciência de dados é um campo em constante crescimento, Existem inúmeras ferramentas e técnicas para lembrar. Não é possível que ninguém se lembre de todos os recursos, Operações e fórmulas de cada conceito. É por isso que temos cheat sheets. Mas há uma infinidade de cheat sheets disponíveis, Escolher o cheat sheet certo é uma tarefa difícil. Então, Decidi escrever este artigo.
Aqui eu selecionei as folhas de cheat com os seguintes critérios: Exaustividade, Clareza e conteúdo.
Depois de aplicar estes filtros, Eu compilei alguns 28 Folhas de trapaças de aprendizado de máquina, ciência de dados, probabilidade, SQL e Big Data. Para sua conveniência, Separei as folhas de cheat separadamente para cada um dos tópicos acima. Há cheat sheets em ferramentas e técnicas, Várias bibliotecas e idiomas.
Continue lendo para descobrir qual cheat sheet usar para um tema específico.
Python para Cheat Sheets de Ciência de Dados
1.Guia rápido para aprender Python para ciência de dados
Se você está apenas começando a aprender Python, Este cheat sheet é o melhor recurso para você. Neste cheat sheet, você encontrará um guia passo-a-passo para aprender Python. Ofereça recursos a seguir, Bibliotecas Python que você deve conhecer e algumas dicas úteis.
2. Folha de cheat Python para ciência de dados
Este cheat sheet do Datacamp cobre todos os conceitos básicos de Python necessários para a ciência de dados. Se você está apenas começando a trabalhar em Python, Guarde isso para consulta rápida. Salve esses códigos de interceptação para variáveis e funções de tipo de dados, Operação em Cadeia, Conversão de Tipo, Listas e operações do NumPy comumente usadas. O aspecto único desta folha de cheat é que ela lista bibliotecas Python importantes e fornece códigos de trapaça para selecionar e importar essas bibliotecas.
3. Python para Ciência de Dados Cheat Sheet NumPy
NumPy é uma biblioteca central para computação científica em Python. Neste cheat sheet do DataCamp, você encontrará códigos de trapaça para criar matrizes NumPy, Realizar operações matemáticas em matrizes, subconjuntos, Segmentações, Indexação e manipulação de arrays. O aspecto único desta folha de cheat é que cada recurso foi categorizado e explicado em inglês simples.
4. Análise exploratória de dados em Python
Seu melhor recurso para executar a exploração de dados em Python usando NumPy, Pandas e Matplotlib. Com este cheat sheet, saiba como fazer upload de arquivos em Python, Converter variáveis, Classificar dados, Criar gráficos, Criar conjuntos de dados de exemplo, Lidando com valores perdidos e muito mais. É um dos cheat sheets simplificados na exploração de dados.
5. Exploração de dados usando Pandas em Python
Pandas é uma das importantes bibliotecas Python. Este cheat sheet sobre a operação de exploração de dados em Python usando Pandas é o seu recurso para conhecer cada etapa envolvida na exploração de dados. Você encontrará códigos de trapaça para ler e gravar dados, Visualizar quadros de dados, Renomear colunas no quadro de dados, Adicionando os dados, etc.
6. Visualização de dados em Python
Se você é um cientista de dados ou um não-técnico, Ambos interpretam facilmente a visualização. Em gráficos e diagramas visuais, Os dados ganham vida e falam por si. Neste cheat sheet, saiba como executar a visualização de dados em Python. Explore as diferentes maneiras de plotar seus dados. Encuentre un enfoque paso a paso para trazar histogramasHistogramas são representações gráficas que mostram a distribuição de um conjunto de dados. Eles são construídos dividindo o intervalo de valores em intervalos, o "Caixas", e contando quantos dados caem em cada intervalo. Essa visualização permite identificar padrões, tendências e variabilidade de dados de forma eficaz, facilitando a análise estatística e a tomada de decisões informadas em várias disciplinas...., gráficos de barras, gráficos de linha, gráficos de dispersão, etc.
7. Python para Ciência de Dados Cheat Sheet Bokeh
Este cheat sheet em Bokeh, uma biblioteca de visualização interativa em Python, É especialmente útil com grandes conjuntos de dados. Neste cheat sheet do DataCamp, Você terá os passos básicos para plotar, Renderizar & Personalizar visualmente, Salvar gráficos e criar gráficos estatísticos.
8. Cábula: Scikit Aprenda
Aqui está uma folha de cheat no scikit-learn para cada técnica em Python. Fornece diferentes funções usadas para pré-processamento, regressão, classificação, agrupamentoo "agrupamento" É um conceito que se refere à organização de elementos ou indivíduos em grupos com características ou objetivos comuns. Este processo é usado em várias disciplinas, incluindo psicologia, Educação e biologia, para facilitar a análise e compreensão de comportamentos ou fenômenos. No campo educacional, por exemplo, O agrupamento pode melhorar a interação e o aprendizado entre os alunos, incentivando o trabalho.., redução de dimensionalidade, Seleção de modelos e métricas, juntamente com sua descrição. O aspecto único desta folha de cheat é que ela descreve os estágios completos do aprendizado de máquina.
9. Etapas para executar a limpeza de dados de texto em Python
A limpeza de texto pode ser um processo complicado. E conhecer os procedimentos certos é a chave para obter o resultado desejado. Confira este cheat sheet para executar a limpeza de dados de texto em Python passo-a-passo. Siga esta folha de cheat para saber quando você remove palavras de parada, Pontuação, Expressões, etc. O aspecto único desta folha de cheat é que cada etapa foi explicada com códigos e exemplos.
R para Cheat Sheets de Ciência de Dados
1.Cartão de Referência R
Use esta folha de cheat para códigos de trapaça para todas as funções e operadores em R. Entenda o que significam os diferentes termos em R. Explica todas as funções na criação de dados, processamento de dados, Manipulação de dados, Função de modelo, seleção e muito mais.
2. Importando dados para o R
Saiba como importar dados com o readr, Tibble e Tidyr. Encontre funções para escrever e ler funções no tibble. Ele também fornece argumentos úteis, Remodelando dados, Combinando células com Tidyr.
3. Transformação de dados com dplyr
Este cheat sheet RStudio é um material de referência para transformação de dados com dplyr. Obtenha shortcodes e operadores para todas as operações em transformação de dados. Mais tarde, estar resumindo os casos, Agrupamento de Casos, manipular, Vetorizar e combinar variáveis.
4. Cábula: 11 Etapas para exploração de dados em R (com códigos)
Este cheat sheet fornece um guia passo-a-passo para a exploração de dados em R. Saiba como carregar arquivos no R, Converter variáveis em diferentes tipos de dados, Transpor um conjunto de dados, Classificar quadros de dados, Crie gráficos e muito mais.
5. Visualização de dados em R
Acima vimos um cheat sheet sobre visualização de dados em Python. Aqui está uma folha de verificação de visualização de dados para fornecer os diferentes gráficos pelos quais você pode plotar os dados. Com algumas linhas de código, Você pode criar belos gráficos e histórias de dados. R tiene bibliotecas increíbles para crear visualizaciones básicas y más evolucionadas como gráfico de barrasO gráfico de barras é uma representação visual de dados que usa barras retangulares para mostrar comparações entre diferentes categorias. Cada barra representa um valor e seu comprimento é proporcional a ele. Esse tipo de gráfico é útil para visualizar e analisar tendências, facilitar a interpretação de informações quantitativas. É amplamente utilizado em várias disciplinas, como estatísticas, Marketing e pesquisa, devido à sua simplicidade e eficácia...., histograma, Diagrama de dispersãoO gráfico de dispersão é uma ferramenta gráfica usada em estatística para visualizar a relação entre duas variáveis. Consiste em um conjunto de pontos em um plano cartesiano, onde cada ponto representa um par de valores correspondentes às variáveis analisadas. Este tipo de gráfico permite identificar padrões, Tendências e possíveis correlações, facilitando a interpretação dos dados e a tomada de decisão com base nas informações visuais apresentadas...., Visualização de Mapa, diagrama de mosaico e vários outros.
6. Visualização de dados com ggplot2
Este cheat sheet é especificamente para criar uma visualização R usando ggplot2. ggplot2 trabalha com a gramática de gráficos e é baseado em um conjunto de marcações visuais que representam pontos de dados. Obtenga códigos de trucos para crear una variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... y dos componentes gráficos variables. Juntamente com diferentes técnicas para a criação de parcelas em R.
7. Cábula: Pacote Caret
O pacote Caret fornece um conjunto de recursos que simplifica o processo de criação de modelos preditivos. Cheat sheet inclui recursos para divisão de dados, Pré-processamento, Seleção de recursos, Ajuste e visualização de modelos.
8. Cartão de referência R para mineração de dados
Esta folha de cheat fornece funções para mineração de texto, Detecção de outlier, agrupamento, classificação, Análise de Redes Sociais, big data, computação paralela usando R. Esta folha de cheat dá-lhe todas as funções e operadores usados para mineração de dados em R.
9. Guia para aprender rapidamente computação em nuvem na programação R
A computação em nuvem facilitou o acesso aos nossos arquivos e dados de qualquer lugar. Neste cheat sheet, saiba como usar a computação em nuvem no R. Siga este guia passo a passo para usar a programação R na AWS.
Folhas de trapaças de aprendizado de máquina
1.Cábula: Códigos Python e R para algoritmos comuns de aprendizado de máquina
Neste cheat sheet, você receberá códigos em Python & R para vários algoritmos de aprendizado de máquina comumente usados. Os algoritmos incluídos são regressão linear, Regressão logística, árvore de decisão, SVM, Baías ingénuas, KNN, K-means, Random Forest e alguns outros.
2. Scikit Aprenda Algoritmo Cheat Sheet
Este cheat sheet é fornecido pelos criadores oficiais do scikit-learn. Muitas pessoas se deparam com o problema de escolher um algoritmo de aprendizado de máquina específico para diferentes tipos de dados e problemas. Com a ajuda deste cheat sheet, Você tem o fluxo completo para resolver um problema de aprendizado de máquina.
3. Aprendizado de Máquina do Microsoft Azure: Algoritmos Cheat Sheet
Esta folha de cheat ajuda você a escolher o melhor algoritmo do Estúdio de Aprendizado de Máquina do Azure para sua solução de análise preditiva. Desenvolvido pela própria equipe do Microsoft Azure, A folha de cheat fornece um caminho claro com base na natureza dos dados.
Folhas de Probabilidade Cheat
1. Folha de Fraude Básica de Probabilidade
Este cheat sheet fornece material de referência abrangente sobre probabilidade e estatística. Cada conceito foi lindamente explicado com uma explicação esquemática. Abrange tudo, desde regras básicas de probabilidade até conceitos estatísticos avançados de uma forma muito precisa e exata. Desenvolvido pela Universidade da Pensilvânia, É um dos cheat sheets mais abrangentes que você pode colocar as mãos.
2. Folha de Probabilidade para Distribuição
Confira este cheat sheet para uma rápida visão geral da distribuição de Poisson, distribuição normal, Distribuição binomial, distribuição geométrica e muito mais. Fornece notação, fórmulas e uma breve explicação em inglês simples para cada distribuição.
Folhas de cheat SQL e MySQL
1. Folha de cheat do SQL
Neste cheat sheet, saiba como executar operações básicas no SQL. Obtenha o recurso Inserir Dados, atualizar dados, Limpar dados, Dados do grupo, Classificar dados, etc. Se você começou a usar o SQL, Este é o melhor guia de referência.
2. Folha de cheat do MySQL e SQL
Neste cheat sheet, você encontrará os comandos MySQL e SQL comumente usados. Obter códigos de trapaça para a função matemática MySQL, a função de cadeia de caracteres do MySQL, os comandos básicos do MySQL. Você também encontrará comandos SQL para modificar e consultar.
Planilhas de trapaças de Big Data
1. Folha de cheat do Hadoop
Diz-se, com razão, que o Hadoop tem um vasto ecossistema e inclui várias operações. Conheça os diferentes operadores, como funcionam e por qual operação são responsáveis. O cheat sheet foi dividido em uma respectiva função geral, como sistemas distribuídos, processamento de dados, entrada / Gerenciamento de Saída de Dados &.
2. Folha de cheat do Apache Spark
Aquí hay una hoja de trucos para Apache SparkO Apache Spark é um mecanismo de processamento de dados de código aberto que permite a análise de grandes volumes de informações de forma rápida e eficiente. Seu design é baseado na memória, que otimiza o desempenho em comparação com outras ferramentas de processamento em lote. O Spark é amplamente utilizado em aplicativos de big data, Aprendizado de máquina e análise em tempo real, graças à sua facilidade de uso e... para varias operaciones como transformación, Ações, Métodos de persistência, Transformação e Ações Adicionais, RDD estendido, Transformação da Transmissão, Persistência RDD, etc.
3. Folha de cheat da função do Hive
Neste cheat sheet, obtenga comandos para las funciones de ColmeiaHive é uma plataforma de mídia social descentralizada que permite que seus usuários compartilhem conteúdo e se conectem com outras pessoas sem a intervenção de uma autoridade central. Usa a tecnologia blockchain para garantir a segurança e a propriedade dos dados. Ao contrário de outras redes sociais, O Hive permite que os usuários monetizem seu conteúdo por meio de recompensas criptográficas, que incentiva a criação e a troca ativa de informações ..... Fornece códigos de interceptação para funções de dados, Função Matemática, Função Cadeia, Função de coleta, función agregadaLa función agregada es un concepto clave en economía que representa la relación entre la producción total de bienes y servicios en una economía y el nivel de precios. Esta función ayuda a entender cómo varían la oferta y la demanda agregadas en respuesta a cambios en factores como la política fiscal y monetaria. Su análisis es fundamental para la formulación de estrategias económicas y la predicción de ciclos económicos.... Incorporado, Função de geração de tabela integrada, Função condicional e funções para análise de texto.
Notas finais
Eu espero que você tenha gostado de ler este artigo. Se eu perdi algum cheat sheets que eu acho que deveria ser incluído na lista. Em seguida, poste-os na seção de comentários. O outro leitor e eu gostaríamos de saber sobre eles.
Se você tem alguma sugestão / comentário, Não se esqueça de compartilhá-lo inserindo seus comentários. Diga-nos o que mais cheat sheets você gostaria que publicássemos.