Visão geral
- SQL é uma linguagem obrigatória para qualquer pessoa em ciência de dados ou análise.
- Aqui tem 8 ingeniosas técnicas de SQL para el análisis de datos con las que los profesionales de la analíticaAnalytics refere-se ao processo de coleta, Meça e analise dados para obter insights valiosos que facilitam a tomada de decisões. Em vários campos, como negócio, Saúde e esporte, A análise pode identificar padrões e tendências, Otimize processos e melhore resultados. O uso de ferramentas avançadas e técnicas estatísticas é essencial para transformar dados em conhecimento aplicável e estratégico.... y la ciencia de datos adorarán trabajar
Introdução
SQL é um equipamento chave no arsenal de um profissional de ciência de dados. Eu falo por experiência: você simplesmente não pode esperar construir uma carreira de sucesso em ciência de dados ou análise se ainda não aprendeu SQL.
E por que o SQL é tão importante?
UMA mediro "medir" É um conceito fundamental em várias disciplinas, que se refere ao processo de quantificação de características ou magnitudes de objetos, Fenômenos ou situações. Na matemática, Usado para determinar comprimentos, Áreas e volumes, enquanto nas ciências sociais pode se referir à avaliação de variáveis qualitativas e quantitativas. A precisão da medição é crucial para obter resultados confiáveis e válidos em qualquer pesquisa ou aplicação prática.... que avanzamos hacia una nueva década, a velocidade com que produzimos e consumimos dados dispara dia a dia. Para tomar decisões inteligentes baseadas em dados, organizações em todo o mundo estão contratando profissionais de dados, como analistas de negócios e cientistas de dados para extrair e descobrir insights do vasto tesouro de dados.
E uma das ferramentas mais importantes necessárias para isso é, Eu acho que, ¡SQL!
A linguagem de consulta estruturada (SQL) existe há décadas. É uma linguagem de programação usada para gerenciar dados armazenados em bancos de dados relacionais. SQL é usado pela maioria das grandes empresas em todo o mundo. Um analista de dados pode usar SQL para acessar, leitura, manipular y analizar los datos almacenados en una base de dadosUm banco de dados é um conjunto organizado de informações que permite armazenar, Gerencie e recupere dados com eficiência. Usado em várias aplicações, De sistemas corporativos a plataformas online, Os bancos de dados podem ser relacionais ou não relacionais. O design adequado é fundamental para otimizar o desempenho e garantir a integridade das informações, facilitando assim a tomada de decisão informada em diferentes contextos.... y generar información útil para impulsar un proceso de toma de decisiones informado.
Neste artigo, Eu discutirei 8 técnicas / Consultas SQL que irão prepará-lo para quaisquer problemas de análise de dados avançados. Observe que este artigo pressupõe um conhecimento muito básico de SQL.
Eu sugeriria verificar os cursos abaixo se você é novo em SQL e / ou análise de negócios:
Tabela de conteúdo
- Vamos primeiro entender o conjunto de dados
- Técnica SQL n. ° 1: contar linhas e elementos
- Técnica SQL n. ° 2: funções de agregação
- Técnica SQL # 3: Identificação de valores extremos
- Técnica SQL n. ° 4: corte de dados
- Técnica SQL n. ° 5: limitação de dados
- Técnica SQL n. ° 6: classificação de dados
- Técnica SQL n. ° 7: padrões de filtro
- Técnica SQL n. ° 8: clusters, acumulação de dados e filtragem em grupos
Vamos primeiro entender o conjunto de dados
Qual é a melhor maneira de aprender a analisar dados? Fazendo isso lado a lado em um conjunto de dados!! Para este propósito, Eu criei um conjunto de dados fictício de uma loja de varejo. A tabela de dados do cliente é representada por ConsumerDetails.
Nosso conjunto de dados consiste nas seguintes colunas:
- Nome – O nome do consumidor
- Localização – A localização do cliente
- Total_amt_spend – A quantia total de dinheiro gasta pelo consumidor na loja.
- Indústria – Significa a indústria à qual o consumidor pertence
Observação: – Vou usar MySQL 5.7 avançar no artigo. Você pode baixá-lo aqui – Descargas de My SQL 5.7.
Técnica SQL n. ° 1: contagem de linha e item
Começaremos nossa análise com a consulta mais simples, quer dizer, contando o número de linhas em nossa mesa. Faremos isso usando a função – CONTAR ().
Excelente! Agora sabemos o número de linhas em nossa tabela, o que é 10. Pode parecer divertido usar esta função em um pequeno conjunto de dados de teste, Mas pode percorrer um longo caminho quando suas fileiras chegam a milhões!!
Muitas vezes, nossa tabela de dados está cheia de valores duplicados. Para alcançar o valor único, usamos la función DISTINTOPalavra "DISTINTO" em inglês, ele se traduz em espanhol como "diferente" o "diferente". No campo da programação e bancos de dados, especialmente em SQL, Usado para remover duplicatas nos resultados da consulta. Ao aplicar a cláusula DISTINCT, Somente os valores exclusivos de um conjunto de dados são obtidos, que facilita a análise e apresentação de informações relevantes e não redundantes.....
Em nosso conjunto de dados, Como podemos encontrar os setores exclusivos aos quais os clientes pertencem?
Você adivinhou certo. Podemos fazer isso usando a função DISTINCT.
Você pode até contar o número de linhas únicas usando a contagem em conjunto com diferentes. Você pode consultar a seguinte consulta:
Técnica SQL # 2 – Funções de agregação
As funções de agregação são a base de qualquer tipo de análise de dados. Eles nos dão uma visão geral do conjunto de dados. Algumas das funções que discutiremos são: SOMA (), AVG () e STDDEV ().
Nós usamos o SOMA() função para calcular a soma da coluna numérica em uma tabela.
Vamos descobrir a soma do valor gasto por cada um dos clientes:
No exemplo acima, sum_all é o variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... en la que se almacena el valor de la suma. A soma da quantia de dinheiro gasta pelos consumidores é Rs. 12.560.
Para calcular a média das colunas numéricas, nós usamos o AVG () Função. Vamos encontrar o gasto médio do consumidor em nossa loja de varejo:
O valor médio gasto pelos clientes na loja de varejo é Rs. 1256.
Calcule o desvio padrão
Se você olhou para o conjunto de dados e, em seguida, o valor médio dos gastos do consumidor, você deve ter notado que algo está faltando. A média não fornece uma imagem completa, então vamos procurar outra métrica importante: o desvio padrão. A função é STDDEV ().
O desvio padrão acaba sendo 829,7, o que significa que há uma grande disparidade entre os gastos do consumidor.
Técnica SQL # 3 – Identificação de valores extremos
O próximo tipo de análise é identificar valores extremos que o ajudarão a entender melhor os dados..
O valor numérico máximo pode ser identificado pela função MAX (). Vamos ver como aplicá-lo:
A quantia máxima de dinheiro que o consumidor gasta na loja de varejo é Rs. 3000.
Semelhante à função max, nós temos a função MIN () para identificar o valor numérico mínimo em uma determinada coluna:
A quantidade mínima de dinheiro gasta pelo consumidor na loja de varejo é Rs. 350.
Técnica SQL n. ° 4: corte de dados
Agora, vamos nos concentrar em uma das partes mais importantes da análise de dados: dividir os dados. Esta seção da análise formará a base para consultas avançadas e ajudará você a recuperar dados com base em algum tipo de condição.
- Digamos que a loja de varejo queira encontrar clientes que venham de uma localidade, especificamente Shakti Nagar e Shanti Vihar. Qual será a consulta para isso?
Genial, tenho 3 clientes! Hemos utilizado la cláusula ONDE"ONDE" é um termo em inglês que se traduz como "Onde" em espanhol. Usado para fazer perguntas sobre a localização das pessoas, Objetos ou eventos. Em contextos gramaticais, Pode funcionar como advérbio de lugar e é fundamental na formação de perguntas. Sua correta aplicação é essencial na comunicação cotidiana e no ensino de idiomas, facilitando a compreensão e troca de informações sobre posições e direções.... para filtrar los datos en función de la condición de que los consumidores deberían vivir en la localidad: Shakti Nagar y Shanti Vihar. Eu não usei a condição OR aqui. Em seu lugar, Usei o operador IN, que nos permite especificar vários valores na cláusula WHERE.
- Precisamos encontrar clientes que morem em locais específicos (Shakti Nagar y Shanti Vihar) e gastar uma quantia maior do que Rs. 2000.
Em nosso conjunto de dados, apenas Shantanu e Natasha atendem a essas condições. Como ambas as condições devem ser atendidas, a condição AND é mais adequada aqui. Vamos ver outro exemplo para dividir nossos dados.
- Desta vez, a loja de varejo quer reconquistar todos os consumidores que gastam entre Rs. 1000 y Rs. 2000 para gerar ofertas especiais de marketing. Qual será a consulta para isso?
Outra maneira de escrever a mesma declaração seria:
Apenas Rohan está eliminando esse critério!!
Excelente! Chegamos ao meio de nossa jornada. Vamos construir mais sobre o conhecimento que adquirimos até agora.
Técnica SQL n. ° 5: limitação de dados
Digamos que queremos ver a tabela de dados composta por milhões de registros. No podemos usar la instrucción SELECIONEO comando "SELECIONE" é fundamental em SQL, usado para consultar e recuperar dados de um banco de dados. Permite especificar colunas e tabelas, filtrando resultados usando cláusulas como "ONDE" e ordenar com "ORDENAR POR". Sua versatilidade o torna uma ferramenta essencial para manipulação e análise de dados, facilitando a obtenção de informações específicas de forma eficiente.... directamente ya que esto volcaría la tabla completa en nuestra pantalla, que é complicado e computacionalmente intensivo. Em seu lugar, podemos usar o LIMITE cláusula:
O comando SQL acima nos ajuda a mostrar o primeiro 5 linhas da tabela.
O que você fará se quiser apenas selecionar a quarta e a quinta linhas? Usaremos a cláusula OFFSET. A cláusula OFFSET irá pular o número especificado de linhas. Vamos ver como isso funciona:
Técnica SQL n. ° 6: classificação de dados
A classificação de dados nos ajuda a colocar nossos dados em perspectiva. Podemos realizar o processo de classificação usando a palavra-chave – ORDENAR PORO comando "ORDENAR POR" em SQL, é usado para classificar os resultados de uma consulta com base em uma ou mais colunas. Permite especificar a ordem crescente (ASC) ou descendente (DESC) dos dados, facilitando a visualização e análise de informações. É uma ferramenta essencial para organizar dados em bancos de dados, melhorando a compreensão e o acesso a informações relevantes.....
A palavra-chave pode ser usada para classificar os dados em ordem crescente ou decrescente. A palavra-chave ORDER BY classifica os dados em ordem crescente por padrão.
Vejamos um exemplo no qual classificamos os dados de acordo com a coluna Total_amt_spend em ordem crescente:
Impressionante! Para classificar o conjunto de dados em ordem decrescente, podemos seguir o seguinte comando:
Técnica SQL # 7 – Padrões de filtragem
Nas seções anteriores, aprendemos como filtrar dados com base em uma ou mais condições. Aqui, aprenderemos como filtrar as colunas que correspondem a um padrão específico. Para continuar com isso, primeiro entenderemos o operador LIKE e os caracteres curinga.
O operador LIKE é usado em uma cláusula WHERE para encontrar um padrão específico em uma coluna.
O caractere curinga é usado para substituir um ou mais caracteres em uma string. Eles são usados em conjunto com o operador LIKE. Os dois caracteres curinga mais comuns são:
- %: Representa 0 ou mais personagens
- _ – Representa um único personagem
Em nosso conjunto de dados de varejo fictício, digamos que queremos todas as localidades que terminam com "Nagar". Reserve um momento para entender a definição do problema e pense em como podemos resolvê-lo..
Vamos tentar resolver o problema. Exigimos todos os locais que terminam com “Nagar” e eles podem ter qualquer número de caracteres antes desta string particular. Portanto, podemos fazer uso do curinga “%” antes de “Nagar”:
Impressionante, tenho 6 localidades que terminam com este nome. Observe que estamos usando o operador LIKE para realizar a correspondência de padrões.
A seguir, vamos tentar resolver outro problema com base em padrões. Queremos os nomes dos consumidores cujo segundo personagem tem “uma” em seus respectivos nomes. Novamente, Eu sugiro que você reserve um momento para entender o problema e pense em uma lógica para resolvê-lo.
Vamos analisar o problema. Aqui, o segundo personagem deve ser “uma”. O primeiro personagem pode ser qualquer coisa, então substituímos esta letra pelo caractere curinga "_". Depois do segundo personagem, pode haver qualquer número de caracteres, então substituímos esses caracteres pelo curinga “%”. O padrão final de correspondência será parecido com este:
Tenho 6 pessoas que satisfazem esta estranha condição!
Técnica SQL n. ° 8: clusters, acumulação de dados e filtragem em grupos
Finalmente chegamos a uma das ferramentas de análise mais poderosas em SQL: la agrupación de datos que se realiza utilizando la instrucción AGRUPAR PORA cláusula "AGRUPAR POR" em SQL, é usado para agrupar linhas que compartilham valores em colunas específicas. Isso permite que as funções de agregação sejam executadas, como SUM, CONTAGEM ou MÉDIA, Sobre os grupos resultantes. Seu uso é essencial para analisar dados e obter resumos estatísticos. É importante lembrar que todas as colunas selecionadas que não fazem parte de uma função de agregação devem ser incluídas no "AGRUPAR POR"..... A aplicação mais útil desta declaração é encontrar a distribuição de variáveis categóricas. Isso é feito usando a instrução GROUP BY em conjunto com funções de agregação como – CONTAR, SOMA, AVG, etc.
Vamos tentar entender isso melhor fazendo uma declaração do problema. A loja de varejo deseja encontrar o número de clientes correspondentes aos setores a que pertence:
Observamos que a contagem de clientes pertencentes às diferentes indústrias é mais ou menos a mesma. Então, Vamos em frente e encontrar a soma das despesas dos clientes agrupados pelo setor a que pertencem:
Podemos ver que o valor máximo gasto é por clientes pertencentes ao Manufatura indústria. Isso parece um pouco fácil, verdade? Vamos dar um passo à frente e torná-lo mais complicado.
Agora, o varejista quer encontrar as indústrias cujos Total é maior que 2500. Para resolver este problema, volveremos a agrupar los datos según la industria y luego usaremos la cláusula HAVINGEl verbo "haber" en español es un auxiliar fundamental que se utiliza para formar tiempos compuestos. Su conjugación varía según el tiempo y el sujeto, ser "he", "has", "ha", "hemos", "habéis" e "han" las formas del presente. O que mais, en algunas regiones, se usa "haber" como un verbo impersonal para indicar existencia, como em "existem" para "there is/are". Su correcta utilización es esencial para una comunicación efectiva en español.....
A cláusula HAVING é como a cláusula WHERE, mas apenas para filtrar dados agrupados. Lembrar, virá sempre após a instrução GROUP BY.
Temos apenas 3 categorias que satisfazem as condições: Aviação, Defendendo, e Manufatura. Mas para deixar mais claro, Também adicionarei a palavra-chave ORDER BY para torná-lo mais intuitivo:
Notas finais
Estou tão feliz que você chegou até aqui. Estes são os blocos de construção de todas as consultas de análise de dados em SQL. Você também pode fazer consultas avançadas usando esses princípios básicos. Neste artigo, eu usei mysql 5.7 para definir os exemplos.
Eu realmente espero que essas consultas SQL ajudem você no seu dia a dia quando você estiver analisando dados complexos. Tenha algumas dicas e truques para analisar dados em SQL? Deixe-me saber nos comentários!!