Panoramica
- SQL es un lenguaje imprescindible para cualquier persona en análisis o ciencia de datos.
- qui c'è 8 ingeniosas técnicas de SQL para el análisis de datos con las que los profesionales de la analiticoL'analisi si riferisce al processo di raccolta, Misura e analizza i dati per ottenere informazioni preziose che facilitano il processo decisionale. In vari campi, come business, Salute e sport, L'analisi può identificare modelli e tendenze, Ottimizza i processi e migliora i risultati. L'utilizzo di strumenti avanzati e tecniche statistiche è fondamentale per trasformare i dati in conoscenze applicabili e strategiche.... y la ciencia de datos adorarán trabajar
introduzione
SQL es un engranaje clave en el arsenal de un profesional de la ciencia de datos. Hablo por experiencia: simplemente no puede esperar forjarse una carrera exitosa en análisis o ciencia de datos si aún no ha aprendido SQL.
¿Y por qué SQL es tan importante?
UN misuraIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... que avanzamos hacia una nueva década, la velocidad a la que producimos y consumimos datos se dispara día a día. Para tomar decisiones inteligentes basadas en datos, las organizaciones de todo el mundo están contratando profesionales de datos como analistas de negocios y científicos de datos para extraer y desenterrar conocimientos del vasto tesoro de datos.
Y una de las herramientas más importantes necesarias para esto es, lo adivinó, ¡SQL!
El lenguaje de consulta estructurado (SQL) ha existido durante décadas. Es un lenguaje de programación utilizado para administrar los datos almacenados en bases de datos relacionales. La mayoría de las grandes empresas utilizan SQL en todo el mundo. Un analista de datos puede usar SQL para acceder, leggere, manipular y analizar los datos almacenados en una Banca datiUn database è un insieme organizzato di informazioni che consente di archiviare, Gestisci e recupera i dati in modo efficiente. Utilizzato in varie applicazioni, Dai sistemi aziendali alle piattaforme online, I database possono essere relazionali o non relazionali. Una progettazione corretta è fondamentale per ottimizzare le prestazioni e garantire l'integrità delle informazioni, facilitando così il processo decisionale informato in diversi contesti.... y generar información útil para impulsar un proceso de toma de decisiones informado.
In questo articolo, Discuterò 8 técnicas / consultas de SQL que lo prepararán para cualquier problema avanzado de análisis de datos. Tenga en cuenta que este artículo asume un conocimiento muy básico de SQL.
Sugeriría consultar los cursos a continuación si es nuevo en SQL y / o análisis de negocios:
Sommario
- Primero comprendamos el conjunto de datos
- Técnica SQL n. ° 1: contar filas y elementos
- Técnica SQL n. ° 2: funciones de agregación
- Técnica SQL # 3: Identificación de valores extremos
- Técnica SQL n. ° 4: corte de datos
- Técnica SQL n. ° 5: limitación de datos
- Técnica SQL n. ° 6: clasificación de datos
- Técnica SQL n. ° 7: patrones de filtrado
- Técnica SQL n. ° 8: agrupaciones, acumulación de datos y filtrado en grupos
Primero comprendamos el conjunto de datos
¿Cuál es la mejor forma de aprender a analizar datos? ¡Realizándolo uno al lado del otro en un conjunto de datos! Per questo scopo, he creado un conjunto de datos ficticio de una tienda minorista. La tabla de datos del cliente está representada por ConsumerDetails.
Nuestro conjunto de datos consta de las siguientes columnas:
- Nome – El nombre del consumidor
- Localidad – La localidad del cliente
- Total_amt_spend – La cantidad total de dinero gastado por el consumidor en la tienda.
- Industria – Significa la industria a la que pertenece el consumidor
Nota: – Usaré MySQL 5.7 para avanzar en el artículo. Puedes descargarlo desde aquí – Descargas de My SQL 5.7.
Técnica SQL n. ° 1: recuento de filas y elementos
Comenzaremos nuestro análisis con la consulta más simple, vale a dire, contando el número de filas en nuestra tabla. Haremos esto usando la función – CONTARE ().
Eccellente! Ahora sabemos el número de filas en nuestra tabla, Che cos'è 10. Puede parecer divertido usar esta función en un pequeño conjunto de datos de prueba, ¡pero puede ayudar mucho cuando sus filas llegan a millones!
Molte volte, nuestra tabla de datos está llena de valores duplicados. Para alcanzar el valor único, usamos la función DISTINTOLa parola "DISTINTO" en inglés se traduce al español como "Poiché Hadoop è una tecnologia che archivia enormi volumi di informazioni e consente di implementare l'analisi predittiva da enormi quantità di dati" oh "diferente". En el ámbito de la programación y las bases de datos, especialmente en SQL, se utiliza para eliminar duplicados en los resultados de consultas. Al aplicar la cláusula DISTINCT, se obtienen solo los valores únicos de un conjunto de datos, lo que facilita el análisis y la presentación de información relevante y no redundante.....
Nel nostro set di dati, ¿cómo podemos encontrar las industrias únicas a las que pertenecen los clientes?
Lo has adivinado bien. Podemos hacer esto usando la función DISTINCT.
Incluso puede contar el número de filas únicas utilizando el recuento junto con distintos. Puede consultar la siguiente consulta:
Técnica SQL # 2 – Funciones de agregación
Las funciones de agregación son la base de cualquier tipo de análisis de datos. Nos brindan una descripción general del conjunto de datos. Algunas de las funciones que discutiremos son: SOMMA (), AVG () y STDDEV ().
Usiamo il SOMMA() función para calcular la suma de la columna numérica en una tabla.
Averigüemos la suma del monto gastado por cada uno de los clientes:
Nell'esempio sopra, suma_todos es la variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... en la que se almacena el valor de la suma. La suma de la cantidad de dinero gastada por los consumidores es de Rs. 12.560.
Para calcular el promedio de las columnas numéricas, noi usiamo il AVG () funzione. Encontremos el gasto promedio de los consumidores para nuestra tienda minorista:
La cantidad promedio gastada por los clientes en la tienda minorista es de Rs. 1256.
Calcular la desviación estándar
Si ha mirado el conjunto de datos y luego el valor promedio del gasto de los consumidores, habrá notado que falta algo. El promedio no proporciona una imagen completa, así que busquemos otra métrica importante: la deviazione standard. La función es STDDEV ().
La desviación estándar resulta ser 829,7, lo que significa que hay una gran disparidad entre los gastos de los consumidores.
Técnica SQL # 3 – Identificación de valores extremos
El siguiente tipo de análisis es identificar los valores extremos que le ayudarán a comprender mejor los datos.
El valor numérico máximo se puede identificar mediante la función MAX (). Veamos cómo aplicarlo:
La cantidad máxima de dinero que gasta el consumidor en la tienda minorista es de Rs. 3000.
Similar a la función max, tenemos la función MIN () para identificar el valor numérico mínimo en una columna dada:
La cantidad mínima de dinero gastada por el consumidor de la tienda minorista es de Rs. 350.
Técnica SQL n. ° 4: corte de datos
Ora, centrémonos en una de las partes más importantes del análisis de datos: suddivisione dei dati. Esta sección del análisis formará la base para consultas avanzadas y lo ayudará a recuperar datos basados en algún tipo de condición.
- Digamos que la tienda minorista quiere encontrar clientes que provengan de una localidad, específicamente Shakti Nagar y Shanti Vihar. ¿Cuál será la consulta para esto?
¡Geniale, avere 3 clienti! Hemos utilizado la cláusula DOVE"DOVE" è un termine in inglese che si traduce come "dove" in spagnolo. Utilizzato per porre domande sulla posizione delle persone, Oggetti o eventi. In contesti grammaticali, Può funzionare come avverbio di luogo ed è fondamentale nella formazione delle domande. La sua corretta applicazione è essenziale nella comunicazione quotidiana e nell'insegnamento delle lingue, facilitare la comprensione e lo scambio di informazioni su posizioni e direzioni.... para filtrar los datos en función de la condición de que los consumidores deberían vivir en la localidad: Shakti Nagar y Shanti Vihar. No usé la condición OR aquí. Anziché, he usado el operador IN que nos permite especificar múltiples valores en la cláusula WHERE.
- Necesitamos encontrar a los clientes que viven en localidades específicas (Shakti Nagar y Shanti Vihar) y gastar una cantidad mayor a Rs. 2000.
Nel nostro set di dati, solo Shantanu y Natasha cumplen estas condiciones. Como deben cumplirse ambas condiciones, la condición AND se adapta mejor aquí. Veamos otro ejemplo para dividir nuestros datos.
- Questa volta, la tienda minorista quiere recuperar a todos los consumidores que gastan entre Rs. 1000 y Rs. 2000 para impulsar ofertas especiales de marketing. ¿Cuál será la consulta para esto?
Otra forma de escribir la misma declaración sería:
¡Solo Rohan está despejando este criterio!
Eccellente! Hemos llegado a la mitad de nuestro viaje. Construyamos más sobre el conocimiento que hemos adquirido hasta ahora.
Técnica SQL n. ° 5: limitación de datos
Digamos que queremos ver la tabla de datos que consta de millones de registros. No podemos usar la instrucción SELEZIONAREIl comando "SELEZIONARE" è fondamentale in SQL, Utilizzato per interrogare e recuperare dati da un database. Consente di specificare colonne e tabelle, filtrare i risultati utilizzando clausole quali "DOVE" e ordinando con "ORDINA PER". La sua versatilità lo rende uno strumento essenziale per la manipolazione e l'analisi dei dati, facilitare l'ottenimento di informazioni specifiche in modo efficiente.... directamente ya que esto volcaría la tabla completa en nuestra pantalla, lo cual es engorroso y computacionalmente intensivo. Anziché, possiamo usare il LÍMITE clausola:
El comando SQL anterior nos ayuda a mostrar las primeras 5 filas de la tabla.
¿Qué hará si solo desea seleccionar la cuarta y quinta filas? Haremos uso de la cláusula OFFSET. La cláusula OFFSET omitirá el número especificado de filas. Vediamo come funziona:
Técnica SQL n. ° 6: clasificación de datos
Ordenar datos nos ayuda a poner nuestros datos en perspectiva. Podemos realizar el proceso de clasificación usando la palabra clave – ORDINA PERIl comando "ORDINA PER" en SQL se utiliza para ordenar los resultados de una consulta en función de una o más columnas. Permite especificar el orden ascendente (ASC) o descendente (DESC) dei dati, facilitando la visualización y análisis de la información. Es una herramienta esencial para organizar datos en bases de datos, mejorando la comprensión y el acceso a la información relevante.....
La palabra clave se puede utilizar para clasificar los datos en orden ascendente o descendente. La palabra clave ORDER BY ordena los datos en orden ascendente de forma predeterminada.
Veamos un ejemplo en el que ordenamos los datos según la columna Total_amt_spend en orden ascendente:
Degno di nota! Para ordenar el conjunto de datos en orden descendente, podemos seguir el siguiente comando:
Técnica SQL # 7 – Patrones de filtrado
En las secciones anteriores, aprendimos cómo filtrar los datos en función de una o varias condiciones. Qui, aprenderemos a filtrar las columnas que coinciden con un patrón específico. Para seguir adelante con esto, primero entenderemos el operador LIKE y los caracteres comodín.
El operador LIKE se usa en una cláusula WHERE para buscar un patrón específico en una columna.
El carácter comodín se utiliza para sustituir uno o más caracteres en una cadena. Estos se utilizan junto con el operador LIKE. Los dos caracteres comodín más comunes son:
- %: Representa 0 o más caracteres
- _ – Representa un solo carácter
En nuestro conjunto de datos minoristas ficticios, digamos que queremos todas las localidades que terminan con “Nagar”. Tómese un momento para comprender el enunciado del problema y piense cómo podemos resolverlo.
Intentemos resolver el problema. Requerimos todas las localidades que terminan con “Nagar” y pueden tener cualquier número de caracteres antes de esta cadena en particular. Perciò, podemos hacer uso del comodín “%” prima “Nagar”:
Degno di nota, avere 6 localidades que terminan con este nombre. Observe que estamos usando el operador LIKE para realizar la coincidencia de patrones.
Prossimo, intentaremos resolver otro problema basado en patrones. Queremos los nombres de los consumidores cuyo segundo carácter tiene “un” en sus respectivos nombres. Ancora, le sugiero que se tome un momento para comprender el problema y pensar en una lógica para resolverlo.
Analicemos el problema. Qui, el segundo carácter debe ser “un”. El primer carácter puede ser cualquier cosa, por lo que sustituimos esta letra por el comodín “_”. Después del segundo carácter, puede haber cualquier número de caracteres, por lo que sustituimos esos caracteres con el comodín “%”. La coincidencia de patrones final se verá así:
¡Tenemos 6 personas que satisfacen esta extraña condición!
Técnica SQL n. ° 8: agrupaciones, acumulación de datos y filtrado en grupos
Finalmente hemos llegado a una de las herramientas de análisis más poderosas en SQL: la agrupación de datos que se realiza utilizando la instrucción RAGGRUPPA PERLa cláusula "RAGGRUPPA PER" en SQL se utiliza para agrupar filas que comparten valores en columnas específicas. Esto permite realizar funciones de agregación, come SOMMA, COUNT o AVG, sobre los grupos resultantes. Su uso es fundamental para analizar datos y obtener resúmenes estadísticos. Es importante recordar que todas las columnas seleccionadas que no forman parte de una función de agregación deben incluirse en la cláusula "RAGGRUPPA PER"..... La aplicación más útil de esta declaración es encontrar la distribución de variables categóricas. Esto se hace usando la instrucción GROUP BY junto con funciones de agregación como – CONTARE, SOMMA, AVG, eccetera.
Tratemos de entender esto mejor tomando un enunciado del problema. La tienda minorista desea encontrar el número de clientes correspondiente a las industrias a las que pertenece:
Observamos que el recuento de clientes pertenecientes a las distintas industrias es más o menos el mismo. Quindi, avancemos y encontremos la suma de los gastos de los clientes agrupados por la industria a la que pertenecen:
Podemos observar que la máxima cantidad de dinero gastada es por los clientes pertenecientes a la Fabricación industria. Esto parece un poco fácil, verità? Demos un paso adelante y lo hagamos más complicado.
Ora, el minorista quiere encontrar las industrias cuyas Suma total è più grande di 2500. Risolvere questo problema, volveremos a agrupar los datos según la industria y luego usaremos la cláusula AVENTEEl verbo "haber" en español es un auxiliar fundamental que se utiliza para formar tiempos compuestos. Su conjugación varía según el tiempo y el sujeto, essendo "he", "has", "ha", "hemos", "habéis" e "han" las formas del presente. Cosa c'è di più, en algunas regiones, se usa "haber" como un verbo impersonal para indicar existencia, come in "ci sono" per "there is/are". Su correcta utilización es esencial para una comunicación efectiva en español.....
La cláusula HAVING es como la cláusula WHERE pero solo para filtrar los datos agrupados. Ricordare, siempre vendrá después de la instrucción GROUP BY.
Tenemos solo 3 categorías que satisfacen las condiciones: Aviación, difendendo, e Fabricación. Pero para hacerlo más claro, también agregaré la palabra clave ORDER BY para hacerlo más intuitivo:
Note finali
Estoy muy contento de que hayas llegado tan lejos. Estos son los componentes básicos de todas las consultas de análisis de datos en SQL. También puede realizar consultas avanzadas utilizando estos fundamentos. In questo articolo, utilicé MySQL 5.7 para establecer los ejemplos.
Realmente espero que estas consultas SQL le ayuden en su día a día cuando esté analizando datos complejos. ¿Tiene alguno de sus consejos y trucos para analizar datos en SQL? Fatemi sapere nei commenti!!