Introducción
¡Aprender SQL después de Excel no podría ser más sencillo!
He pasado más de una década trabajando en Excel. Sin embargo, hay mucho que aprender. Si no le gusta la codificación, Excel podría ser su rescate en el mundo de la ciencia de datos (hasta cierto punto). Una vez que comprenda las operaciones de Excel, aprender SQL es muy fácil.
¿Por qué no puede usar Excel para un trabajo serio de ciencia de datos?
Ahora, en esta etapa, podría preguntarse, ¿por qué no puedo usar Excel para todo mi trabajo? Hay varias razones para ello:
- Para grandes conjuntos de datos, Excel no es efectivo. Los cálculos en grandes conjuntos de datos no se realizarán o llevarán mucho tiempo. Solo una advertencia: Microsoft lanzó recientemente Power BI y necesito explorarlo. Podría haber cambiado los límites de los grandes datos.
- No hay una pista de auditoría en Excel. Con herramientas basadas en la codificación y la gestión del flujo de trabajo, puede volver a examinar y ejecutar el proceso una y otra vez. Es muy difícil hacerlo en Excel. Si cambia o elimina una celda en Excel de manera accidental, es difícil rastrearla.
- Finalmente, Excel toma mucho tiempo para actualizar las bibliotecas con los últimos algoritmos en ciencia de datos y aprendizaje automático. ¡Intente buscar XGboost y FTRL en Excel!
Pasar a SQL abordaría el punto 1 y el punto 2 hasta cierto punto. Además, SQL es una de las habilidades más buscadas por un científico de datos.
Si aún no conoce SQL y ha trabajado en Excel, puede comenzar ahora mismo. Diseñé este tutorial teniendo en cuenta las operaciones de Excel más utilizadas. Su experiencia previa combinada con este tutorial puede convertirlo rápidamente en un experto en SQL. (Nota: Si encuentra algún problema, escríbame en la sección de comentarios a continuación.
Relacionado: Conceptos básicos de SQL y RDBMS para principiantes
Lista de operaciones comunes de Excel
Aquí está la lista de operaciones de Excel de uso común. En este tutorial, he realizado todas estas operaciones en SQL:
- Ver datos
- Ordenar datos
- Filtrar datos
- Eliminar registros
- Agregar registros
- Actualizar datos en un registro existente
- Mostrar valores únicos
- Escribe una expresión para generar una nueva columna
- Buscar datos de otra tabla
- Tabla dinámicaLa tabla dinámica es una herramienta poderosa en programas de hoja de cálculo, como Microsoft Excel y Google Sheets. Permite resumir, analizar y visualizar grandes volúmenes de datos de manera eficiente. A través de su interfaz intuitiva, los usuarios pueden reorganizar la información, aplicar filtros y crear informes personalizados, facilitando la toma de decisiones informadas en diversos contextos, desde el ámbito empresarial hasta la investigación académica....
Para realizar las operaciones enumeradas anteriormente, usaré los datos enumerados a continuación (Empleado) :
1. Ver datos
En Excel, podemos ver todos los registros directamente. Pero SQL requiere un comando para procesar esta solicitud. Esto se puede hacer usando SELECCIONE mando.
Sintaxis:
SELECCIONAR columna_1, columna_2,… columna_n | * FROM nombre_tabla;
Ejercicio:
A. Ver todos los datos de la tabla de empleados
SelectEl comando "SELECT" es fundamental en SQL, utilizado para consultar y recuperar datos de una base de datos. Permite especificar columnas y tablas, filtrando resultados mediante cláusulas como "WHERE" y ordenando con "ORDER BY". Su versatilidad lo convierte en una herramienta esencial para la manipulación y análisis de datos, facilitando la obtención de información específica de manera eficiente.... * from Employee;
B. Ver solo datos ECODE y de género de la tabla de empleados
Seleccione ECODE, género de empleado
2. Ordenar datos
La organización de la información se vuelve importante cuando tiene más datos. Ayuda a generar inferencias rápidas. Puedes rapidamente organizar una hoja de trabajo de Excel por clasificación sus datos en orden ascendente o descendente.
Sintaxis:
SELECCIONAR columna_1, columna_2,… columna_n | * FROM table_name orden por column_1 [desc], column_2 [desc];
Ejercicio:
A. Organizar los registros de la tabla de empleados en orden descendente de Total_Payout.
Select * from Employee order by Total_Payout desc;
B. Organizar los registros de la tabla de Empleados por ciudad (ascendente) y Total_Payout (descendente).
Select * from Employee order by City, Total_Payout desc;
3. Filtrar datos
Además de ordenar, a menudo aplicamos filtros para analizar los datos de una mejor manera. Cuando se filtran los datos, solo se muestran las filas que cumplen con los criterios del filtro, mientras que otras filas se ocultan. Además, podemos aplicar varios criterios para filtrar datos.
Sintaxis:
SELECCIONAR columna_1, columna_2,… columna_n | * FROM table_name donde column_1 operador valor;
A continuación se muestra la lista común de operadores que podemos usar para formar una condición.
Operador | Descripción |
---|---|
= | Igual |
No es igual. Nota: En algunas versiones de SQL, este operador puede escribirse como! = | |
> | Mas grande que |
< | Menos que |
> = | Mayor que o igual |
<= | Menor o igual |
ENTRE | Entre una gama inclusiva |
IGUAL QUE | Busca un patrón |
EN | Para especificar varios valores posibles para una columna |
Ejercicio:
A. Filtrar las observaciones asociadas con la ciudad «Delhi»
Select * from Employee where City="Delhi";
B. Filtrar las observaciones del departamento «Admin» y Total_Payout> = 500
Select * from Employee where Department="Admin" and Total_Payout >=500;
4. Eliminar registros
Eliminar registros o columnas es una operación de uso común en Excel. En Excel, simplemente presionamos la tecla ‘Eliminar’ en el teclado para eliminar un registro. Del mismo modo, SQL tiene comando ELIMINAR para eliminar registros de una tabla.
Sintaxis:
BORRAR DE nombre de la tabla DÓNDE alguna_columna=algún_valor;
Ejercicio:
A. Eliminar observaciones que tengan Total_Payout> = 600
Delete * from Employee where Total_Payout >=600;
Elimina dos registros solo porque estas dos observaciones satisfacen la condición indicada anteriormente. ¡Pero ten cuidado! si no proporcionamos ninguna condición, eliminará todos los registros de una tabla.
B. Eliminar observaciones que tengan Total_Payout> = 600 y Department = «Admin»
Delete * from Employee where Total_Payout >=600 and Department ="Admin";
El comando anterior eliminará solo un registro que cumpla con la condición.
5. Agregar registros
Hemos visto métodos para eliminar registros, también podemos agregar registros a la tabla SQL como lo hacemos en Excel. INSERTAR El comando ayuda a realizar esta operación.
Sintaxis:
INSERTAR EN nombre de la tabla VALORES (valor1, valor2, valor3,…); -> Insertar valores en todas las columnas
O,
INSERTAR EN nombre de la tabla (columna1,columna2,columna3,…) VALORES (valor1,valor2,valor3,…); -> Insertar valores en columnas seleccionadas
Ejercicio:
A. Agregue los registros a continuación a la tabla ‘Empleado’
Insert into employee values('A002','05-Nov-12',0.8,'Female','Admin',12.05,26,313.3,'Mumbai');
Select * from Employee where ECODE='A002';
B. Inserte valores en ECODE (A016) y Departamento (HR) únicamente.
Insert into employee (ECODE, Department) values('A016','HR');
Select * from Employee where Department="HR";
6. Actualización Datos en observaciones existentes
Supongamos que queremos actualizar el nombre del departamento de «RRHH» a «Mano de obra» para todos los empleados. Para tales casos, SQL tiene un comando ACTUALIZAR que realiza esta función.
Sintaxis:
ACTUALIZAR table_name SET column1 = value1, column2 = value2,… WHERE"WHERE" es un término en inglés que se traduce como "dónde" en español. Se utiliza para hacer preguntas sobre la ubicación de personas, objetos o eventos. En contextos gramaticales, puede funcionar como adverbio de lugar y es fundamental en la formación de preguntas. Su correcta aplicación es esencial en la comunicación cotidiana y en la enseñanza de idiomas, facilitando la comprensión y el intercambio de información sobre posiciones y direcciones.... some_column = some_value;
Ejercicio: cambie el nombre del departamento «Recursos humanos» a «Mano de obra»
Update Employee SET Department="Manpower" where Department="HR";
Seleccione * de Empleado;
7. Muestre valores únicos
Podemos mostrar valores únicos de variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.... (s) aplicando DISTINTO palabra clave antes del nombre de la variable.
Sintaxis:
SELECT DISTINCTLa palabra "DISTINCT" en inglés se traduce al español como "distinto" o "diferente". En el ámbito de la programación y las bases de datos, especialmente en SQL, se utiliza para eliminar duplicados en los resultados de consultas. Al aplicar la cláusula DISTINCT, se obtienen solo los valores únicos de un conjunto de datos, lo que facilita el análisis y la presentación de información relevante y no redundante.... nombre_columna, nombre_columna FROM nombre_tabla;
Ejercicio: mostrar valores únicos de la ciudad
Select distinct City from Employee;
8. Escribe una expresión para generar una nueva columna.
En Excel, podemos crear una columna, basada en una columna existente usando funciones u operadores. Esto se puede hacer en SQL usando los siguientes comandos.
Ejercicio:
A. Cree una nueva columna de Incentivo que sea el 10% de Total_Payout
Seleccione *, Total_Payout * 01 como Incentivo del empleado;
B. Cree una nueva columna City_Code que tenga los primeros tres caracteres de City.
Select *, Left(City,3) as City_Code from Employee where Department="Admin";
Para obtener más detalles sobre las funciones de SQL, le recomendaría que consulte este Enlace.
9. Buscar datos de otra tabla
La función de Excel más utilizada por cualquier profesional de BI / analista de datos es BUSCARV (). Ayuda a mapear datos de otra tabla a la tabla principal. En otras palabras, podemos decir que es la forma ‘excelente’ de unir 2 conjuntos de datos a través de una clave común.
En SQL, tenemos una funcionalidad similar conocida como ENTRAR.
SQL JOIN"JOIN" es una operación fundamental en bases de datos que permite combinar registros de dos o más tablas basándose en una relación lógica entre ellas. Existen diferentes tipos de JOIN, como INNER JOIN, LEFT JOIN y RIGHT JOIN, cada uno con sus propias características y usos. Esta técnica es esencial para realizar consultas complejas y obtener información más relevante y detallada a partir de múltiples fuentes de datos.... se utiliza para combinar filas de dos o más tablas, basándose en un campo común entre ellas. Tiene varios tipos:
- UNIR INTERNAMENTE: Devuelve filas cuando hay una coincidencia en ambas tablas
- ÚNETE A LA IZQUIERDA: Devuelve todas las filas de la tabla de la izquierda y las filas coincidentes de la tabla de la derecha.
- UNIRSE CORRECTAMENTE: Devuelve todas las filas de la tabla de la derecha y las filas coincidentes de la tabla de la izquierda
- ÚNETE COMPLETO: Devuelve todas las filas cuando hay una coincidencia en UNA de las tablas
Sintaxis:
SELECT table1.column1, table2.column2..... FROM table1 INNER | LEFT| RIGHT| FULL JOIN table2 ON table1.column = table2.column;
Ejercicio: A continuación se muestra la tabla de categoría de ciudad «City_Cat», ahora quiero asignar la categoría de ciudad a la tabla de Empleado y mostrar todos los registros de la tabla de Empleado.Aquí, quiero mostrar todos los registros de la tabla Empleado. Entonces, usaremos unirse a la izquierda.
SELECT Employee.*,City_Cat.City_Category FROM Employee LEFT JOIN City_Cat ON Employee.City = City_Cat.City;
Para saber más sobre las operaciones JOIN, le recomendaría que consulte este Enlace.
10. Tabla dinámica
Pivot Table es una forma avanzada de analizar datos en Excel. No solo es útil, sino que le permite extraer información oculta de los datos.
Además, nos ayuda a generar inferencia por resumiendo datos y nos permite manipular de diferentes formas. Esta operación se puede realizar en SQL utilizando funciones agregadas y AGRUPAR POR mando.
Sintaxis:
SELECT columna, función_agregada (columna) DESDE la mesa DONDE valor del operador de columna GRUPO POR columna;
Ejercicio:
A. Mostrar la suma de Total_Payout por género
SELECT Gender, Sum(Total_Payout) from Employee Group by Gender;
B. Muestre la suma de Total_Payout y el recuento de registros por género y ciudad
SELECT Gender, City, Count(City), Sum(Total_Payout) from Employee Group by Gender, City;
Notas finales
Una vez que trabaje en SQL, se dará cuenta de que el manejo y la manipulación de datos pueden ser mucho más rápidos. Para la instalación, mysql es de código abierto. Puede instalarlo y comenzar.
En este artículo, hemos analizado los comandos SQL para 10 operaciones comunes de Excel como ver, ordenar, filtrar, eliminar, buscar y resumir datos. También analizamos los diferentes operadores y tipos de combinaciones para realizar operaciones SQL sin problemas.
¿Le resultó útil el artículo? Háganos saber sus pensamientos sobre esta guía de transición en la sección de comentarios a continuación.