Este artigo foi publicado como parte do Data Science Blogathon
Introdução
Sobre Ciência de dados, nuestro objetivo es realizar diferentes experimentos con datos sin procesar y encontrar algunos buenos conocimientos a partir de los datos. Para impulsar cualquier negocio por el camino correcto, los datos son muy importantes o podemos decir que “Los datos son el combustible”. Al menos puede proporcionar información útil que puede ayudar a:
- Estrategias de campañas actuales,
- Organice fácilmente el lanzamiento de nuevos productos o
- Prueba diferentes experimentos.
En todas las cosas mencionadas anteriormente, el único componente de conducción común son los datos. Estamos entrando en la era digital en la que producimos una gran cantidad de datos todos los días.
Por exemplo, Diariamente, una empresa como Flipkart produce más de 2 TB de datos.
Debido a la gran importancia de los datos en nuestra vida, se vuelve muy importante almacenar y procesar correctamente estos datos sin ningún error. Al tratar con conjuntos de datos, el tipo de datos o la categoría de los datos juega un papel importante para encontrar la respuesta a las siguientes preguntas:
- Qué estrategia de preprocesamiento funcionaría para un conjunto en particular para obtener los resultados correctos, o
- Qué tipo de análisis estadístico se debe aplicar para obtener los mejores resultados.
Então, neste artigo, discutiremos los diferentes tipos de datos en estadísticas que necesita saber para hacer Análise exploratória de dados (EDA), que es uno de los componentes más importantes en la tubería de un proyecto de aprendizaje automático.
Fonte da imagem: Imagens do google
Tabela de conteúdo
1. Introducción a los tipos de datos en estadística y su importancia
2. Dados qualitativos vs quantitativos
3. Datos cualitativos
- Datos nominales
- Dados ordinais
4. Datos cuantitativos
- Dados discretos
- Dados contínuos
- Datos de intervalo
- Datos de relación
Introducción a los tipos de datos en estadística
Nas estatísticas, los tipos de datos juegan un papel muy crucial e importante, que debe entenderse, para aplicar las mediciones estadísticas correctamente a sus datos para que podamos concluir correctamente ciertas suposiciones sobre los datos.
de forma similar, necesitamos saber en qué análisis de datos y su tipo está trabajando para seleccionar la técnica de percepción correcta, ya que los diferentes tipos de datos se consideran como un enfoque para organizar varios tipos de variables.
Mientras se hace Análise exploratória de dados (EDA) En un proyecto de ciencia de datos general, es crucial tener una buena comprensión de los diferentes tipos de datos, ya que podemos usar ciertas medidas estadísticas solo para tipos de datos específicos.
Também é conhecido como o Escala de medición.
Al tratar con cualquiera de los tipos de datos, también necesitamos saber qué método de visualización se ajusta al tipo de datos en particular.
Podemos pensar en los tipos de datos como una forma de categorizar diferentes tipos de variables.
Datos cuantitativos vs cualitativos
Datos cuantitativos
1. Estos tipos de datos parecen ser los más fáciles de explicar. Intenta encontrar las respuestas a preguntas como
- “Cuantos,
- “Cuánto” e
- “Con qué frecuencia”
2. Puede expresarse como un número, por lo que puede cuantificarse. Em palavras simples, se puede medir mediante variables numéricas.
3. Estos se abren fácilmente para la manipulación estadística y se pueden representar mediante una amplia variedad de tipos estadísticos de gráficos y tablas como gráficos de linha, gráficos de barras, gráfico de dispersãoUm gráfico de dispersão é uma representação visual que mostra a relação entre duas variáveis numéricas usando pontos em um plano cartesiano. Cada eixo representa uma variável, e a localização de cada ponto indica seu valor em relação a ambos. Esse tipo de gráfico é útil para identificar padrões, Correlações e tendências nos dados, facilitando a análise e interpretação de relações quantitativas....etc.
Ejemplos de datos cuantitativos:
- Puntuaciones de pruebas y exámenes, p. Não. 74, 67, 98, etc.
- El peso de una persona.
- La temperatura en una habitación.
Existem 2 tipos generales de datos cuantitativos:
- Dados discretos
- Dados contínuos
Datos cualitativos
1. Los datos cualitativos no se pueden expresar como un número, por lo que no se pueden medir. Se compone principalmente de palabras, imágenes y símbolos, pero no números.
2. Também é conhecido como Dados categóricos ya que la información se puede ordenar por categoría, no por número.
3. Estos pueden responder preguntas como:
- “Cómo ha sucedido esto”, o
- “Por qué ha sucedido esto”.
Ejemplos de datos cualitativos:
- Colores, por exemplo, el color del mar.
- Destinos de vacaciones populares como Suiza, Nova Zelândia, Sudáfrica, etc.
- Origen étnico como indio americano, asiático, etc.
Em geral, existir 2 tipos de datos cualitativos:
- Datos nominales
- Dados ordinais.
Datos cualitativos
Datos nominales
1. Este tipo de datos se utiliza solo para etiquetar variables, sin tener ningún valor cuantitativo. Aqui, el término ‘nominal’ proviene de la palabra latina “no hombre” o que significa ‘nombre’.
2. Simplemente nombra una cosa sin solicitar ningún pedido en particular. Los datos nominales a veces denominados “rótulos”.
Ejemplos de datos nominales:
- Gênero (mujeres, hombres)
- Color de cabello (rubio, castaño, moreno, vermelho, etc.)
- Estado civil (casado, soltero, viudo)
Como puede observar en los ejemplos, no existe un orden intrínseco para las variables.
El color de los ojos es una variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... nominal que tiene unos pocos niveles o categorías como Azul, Verde, Marrón, etc. y no hay forma posible de ordenar estas categorías de manera jerárquica, quer dizer, de mayor a menor o viceversa.
Fonte da imagem: Imagens do google
Dados ordinais
1. La diferencia crucial con los tipos nominales de datos es que Ordinal Data muestra dónde está presente un número en un orden particular.
2. Este tipo de datos se coloca en algún tipo de orden según su posición en una escala. Los datos ordinales pueden indicar superioridad.
3. No podemos hacer operaciones aritméticas con datos ordinales porque solo muestran la secuencia.
4. Las variables ordinales se consideran variables cualitativas y cuantitativas “intermedias”.
5. Em palavras simples, podemos entender los datos ordinales como datos cualitativos para los que se ordenan los valores.
6. En comparación con los datos nominales, el segundo son datos cualitativos cuyos valores no se pueden colocar en un pedido.
7. Según la posición relativa, también podemos asignar números a los datos ordinales. Pero no podemos hacer matemáticas con esos números. Por exemplo, “Primeiro, segundo, tercero … etc.”
Ejemplos de datos ordinales:
- Ranking de usuarios en una competición: O primeiro, segundo y tercero, etc.
- Calificación de un producto tomada por la empresa en una escala del 1 al 10.
- Situación económica: baja, media y alta.
Fonte da imagem: Imagens do google
Datos cuantitativos
Dados discretos
1. Muestra el recuento que involucra solo números enteros y no podemos subdividir los valores discretos en partes.
Por exemplo, el número de estudiantes en una clase es un ejemplo de datos discretos, ya que podemos contar individuos completos pero no podemos contar como 2.5, 3.75, crianças.
2. Em palavras simples, los datos discretos pueden tomar solo ciertos valores y las variables de datos no se pueden dividir en partes más pequeñas.
3. Tiene un número limitado de valores posibles por exemplo, días del mes.
Ejemplos de datos discretos:
- El número de estudiantes en una clase.
- El número de trabajadores de una empresa.
- La cantidad de preguntas de la prueba que respondió correctamente.
Fonte da imagem: Imagens do google
Dados contínuos
1. Representa la información que podría dividirse de manera significativa en sus niveles más finos. Se puede medir en una escala o continuo y puede tener casi cualquier valor numérico.
Por exemplo, Podemos medir nuestra altura a escalas muy precisas en diferentes unidades como metros, centímetros, milímetros, etc.
2. La diferencia clave entre los tipos de datos continuos y discretos es que en el primero, podemos registrar datos continuos en tantas medidas diferentes como ancho, temperatura, clima, etc.
3. Las variables continuas pueden tomar cualquier valor entre dos números. Por exemplo, entre el rango de 60 e 82 polegadas, hay millones de alturas posibles como 62.04762 polegadas, 79.948376 polegadas, etc.
4. Una buena regla para definir si los datos son continuos o discretos es que si el punto de medición se puede reducir a la mitad y aún así tiene sentido, los datos son continuos.
Ejemplos de datos continuos:
- La cantidad de tiempo necesaria para completar un proyecto.
- La altura de los niños.
- La velocidad de los coches.
Fonte da imagem: Imagens do google
Datos de intervalo
1. Estos tipos de datos se pueden medir y se ordenan con los elementos más cercanos, pero no tienen un cero significativo.
Entendamos el significado de “Escala de intervalo”:
En la escala de intervalo, el término ‘intervalo’ significa espacio en el medio, lo cual es algo significativo para recordar, ya que las escalas de intervalo no solo nos educan sobre el orden, sino que además brindan información sobre el valor entre cada elemento.
2. Basicamente, podemos mostrar los datos de intervalo de la misma manera que los datos de razón, pero lo que debemos tener en cuenta es sus puntos cero caracterizados.
3. Portanto, con la ayuda de los datos de intervalo, podemos correlacionar fácilmente los grados de los datos y también sumar o restar los valores.
4. Hay algunas estadísticas descriptivas que podemos calcular para datos de intervalo como:
- Medidas centrales de tendencia (meios de comunicação, medianaA mediana é uma medida estatística que representa o valor central de um conjunto de dados ordenados. Para calculá-lo, Os dados são organizados do menor para o maior e o número no meio é identificado. Se houver um número par de observações, Os dois valores principais são calculados em média. Este indicador é especialmente útil em distribuições assimétricas, uma vez que não é afetado por valores extremos...., moda)
- Classificação (mínimo, máximo)
- Propagación (percentiles, rango intercuartílico y desviación estándar).
Estas no son las únicas cosas estadísticas que se deben calcular, pero también podemos calcular más cosas.
Ejemplos de datos de intervalo:
- Temperatura (° C o F, pero no Kelvin)
- Fechas (1055, 1297, 1976, etc.)
- Intervalo de tiempo en un reloj de 12 horas (6 uma. M., 6 p. M.)
Datos de relación
1. Estos datos también están en las unidades ordenadas que tienen la misma diferencia.
2. Los valores de razón son los mismos que los valores de intervalo, pero la única diferencia es que los datos de razón tienen un cero absoluto. Por exemplo, altura, peso, comprimento, etc.
3. Estos se miden y ordenan con elementos equidistantes con un cero significativo y nunca serán negativos como los datos de intervalo.
Entendamos esto con un ejemplo sobresaliente: Medidao "medir" É um conceito fundamental em várias disciplinas, que se refere ao processo de quantificação de características ou magnitudes de objetos, Fenômenos ou situações. Na matemática, Usado para determinar comprimentos, Áreas e volumes, enquanto nas ciências sociais pode se referir à avaliação de variáveis qualitativas e quantitativas. A precisão da medição é crucial para obter resultados confiáveis e válidos em qualquer pesquisa ou aplicação prática.... de alturas.
La altura se puede medir en unidades como centímetros, polegadas, metros o pies y no es posible tener un valor negativo de altura.
4. Nos ilumina en cuanto al orden de las variables, los contrastes entre ellas, y tienen absolutamente cero.
5. Los datos de razón son fundamentalmente los mismos que los datos de intervalo, aparte de cero significa ninguno.
6. Los estadísticos descriptivos que podemos calcular para los datos de razón son los mismos que los datos de intervalo como:
- Medidas centrales de tendencia (meios de comunicação, mediana, moda)
- Classificação (mínimo, máximo)
- Propagación (percentiles, rango intercuartílico y desviación estándar).
Ejemplo de datos de relación:
- Era (a partir de 0 anos para 100+)
- Temperatura (en Kelvin, pero no en ° C o F)
- Intervalo de tiempo (medido con cronómetro o similar)
Para los ejemplos anteriores de datos de razón, vemos que hay un punto cero real y significativo como la edad de una persona, el cero absoluto, la distancia calculada desde un punto o tiempo específico, todos tienen ceros reales.
NOTA:
Si elegimos el punto cero de la escala subjetivamente, entonces en ese punto los datos no pueden ser datos de razón y deberían ser datos de intervalo.
Notas finais
Obrigado pela leitura!
Espero que haya disfrutado del artículo y haya aumentado sus conocimientos sobre los tipos de datos en estadística.
Por favor sinta-se à vontade para me contactar sobre Correio eletrônico
Qualquer coisa não mencionada ou você deseja compartilhar suas idéias? Sinta-se à vontade para comentar abaixo e eu entrarei em contato com você.
Para itens restantes, Pedir ao Ligação.
Sobre o autor
Aashi Goyal
Atualmente, Estou cursando bacharelado em tecnologia (B.Tech) em Engenharia Eletrônica e de Comunicação pela Universidad Guru Jambheshwar (GJU), Hisar. Estoy muy entusiasmado con la estadística y la ciencia de datos.
Los medios que se muestran en este artículo sobre tipos de datos en estadísticas no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.