Statistiques et concepts de probabilité pour la science des données

Contenu

La statistique est la grammaire de la science.
– Karl Pearson

Qu'est-ce que les données?

95476what-is-data_ver_1-1698555

Crédits images

Les données sont les informations collectées via différentes sources qui peuvent être de nature qualitative ou quantitative.. Surtout, les données collectées sont utilisées pour analyser et obtenir des informations sur un sujet particulier.

Par exemple:

1. Taille du cylindre, kilométrage, Couleur, etc. pour la vente d'une voiture

2.Si les cellules du corps sont malignes ou bénignes pour détecter le cancer

Type de données

Donnees numeriques

Les données numériques sont des informations en nombres, c'est-à-dire, numérique qui est présenté comme une mesure quantitative des choses.

Par exemple:

  1. Tailles et poids des personnes
  2. Cours de la bourse

une) Données discrètes

Les données discrètes sont les informations qui racontent souvent un événement, c'est-à-dire, ne peut prendre que des valeurs spécifiques. Ils sont souvent basés sur des nombres entiers, mais pas forcément.

Par exemple:

  1. Nombre de fois qu'une pièce a été lancée
  2. Tailles de chaussures des gens

b) Données continues

Les données continues sont des informations qui ont la possibilité d'avoir des valeurs infinies, c'est-à-dire, peut prendre n'importe quelle valeur dans une plage.

Par exemple:

Combien de pouces de pluie sont tombés un jour donné?

Données catégorielles

Ce type de données est de nature qualitative et n'a aucune signification mathématique inhérente.. C'est une sorte de valeur fixe sous laquelle il est attribué ou “classer par catégories” une unité d'observation.

Par exemple:

  1. Genre
  2. Données binaires (Oui / non)
  3. Attributs d'un véhicule en tant que couleur, kilométrage, nombre de portes, etc.

Données ordinales

Ce type de données est la combinaison de données numériques et catégorielles, c'est-à-dire, données catégorielles qui ont une signification mathématique.

Par exemple:

Évaluations des restaurants de 1 une 5, étant 1 le plus bas et 5 le plus élevé

STATISTIQUES:

Médias, moyen et mode

Vouloir dire

En mathématiques et statistiques, la moyenne est la moyenne des observations numériques qui est égale à la somme des observations divisée par le nombre d'observations.

A = fracturation {1} {m} limites de somme_ {je = 1} ^ n a_i signifie Statistiques et probabilités

où,

UNE = sens arithmétique
Nord = nombre de valeurs
à la = valeurs de jeu de données

Médian

La médiane des données, lorsqu'il est organisé en valeur ascendante ou descendante, est l'observation centrale des données, c'est-à-dire, le point qui sépare la moitié supérieure de la moitié inférieure des données.

Pour calculer la médiane:

  • Organisez vos données par ordre croissant ou décroissant.
  • un nombre impair de points de données: la valeur moyenne est la médiane.
  • nombre pair de points de données: la moyenne des deux valeurs moyennes est la médiane.

médiane statistique et probabilité

X = une liste ordonnée de valeurs dans l'ensemble de données
Nord = nombre de valeurs dans l'ensemble de données

Façon

Les manière d'un ensemble de points de données est la valeur la plus fréquente.

Par exemple:

5, 2,6,5, 1,1,2,5, 3,8,5, 9,5 sont l'ensemble des points de données. Ici 5 est la route car cela arrive plus souvent.

Variance et écart type

Différence

Mathématiquement et statistiquement, différence est défini comme la moyenne des différences au carré par rapport à la moyenne. Mais pour comprendre, cela décrit comment élargi les données sont dans un ensemble de données.

Les étapes pour calculer la variance à l'aide d'un exemple:

Trouvons la variance de (1,4,5,4,8)

  1. Trouver la moyenne des points de données c'est-à-dire (1 + 4 + 5 + 4 + 8) / 5 = 4.4
  2. Trouver les différences avec la moyenne c'est-à-dire (-3,4, -0,4, 0,6, -0,4, 3,6)
  3. Trouver les différences au carré c'est-à-dire (11,56, 0,16, 0,36, 0,16, 12,96)
  4. Trouver la moyenne des différences au carré c'est-à-dire, 11,56 + 0,16 + 0,36 + 0,16 + 12,96 / 5 = 5,04

La formule pour le même est:

Variance statistique et probabilité

Écart-type

L'écart type mesure la variation ou la dispersion des points de données dans un ensemble de données. Représente la proximité du point de données par rapport à la moyenne et est calculé comme la racine carrée de la variance.

En science des données, l'écart type est généralement utilisé pour identifier les valeurs aberrantes dans un ensemble de données. Les points de données qui se situent à moins d'un écart type de la moyenne sont considérés comme inhabituels.

La formule de l'écart type est:

Écart-type statistique et probabilité

sigma = écart type de la population
Nord = la taille de la population
x_i = chaque valeur de population
mu = la moyenne de la population

Données démographiques V / s Exemples de données

Données démographiques fait référence à l'ensemble de données complet, tandis que Exemples de données fait référence à une partie des données de population qui sont utilisées pour l'analyse. L'échantillonnage est fait pour faciliter l'analyse.

Lors de l'utilisation de données d'échantillon pour l'analyse, la formule de la variance est légèrement différente. S'il y a un total de n échantillons, on divise par n-1 au lieu de n:

Données statistiques et probabilistes sur la population

S ^ 2 = écart d'échantillon
x_i = la valeur d'une observation
bar {X} = la valeur moyenne des observations
Nord = le nombre d'observations

PROBABILITÉ:

25667v4-460px-calculer-probabilité-étape-2-version-5-jpg-4341515

Crédits images

Qu'est-ce que la probabilité?

Le concept de probabilité est extrêmement simple. Cela signifie la probabilité qu'un événement se produise ou la probabilité qu'un événement se produise.

La formule de probabilité est:

12-4112115

Par exemple:

La probabilité que la pièce montre face lorsqu'elle est lancée est 0,5.

La probabilité conditionnelle

La probabilité conditionnelle est la probabilité qu'un événement se produise tant qu'un autre événement s'est déjà produit.

La formule de probabilité conditionnelle:

Probabilité conditionnelle utilisant des tables à deux facteurs (Article) |  milieu universitaire Khan

Par exemple:

Les élèves d'une classe ont passé deux épreuves de la matière Mathématiques. Dans le premier essai, les 60% des étudiants réussissent alors que seuls les 40% des étudiants réussissent les deux tests. Quel pourcentage d'élèves qui ont réussi le premier test, ils ont réussi le deuxième test?

50266capture d

Théorème de Bayes

Le théorème de Bayes est un concept statistique très important qui est utilisé dans de nombreuses industries., comme la santé et les finances. La formule de probabilité conditionnelle que nous avons faite précédemment a également été dérivée de ce théorème.

Utilisé pour calculer la probabilité d'une hypothèse sur la base des probabilités de diverses données fournies dans l'hypothèse.

La formule du théorème de Bayes est:

Théorème de Bayes

UNE, B = événements
P (UNE | B) = probabilité que A étant donné que B soit vrai
P (B | UNE) = la probabilité que B étant donné que A soit vraie
P (UNE)P P (B) = les probabilités indépendantes de A et B

Par exemple:

Supposons qu'il existe un test VIH qui puisse identifier les patients VIH + positif avec précision le 99% des fois, et qui a aussi un résultat négatif avec précision pour le 99% des personnes séronégatives. Ici, seulement le 0,3% de la population totale est séropositive.

95224bayes20real-9834283

CONCLUSION

Les sujets sur les statistiques et les probabilités abordés dans l'article sont vraiment importants, mais il existe de nombreux autres sujets comme les fonctions de distribution de probabilité et leurs types, covariance et corrélation, etc. qui n'ont pas été traités ici car ils nécessitent une attention particulière en raison de leur graphisme. la nature.

Les mathématiques et les statistiques sont au cœur de la science des données. Les sujets abordés dans cet article sont à la base de nombreux algorithmes, formules de calcul des erreurs et compréhension graphique des choses, ils sont donc très importants et ne peuvent être ignorés.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.