Une variable est quantitative lorsque cela a un sens de faire la
somme ou la différence de plusieurs résultats.
Variable
quantitative
- continue
- discrète
-
temporelle
Variable qualitative
-
ordinale
- nominale
- binaire
La loi d’une variable aléatoire est la liste des probabilités de chacune des valeurs qu’elle peut prendre (la loi du dés à six faces est 1/6ème).
Quand une variable est la résultante d’un grand nombre de variables aléatoires indépendantes, alors cette variable suit une loi normale.
Le diagramme en bâtons est un bon moyen de représenter la distribution d’une variable aléatoire qualitative.
barplot(table(smp$prof), # table va calculer le nombre d’occurrences pour chacune des valeurs que peut prendre la variable
las = 1) # réoriente les labels de l'axe des ordonnées
Donne le camembert de la variable, un des avantages de cette représentation, c’est dans le cas où on veut montrer la prédominance d’une valeur par rapport aux autres (ce qui est moins visible sur un barplot).
pie(table(smp$prof))
Grand classique de la représentation d’une variable aléatoire quantitative continue, les bâtons sont contigus pour montrer que la variable est continue (≠ barplot)
hist(smp$age, col = 'grey', main = '', xlab = 'Âge')
hist(smp$age, col = 'grey', main = '', xlab = 'Âge',
nclass = 8) # permet de forcer le nombre de classes
hist(smp$age, col = 'grey', main = '', xlab = 'Âge',
las = 1,
prob = TRUE) # précise que c'est un graph de densité
lines(density(smp$age, na.rm = TRUE)) # ajoute la fonction de densité non paramétrique
L’histogramme peut donner des problèmes de représentation selon le
nombre de barres (‘bin’) choisies. Pour l’affichage par défaut, le
décompte des barres inclut les valeurs inférieures ou égales au point de
rupture droit de la case et strictement supérieures au point de rupture
gauche de la case, sauf pour la case la plus à gauche, qui inclut son
point de rupture gauche. Pour changer ce réglage il faut mettre le
paramètre right = FALSE
Exemple avec un dataframe des heures d’admissions (24 breaks, de 0 à 23 heures)
table(admissions$hour)
##
## 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
## 449 387 325 202 179 173 146 146 142 203 366 463 452 454 569 654 599 712 766 517
## 20 21 22 23
## 526 576 640 454
hist(admissions$hour, right = T, las = 1, breaks = c(0:24), xlim = c(0,24)) # les breaks se font mal et ne correspondent pas aux valeurs
table(admissions$hour)
##
## 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
## 449 387 325 202 179 173 146 146 142 203 366 463 452 454 569 654 599 712 766 517
## 20 21 22 23
## 526 576 640 454
hist(admissions$hour, right = F, las = 1, breaks = c(0:24), xlim = c(0,24)) # le première bin comprend ce qui est ≤ 1 et la dernière bin (numéro 24) les valeurs < 24 (soir la valeur 23 dans le tableau)
Représentation d’une variable quantitative continue.
Interprétation : 50% des données sont dans la boîte (avec la médiane en trait gras). Donc on sépare visuellement très rapidement les quatre quartiles (en réalité, il peut y avoir des outliers car la réelle définition de la moustache est le min(max(données)) + 1,5 SD au dessus du bord supérieur de la boîte).
Pour représenter en sous groupe, utiliser le ~ :
boxplot(smp$age ~ smp$rs, xlab = 'Recherche de sensation', ylab = 'Âge')
Pour représenter un Boxplot avec toutes les valeurs, utiliser le package beeswarm (regarder dans le help pour régler l’étalement et la dispersion des valeurs)
beeswarm::beeswarm(smp$age ~ smp$rs, xlab = 'Recherche de sensation', ylab = 'Âge')
Pour représenter la distribution conjointe de deux variables quantitatives exemple le nombre d’enfants selon l’âge.
Un des problèmes de cet affichage, c’est que si plusieurs personnes de 50 ans ont le même nombre d’enfants, cela fera qu’un seul point et donc on ne voit pas trop l’effectif.
# sans déplacement aléatoire
plot(smp$age,smp$n.enfant)
Un des moyens c’est de modifier de manière aléatoire chaque point.
# avec déplacement aléatoire
plot(jitter(smp$age),jitter(smp$n.enfant))
Pour représenter l’évolution temporelle de la moyenne d’une variable aléatoire quantitative
library(ggplot2)
plotmeans(col1 ~ col2)
Pour représenter l’évoluation temporelle de chacun des individus d’une variable quantitative
A-Introduction et représentations graphiques
B-Dispersion
et intervalles de confiance
C-Coefficient
de corrélation
D-Tests
statistiques
E-Régression
linéaire
F-Régression
logistique
G-Données de
survie
H-Statistique
exploratoire multidimensionnelle
I-Multiplicité
des tests