1. types de variables

Une variable est quantitative lorsque cela a un sens de faire la somme ou la différence de plusieurs résultats.
Variable quantitative
- continue
- discrète
- temporelle

Variable qualitative
- ordinale
- nominale
- binaire

2. loi d’une variable

La loi d’une variable aléatoire est la liste des probabilités de chacune des valeurs qu’elle peut prendre (la loi du dés à six faces est 1/6ème).

Quand une variable est la résultante d’un grand nombre de variables aléatoires indépendantes, alors cette variable suit une loi normale.

3. diagrammes

a. barplot()

Le diagramme en bâtons est un bon moyen de représenter la distribution d’une variable aléatoire qualitative.

barplot(table(smp$prof), # table va calculer le nombre d’occurrences pour chacune des valeurs que peut prendre la variable
                las = 1) # réoriente les labels de l'axe des ordonnées

b. pie()

Donne le camembert de la variable, un des avantages de cette représentation, c’est dans le cas où on veut montrer la prédominance d’une valeur par rapport aux autres (ce qui est moins visible sur un barplot).

pie(table(smp$prof))

c. hist()

Grand classique de la représentation d’une variable aléatoire quantitative continue, les bâtons sont contigus pour montrer que la variable est continue (≠ barplot)

hist(smp$age, col = 'grey', main = '', xlab = 'Âge')

hist(smp$age, col = 'grey', main = '', xlab = 'Âge',
         nclass = 8) # permet de forcer le nombre de classes

hist(smp$age, col = 'grey', main = '', xlab = 'Âge',
         las = 1,
         prob = TRUE) # précise que c'est un graph de densité
lines(density(smp$age, na.rm = TRUE)) # ajoute la fonction de densité non paramétrique

L’histogramme peut donner des problèmes de représentation selon le nombre de barres (‘bin’) choisies. Pour l’affichage par défaut, le décompte des barres inclut les valeurs inférieures ou égales au point de rupture droit de la case et strictement supérieures au point de rupture gauche de la case, sauf pour la case la plus à gauche, qui inclut son point de rupture gauche. Pour changer ce réglage il faut mettre le paramètre right = FALSE

Exemple avec un dataframe des heures d’admissions (24 breaks, de 0 à 23 heures)

table(admissions$hour)
## 
##   0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19 
## 449 387 325 202 179 173 146 146 142 203 366 463 452 454 569 654 599 712 766 517 
##  20  21  22  23 
## 526 576 640 454
hist(admissions$hour, right = T, las = 1, breaks = c(0:24), xlim = c(0,24)) # les breaks se font mal et ne correspondent pas aux valeurs

table(admissions$hour)
## 
##   0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19 
## 449 387 325 202 179 173 146 146 142 203 366 463 452 454 569 654 599 712 766 517 
##  20  21  22  23 
## 526 576 640 454
hist(admissions$hour, right = F, las = 1, breaks = c(0:24), xlim = c(0,24)) # le première bin comprend ce qui est ≤ 1 et la dernière bin (numéro 24) les valeurs < 24 (soir la valeur 23 dans le tableau)

d. boxplot()

Représentation d’une variable quantitative continue.

Interprétation : 50% des données sont dans la boîte (avec la médiane en trait gras). Donc on sépare visuellement très rapidement les quatre quartiles (en réalité, il peut y avoir des outliers car la réelle définition de la moustache est le min(max(données)) + 1,5 SD au dessus du bord supérieur de la boîte).

Pour représenter en sous groupe, utiliser le ~ :

boxplot(smp$age ~ smp$rs, xlab = 'Recherche de sensation', ylab = 'Âge')

Pour représenter un Boxplot avec toutes les valeurs, utiliser le package beeswarm (regarder dans le help pour régler l’étalement et la dispersion des valeurs)

beeswarm::beeswarm(smp$age ~ smp$rs, xlab = 'Recherche de sensation', ylab = 'Âge')

e. plot()

Pour représenter la distribution conjointe de deux variables quantitatives exemple le nombre d’enfants selon l’âge.

Un des problèmes de cet affichage, c’est que si plusieurs personnes de 50 ans ont le même nombre d’enfants, cela fera qu’un seul point et donc on ne voit pas trop l’effectif.

# sans déplacement aléatoire
plot(smp$age,smp$n.enfant)

Un des moyens c’est de modifier de manière aléatoire chaque point.

# avec déplacement aléatoire
plot(jitter(smp$age),jitter(smp$n.enfant))

f. plotmeans()

Pour représenter l’évolution temporelle de la moyenne d’une variable aléatoire quantitative

library(ggplot2)
plotmeans(col1 ~ col2)

g. interaction.plot()

Pour représenter l’évoluation temporelle de chacun des individus d’une variable quantitative

Lire la suite

A-Introduction et représentations graphiques
B-Dispersion et intervalles de confiance
C-Coefficient de corrélation
D-Tests statistiques
E-Régression linéaire
F-Régression logistique
G-Données de survie
H-Statistique exploratoire multidimensionnelle
I-Multiplicité des tests