TD 2
ELABORATION DE
L’ÉCHANTILLON/POPULATION
Echantillonnage : processus de sélection d’objets ou d’individus à étudier,
à partir d’une population plus importante. Le sous-ensemble d’objets ou
d’individus constitue l’échantillon.
Echantillon : sous-ensemble de la population étudiée. Le choix des
unités qui constituent le sous-ensemble peut être effectué par différentes
méthodes (échantillonnage). On utilise des échantillons parce qu’une étude
approfondie de toute la population serait impossible, trop longue et trop
chère pour le niveau de précision exigé (
Si l’on effectue plusieurs échantillonnages de même taille sur une même
population, on obtiendra en général des fréquences légèrement
différentes pour un caractère donné. Ce phénomène
s’appelle fluctuation d’échantillonnage. Ces valeurs se situent dans un
intervalle appelé Intervalle de fluctuation, souvent fixé à 95%.
- Le test statistique permet de déterminer si les résultats observés
sont attribuables aux seules fluctuations d’échantillonnage ou
s’ils sont réels.
Méthodes d’échantillonnage
Aléatoire (probabiliste) :
Simple (élémentaire) : on tire au sort, successivement, « n » sujets à
partir de la base d’un sondage. Chaque sujet a la même chance d’être
inclus dans l’échantillon.
o Méthode : on numérote tous les sujets, on utilise une table de
nombres aléatoire (informatique ou pas), on sélectionne le sujet
correspondant au nombre tiré.
o Avantage : simple, méthode de référence, échantillon représentatif
car probabilité de sélection identique.
o Inconvénient : risque de biais car échantillonnage « sans remise ».
Plus on tire de sujets, moins il en restera dans la base donc plus la
probabilité d’être tiré au sort augmente. Ce biais devient négligeable
sur une grande population ou si on fait une remise.
Systématique (par intervalle): il existe un intervalle, un écart entre
chaque sujet (classement de la population dans un ordre non numérique).
o Méthode :
Numéroter de 1 à N les sujets dans la base de sondage (N : taille
totale de la population). Ex : Vous avez N = 400 sujets dans votre
base.
Déterminer l’intervalle d’échantillonnage K (pas de sondage) en
divisant le nombre de sujets (N) par la taille de l’échantillon. Ex : On
choisit 100 sujets sur la base de 400 donc K = 400/100 = 4.
Choisir le 1er sujet à inclure dans l’échantillon (nombre entre 1 et
K). Ex : on choisit d’inclure à partir du 2ème sujet, ce sera le 1er sujet
de notre échantillon.
On inclus chaque Kème sujet après le premier sujet inclus. Ex : On a
choisi le 2ème puis le 6ème, puis 10ème
Stratifiée : on divise la population en groupes homogènes (strates), qui
sont mutuellement exclusifs, puis on sélectionne à partir de chaque
strate des échantillons indépendants. On peut utiliser n’importe quelle
méthode d’échantillonnage pour sélectionner l’échantillon dans chaque
strate.
En grappe : on divise la population en sous-groupes (ou grappes), puis
on sélectionne aléatoirement des groupes de sujets plutôt que les sujets
eux-mêmes.
o Avantage :
Limite l’échantillon à des groupes permettant de diminuer les
coûts (déplacement, suivi, supervision).
Pas besoin de liste globale de la population, la liste des groupes
suffit.
o Inconvénient :
Perte de précision des résultats car les sujets ont tendance à se
ressembler dans un sous-groupe.
Pas de contrôle de la taille finale de l’échantillon.
A plusieurs degrés (partitionné): ressemble à l’échantillonnage par
grappe sauf qu’ici on prélève un échantillon à partir de la grappe. On a au
moins 2 degrés car le 1er correspond à la grappe et le 2ème à la sous unité.
o Avantage :
Réduit les coûts et pas besoin de disposer de la liste complète.
Permet de contrôler la taille de l’échantillon, notamment par
stratification.
o Inconvénient : perte de précision
Empirique (non probabiliste) :
Cette méthode ne nécessite pas de base de sondage. Peu fiable, elle n’inclut
pas le concept de probabilité égale d’être inclus parmi les sujets de la
population.
Avantage :
o Pas besoin de base de sondage
o Facile et peu onéreuse
Inconvénient :
o Beaucoup de non réponse (perte de représentativité)
o Nombreux biais
Intérêt : pour les études exploratoires, lorsqu’on ne peut pas utiliser de
méthode probabiliste.
Méthodes :
o A l’aveuglette (ou de commodité). Ex : dégustation de vin.
o Volontaire. Ex : expérience médicale.
o Au jugé. Sélection des sujets en fonction de l’idée qu’on se fait de la
population, afin d’obtenir des groupes ciblés.
o Par quotas (dirigé, par choix raisonné). Surtout utilisé pour les
enquêtes d’opinion ou les études de marché, les enquêteurs inclus les
sujets en s’assurant d’avoir respecté certains quotas. Ex : âge, sexe,
niveau socio-économique…
Cas particulier : l’appariement dans les études cas-témoins
Afin de limiter, a priori, de potentiels facteurs de confusion, on peut
apparier les cas et les témoins :
Définition : méthode consistant à sélectionner des paires de sujet (cas +
témoin) qui sont comparables sur certains facteurs (souvent l’âge et le
sexe).
Méthode :
o Equilibré : 1 cas pour 1 témoin, le plus souvent
o Déséquilibré : 1 cas pour 2…4 témoins
Intérêt :
o Diminue le nombre de potentiels facteurs de confusions
o Si déséquilibré : augmente la puissance en diminuant la fluctuation
d’échantillonnage
Limite :
o Le nombre de facteurs d’appariement est limité
o Le nombre de témoins par cas est limité (à 3 voir 4) car le gain de
puissance perd son intérêt au-delà.