TD 2

ELABORATION DE

L’ÉCHANTILLON/POPULATION

Echantillonnage : processus de sélection d’objets ou d’individus à étudier,

à partir d’une population plus importante. Le sous-ensemble d’objets ou

d’individus constitue l’échantillon.

Echantillon : sous-ensemble de la population étudiée. Le choix des

unités qui constituent le sous-ensemble peut être effectué par différentes

méthodes (échantillonnage). On utilise des échantillons parce qu’une étude

approfondie de toute la population serait impossible, trop longue et trop

chère pour le niveau de précision exigé (

 Si l’on effectue plusieurs échantillonnages de même taille sur une même

population, on obtiendra en général des fréquences légèrement

différentes pour un caractère donné. Ce phénomène

s’appelle fluctuation d’échantillonnage. Ces valeurs se situent dans un

intervalle appelé Intervalle de fluctuation, souvent fixé à 95%.

- Le test statistique permet de déterminer si les résultats observés

sont attribuables aux seules fluctuations d’échantillonnage ou

s’ils sont réels.

Méthodes d’échantillonnage

Aléatoire (probabiliste) :

 Simple (élémentaire) : on tire au sort, successivement, « n » sujets à

partir de la base d’un sondage. Chaque sujet a la même chance d’être

inclus dans l’échantillon.

o Méthode : on numérote tous les sujets, on utilise une table de

nombres aléatoire (informatique ou pas), on sélectionne le sujet

correspondant au nombre tiré.

o Avantage : simple, méthode de référence, échantillon représentatif

car probabilité de sélection identique.

o Inconvénient : risque de biais car échantillonnage « sans remise ».

Plus on tire de sujets, moins il en restera dans la base donc plus la

probabilité d’être tiré au sort augmente. Ce biais devient négligeable

sur une grande population ou si on fait une remise.

Systématique (par intervalle): il existe un intervalle, un écart entre

chaque sujet (classement de la population dans un ordre non numérique).

o Méthode :

 Numéroter de 1 à N les sujets dans la base de sondage (N : taille

totale de la population). Ex : Vous avez N = 400 sujets dans votre

base.

 Déterminer l’intervalle d’échantillonnage K (pas de sondage) en

divisant le nombre de sujets (N) par la taille de l’échantillon. Ex : On

choisit 100 sujets sur la base de 400 donc K = 400/100 = 4.

 Choisir le 1er sujet à inclure dans l’échantillon (nombre entre 1 et

K). Ex : on choisit d’inclure à partir du 2ème sujet, ce sera le 1er sujet

de notre échantillon.

 On inclus chaque Kème sujet après le premier sujet inclus. Ex : On a

choisi le 2ème puis le 6ème, puis 10ème…

Stratifiée : on divise la population en groupes homogènes (strates), qui

sont mutuellement exclusifs, puis on sélectionne à partir de chaque

strate des échantillons indépendants. On peut utiliser n’importe quelle

méthode d’échantillonnage pour sélectionner l’échantillon dans chaque

strate.

En grappe : on divise la population en sous-groupes (ou grappes), puis

on sélectionne aléatoirement des groupes de sujets plutôt que les sujets

eux-mêmes.

o Avantage :

 Limite l’échantillon à des groupes permettant de diminuer les

coûts (déplacement, suivi, supervision).

 Pas besoin de liste globale de la population, la liste des groupes

suffit.

o Inconvénient :

 Perte de précision des résultats car les sujets ont tendance à se

ressembler dans un sous-groupe.

 Pas de contrôle de la taille finale de l’échantillon.

A plusieurs degrés (partitionné): ressemble à l’échantillonnage par

grappe sauf qu’ici on prélève un échantillon à partir de la grappe. On a au

moins 2 degrés car le 1er correspond à la grappe et le 2ème à la sous unité.

o Avantage :

 Réduit les coûts et pas besoin de disposer de la liste complète.

 Permet de contrôler la taille de l’échantillon, notamment par

stratification.

o Inconvénient : perte de précision

Empirique (non probabiliste) :

Cette méthode ne nécessite pas de base de sondage. Peu fiable, elle n’inclut

pas le concept de probabilité égale d’être inclus parmi les sujets de la

population.

 Avantage :

o Pas besoin de base de sondage

o Facile et peu onéreuse

 Inconvénient :

o Beaucoup de non réponse (perte de représentativité)

o Nombreux biais

 Intérêt : pour les études exploratoires, lorsqu’on ne peut pas utiliser de

méthode probabiliste.

 Méthodes :

o A l’aveuglette (ou de commodité). Ex : dégustation de vin.

o Volontaire. Ex : expérience médicale.

o Au jugé. Sélection des sujets en fonction de l’idée qu’on se fait de la

population, afin d’obtenir des groupes ciblés.

o Par quotas (dirigé, par choix raisonné). Surtout utilisé pour les

enquêtes d’opinion ou les études de marché, les enquêteurs inclus les

sujets en s’assurant d’avoir respecté certains quotas. Ex : âge, sexe,

niveau socio-économique…

Cas particulier : l’appariement dans les études cas-témoins

Afin de limiter, a priori, de potentiels facteurs de confusion, on peut

apparier les cas et les témoins :

 Définition : méthode consistant à sélectionner des paires de sujet (cas +

témoin) qui sont comparables sur certains facteurs (souvent l’âge et le

sexe).

 Méthode :

o Equilibré : 1 cas pour 1 témoin, le plus souvent

o Déséquilibré : 1 cas pour 2…4 témoins

 Intérêt :

o Diminue le nombre de potentiels facteurs de confusions

o Si déséquilibré : augmente la puissance en diminuant la fluctuation

d’échantillonnage

 Limite :

o Le nombre de facteurs d’appariement est limité

o Le nombre de témoins par cas est limité (à 3 voir 4) car le gain de

puissance perd son intérêt au-delà.