On en trouve partout et c’est normal car on peut en tirer facilement plein de conclusions ; en plus avec quatre nombres, tout semble simple.
Le principe de ce tableau est le suivant :
Alternative 2 : oui |
Alternative 2 : non |
|
Alternative 1 : oui |
a |
b |
Alternative 1 : non |
c |
d |
On peut trouver ce type de tableau :
- Dans des études cliniques (Alternative 1 = groupe de randomisation A ou B ; Alternative 2 = critère d’évaluation binaire)
- Dans des études d’évaluation de tests diagnostiques (Alternative 1 = résultat du test : positif ou négatif ; Alternative 2 = présence de la maladie à diagnostiquer : oui ou non)
- Dans des enquêtes épidémiologiques : (Alternative 1 = présence ou absence d’un facteur de risque ; Alternative 2 = présence ou absence d’une maladie ou d’un état particulier)
Bref, à chaque fois que l’on veut savoir si une alternative est liée à une autre alternative ; « liée » signifie qu’il y a une liaison entre les deux alternatives : une des deux possibilités de l’alternative 2 survient plus fréquemment lors d’une des 2 possibilités de l’alternative 1 que lors de la survenue de l’autre.
La seule situation permettant de conclure que la différence observée lors de l’alternative 2 est consécutive à la différence observée lors de l’alternative 1 est l’essai clinique randomisé. En dehors de ce cas, il est possible de suspecter une relation de causalité mais elle ne peut être certifiée que sur un essai randomisé (ou si plusieurs autres arguments sont déjà disponibles – voir critères de causalité de Hill).
Il y a plein de calculs possibles à partir de ces 4 nombres.
Fainéant comme je suis, j’ai résumé les principaux sur ce fichier Excel, Si ça peut aider… (Seules les cases jaunes sont à modifier – le Fisher ne marche pas dès que les factorielles sont un peu élevées mais comme on l’utilise généralement pour les petits effectifs, ce n’est pas trop gênant).

Les tests statistiques réalisables sur ces 4 nombres sont principalement le Chi2 et le Fisher. Le second est réalisé quand une des valeurs calculées du Chi2 est inférieure à 3, entre 3 et 5, il faut regarder le Chi2 avec la correction de Yates, au dessus de 5, le Chi2 est valide.
On peut aussi évaluer les intervalles de confiance du risk ratio ou de l’odd ratio ou des autres mesures qui en dépendent.
L’odd ratio et le risk ratio sont deux mesures de la liaison.
Le risk ratio (RR) est le rapport entre le risque de « maladie » selon l’alternative 1 positive et le risque de maladie selon l’alternative 1 négative. En français, un RR à 2 cela signifie que, par exemple, les exposés ont un risque doublé d’être malade par rapport aux non exposés.
Le RR est utilisable dans les études de type exposé – non exposé mais pas dans les études cas – témoin car ces études donnent les probabilités d’être exposé si on est malade ou non malade et non celles d’être malade selon que l’on est exposé ou non.
L’odd ratio (OR) peut être utilisé dans les deux types d’études. C’est le rapport des concordants (case A1A1 x case A2A2) divisés par les non concordants (case A1A2 x case A2A1). Le problème, c’est qu’en français, c’est un peu long à décrire : C’est le rapport de 2 cotes : celle d’être malade si exposé et celle d’être malade si non exposé. Et une cote c’est une probabilité P divisée par (1-P). Un OR à 2 signifie que chez les exposés le rapport des malades sur les non malades est le double de ce même rapport chez les non exposés. L’intérêt, c’est que c’est aussi le rapport des cotes des probabilités d’être exposé si on est malade ou non. D’où sa symétrie et son utilisation dans les deux principaux types d’études épidémiologiques.
Mais l’odd ratio n’a pas la même signification que celle du risk ratio.
Il y a néanmoins une relation entre l’OR et le RR. Cette relation dépend de la fréquence de la maladie chez les non exposés. Si Pn est cette probabilité alors : OR = RRx(1-Pn)/(1-RRxPn) et RR= OR/((1-Pn)+ORxPn).
Si Pn est petit OR≈RR .
Pour les études sur les tests diagnostiques, si le tableau est obtenu à partir d’une étude cas-témoin, on peut déterminer la sensibilité et la spécificité mais pas la VPP et la VPN car ces deux paramètres doivent être déterminés sur une population dont les rapports entre les malades et non malades sont ceux de la population générale et permettent le calcul de la prévalence de la maladie.
On peut calculer la VPN et la VPP à partir de la sensibilité (Se) et la spécificité (Sp) si on connait la prévalence P :
- VPP = Se x P / [(Se x P)+(1-Sp) x (1-Se)]
- VPN = (Sp x (1-P)) / [(Sp x (1- P))+((1-Se) x P].
Ce sont deux valeurs très importantes en pratique car elles permettent définir l’intérêt du test pour établir la probabilité de maladie. Les rapports de vraisemblance aussi, certes, mais ils doivent être multipliés par la cote de la prévalence ; donc il faut aussi connaitre la prévalence de la maladie pour les calculer.
Les tableaux 2 x 2 permettent aussi de donner des exemples du paradoxe de Simpson !
Deux sous groupes complémentaires peuvent donner des conclusions inverses de celle obtenue sur leur total : exemple ci-dessous.
C’est bien sûr aussi valable pour plus de sous-groupes complémentaires.
.