Un test statistique est réalisé pour donner une information sur la probabilité qu’une différence entre deux résultats soit liée au hasard. On considère par habitude ou convention que si cette probabilité (que la différence entre les deux résultats soit liée au hasard) est inférieure à 5%, alors la différence est dite « significative »
Si la probabilité est supérieure à 5%, que conclure ? En fait rien.
Rien car on ne peut pas conclure qu’il n’existe pas de différence entre les deux résultats. On peut juste dire qu’on ne l’a pas vue et qu’elle existe peut-être ou pas ! Quand on cherche quelque chose, on peut la trouver ou pas, tout dépend de l’ardeur que l’on met à la rechercher…
En statistique, l’ardeur que l’on met à rechercher une différence s’appelle la puissance. C’est aussi une probabilité : celle de mettre en évidence une différence significative si cette différence existe vraiment.
Pour faire un essai clinique, il faut d’abord une idée puis on établit le budget. Ce budget dépend du nombre de patients que l’on va inclure dans l’essai. Et ça tombe bien car de ce nombre de patients va aussi dépendre la puissance des tests qui seront réalisés. Plus on prend de patients, plus on augmente la probabilité de trouver une différence significative si elle existe réellement mais plus cela coute cher.
Il y a une formule mathématique qui relie les deux probabilités décrites ci-dessus, le nombre de sujets, la variance et la différence que l’on suppose exister entre les deux groupes comparés.
Le nombre de sujets à inclure augmente si :
- La puissance augmente
- La différence supposée entre les résultats des deux groupes diminue (d’où l’intérêt de choisir un critère d’évaluation adéquat, mais qui n’augmente pas trop la variance, ou une population qui permette de bien démontrer la différence – si on veut démontrer un effet préventif sur la mortalité, il faut des morts, si possible consécutifs à la maladie que l’on souhaite prévenir)
- La variance augmente (les ajustements, l’homogénéité des réponses et donc des populations peut aider à diminuer la variance)
- Le risque a diminue (mais dans les faits, a reste toujours à 5 %)
Les formules pour calculer le nombre de sujets à inclure sont disponibles sur internet et en application pour Smartphones.
Ensuite, le calcul dépend (un peu) du test et certains tests sont plus puissants que d’autres. Bref tout cela se discute mais dans tous les cas, le nombre de sujets à inclure est réalisé sur le critère principal d’évaluation. Cela signifie que la puissance des tests pour les calculs statistiques suivants n’est possiblement pas optimisée:
- Critères secondaires d’évaluation :
- Evaluation des différences entre les groupes à l’inclusion
- Evaluation de la tolérance
Pour certains critères, on peut généralement recalculer la puissance à partir des données fournies dans les publications mais c’est un peu compliqué. Pour la tolérance, l’absence de différence entre les groupes comparés ne doit pas être prise comme « argent comptant » pour conclure sur l’absence d’augmentation d’un risque.
Je vous ai présenté ci-dessus l’intérêt de la puissance pour des essais destinés à démontrer une différence entre des résultats.
A contrario, si vous souhaitez ne pas mettre en évidence une différence significative entre deux produits, incluez peu de patients. Bien évidemment, si vous concluez de l’absence de différence significative que les deux produits sont aussi efficaces, il est possible que l’on se moque de vous… ou pas.
En fait, quand on vous dit que deux choses sont similaires, dans la quasi-totalité des cas, on n’a seulement pas réussi à mettre en évidence une différence. Regardez le nombre de cas utilisés pour la démonstration afin de vous faire une idée de l’ardeur mise à rechercher cette différence (vous pouvez retrouver une approximation de la puissance avec les petits logiciels disponibles).
Si maintenant, je veux démontrer que mon produit n’est pas différent ou inférieur à un autre sur le plan de l’efficacité. Je dois normalement faire un essai d’équivalence ou de non-infériorité. De tels essais nécessitent beaucoup de patients ; d’autant plus que l’on considérera comme cliniquement intéressante une petite différence.
L’autre solution, moins onéreuse, est de faire comme si on voulait démontrer une supériorité de son produit (parce qu’il agit sur le récepteur trucmuche et que c’est super important de chatouiller ce récepteur ou simplement parce qu’un autre argument –prix, tolérance … pourra plus aisément être mis en valeur) et prendre peu de patients. Avec un peu de chance (et parfois un peu de biais), on peut alors aboutir à une différence non significative. Cette méthode est bien sûr mauvaise mais comme peu de personnes la critiqueront, pourquoi ne pas tenter sa chance. Cette technique est aussi valable pour éviter de mettre en évidence un risque (cf Seralini et OGM).