Il existe de multiples publications proposant une liste des biais ou des risques de biais des essais cliniques. Par exemple, ici, les biais sont classés en 4 catégories : selection bias, performance bias, detection bias, and attrition bias. Dans le document de la Cochrane est ajouté le biais de reporting (tableau 8.4.a) qui est un biais réalisé uniquement après la fin de l’essai. Je garde les termes francisés de biais de détection et biais de performance qui peuvent correspondre aux biais de mesure et biais de suivi.
Dans ce même document de la Cochrane, un autre tableau (table 8.5.a) présente les éléments à vérifier pour établir un risque de biais.
Les deux tableaux sont téléchargeables ici.

Partons de la classification de la Cochrane (table 8.4.a) et essayons de voir comment on peut passer du risque de biais au biais ou à la fraude.
Toutes les descriptions des biais commencent par “Systematic differences between groups” (sauf bien sûr le reporting bias).
Donc, selon les documents de la Cochrane, pour faire un bon biais, il faut pouvoir agir de manière différenciée sur chaque groupe.
Est-ce une condition nécessaire pour obtenir des résultats biaisés ?
Peut-on obtenir des résultats différents sur deux études similaires sans agir spécifiquement sur un groupe et sans que cela se voit sur une publication –réalisée selon les règles Consort- ou sur le protocole?
A priori, c’est possible.
Soit une étude contre placebo destinée à démontrer un effet préventif quelconque. L’étude est internationale ; le risque de survenue de l’événement à prévenir varie selon les pays. Si je commence le recrutement dans les pays à fort risque et que je prévois une règle d’arrêt (aboutissant à un essai tronqué), j’augmente ma probabilité de succès par rapport au même essai débutant dans les pays à faible risque. Si l’essai est arrêté après l’inclusion de tous les patients, les caractéristiques initiales des patients dans les deux essais sont similaires et le protocole ne mentionne pas l’ordre d’inclusion.
Cela revient à réaliser un « enrichment » des patients comme cela est discuté ici. L’ « enrichment » est lié à l’arrêt prématuré de l’essai qui donne donc un poids supérieur aux patients inclus en premier. Il permet d’attribuer à une population plus large un bénéfice qui pourrait n’être notable que sur une population plus restreinte : celle à fort risque de survenue de l’événement ciblé par la prévention.
Cela ne correspond pas à la définition « officielle » des biais (différence systématique entre les groupes) mais constitue un moyen d’embellissement des résultats. L’impact de l’embellissement est potentiellement le même que celui obtenu avec un biais : obtention facilitée d’un résultat positif. On pourrait éventuellement classer cet embellissement dans les biais d’attrition, puisque l’essai est tronqué, mais les deux groupes (placebo et verum) sont impactés de manière identique.
Cet embellissement peut être réalisé en incluant en premier des patients présentant tout risque majoré favorisant la mise en évidence de l’effet.
Pour mettre en évidence ce type d’embellissement, il faut connaître l’ordre d’inclusion des patients, donc les données individuelles.
Est-on obligé de connaitre les groupes pour agir différemment sur chacun ?
Normalement oui
Même en imaginant, sur un critère quantitatif, une majoration systématique des patients qui s’améliorent et une minoration des patients qui ne s’améliorent pas ou peu. Un peu tiré par les cheveux et à risque car cela peut augmenter la variance et limiter les possibilités de mise en évidence d’un effet. Il faut que le produit ait un minimum d’effet…. Et dans ce cas on suppose donc que l’effet permet de distinguer les groupes. On considère que l’on peut connaître le groupe du patient ou établir pour certains patients une probabilité supérieure à 50% (pour 2 groupes) qu’ils soient dans un groupe spécifié.
En plus, il n’est pas illogique de penser que les patients qui s’améliorent aient tendance à majorer les bienfaits du traitement et ceux qui s’aggravent à majorer leur aggravation. L’utilisation de critères objectifs d’évaluation est la meilleure parade. La comparaison des essais peut permettre d’évaluer la survenue d’un tel effet de majoration des évolutions, à partir des données individuelles bien sûr.
Peut-on créer les groupes de manière à favoriser une issue positive de l’essai.
Oui, c’est très facile si on a la possibilité de prévoir ou d’orienter le résultat de la randomisation.
Mais biaiser l’essai de cette manière, en créant deux groupes différents sur un critère influent, peut se voir sur la comparaison initiale des populations.
Pour éviter que ce biais soit trop visible, il faut :
- soit ne pas comparer les groupes sur le critère choisi ! Et bien sûr ne pas ajuster les analyses sur le critère !
- soit utiliser des combinaisons de critères « synergiques » (par exemple, fumeur+hypercholestérolémie + antécédent d’infarctus +diabète dans un groupe et fumeur, ou hypercholestérolémie ou antécédent d’infarctus ou diabète dans l’autre),
- soit pour un facteur pronostic quantitatif dont l’impact n’est pas proportionnel, mettre dans un groupe les « moyens » et dans l’autre des patients à risque élevé et des patients à risque faible. Cela peut se voir sur l’écart-type mais il suffit de mettre l’erreur standard de la moyenne avec un arrondi ad hoc pour minimiser la différence absolue entre les groupes.
Seules les données individuelles permettraient de déceler ce type de biais, qui doit être rare, mais on n’en sait rien puisque l’on ne dispose pas des données individuelles.
Maintenant comment connaître les groupes et biaiser l’essai sans que cela se voit ?
C’est la levée de l’aveugle.
Les moyens de lever l’aveugle sont multiples ; ce sont des situations qui sont à très fort risque de biais, que la levée de l’aveugle soit recherchée ou « involontaire ».
· Au niveau du centre investigateur:
o Au moment de la randomisation
§ Levée du masquage de l’allocation
§ Possibilité de prévision du résultat de la randomisation
o Pendant l’essai
§ Différence physique détectable entre les produits testés.
§ Intolérance spécifique d’un traitement
§ Effet biologique/clinique spécifique
· Au niveau central
o A partir des bases de données
§ Analyse conjointe des données des investigateurs traitant et évaluateur
§ Analyses intermédiaires avec ouverture de la liste de randomisation
§ Calcul de probabilité d’appartenance à un groupe selon intolérances, effets biologiques, effets thérapeutiques ou toute autre donnée, même si elle n’est pas communiquée à l’investigateur (dosage du médicament par exemple)
Comme le souligne le « risk of bias tool » de la Cochrane, la levée de l’aveugle par l’investigateur permet les biais de performance et de détection.
Ces 2 biais sont difficiles à mettre en évidence. Pour le biais de performance, il serait nécessaire de connaître toute la prise en charge des patients et pour le biais de détection, il faudrait un contrôle de la mesure des critères d’évaluation. Bien évidemment, des critères très objectifs comme la mort sont moins sujets au biais de détection ou de performance.
Même avec les données individuelles des patients, il peut être impossible de les déceler. On pourrait comparer l’évolution des patients de cet essai à celle de patients d’un autre essai mais il faut avoir les données individuelles de l’autre essai. On ne peut donc le plus souvent que les suspecter, en mettant en évidence la condition nécessaire à leur survenue : la levée de l’aveugle.
La levée de l’aveugle peut aussi être réalisée par le patient, qui peut en informer le médecin ou non. Si une intolérance a permis au patient de suspecter son groupe, le médecin traitant sera mis au courant. Si le patient a distingué le produit sur des caractéristiques physico-chimique, il gardera plus probablement l’information pour lui.
Un patient ayant levé l’aveugle sera influencé ; non seulement pour toute évaluation des bénéfices ou de la tolérance, ce qui peut induire des biais de performance ou de détection, mais aussi pour son choix de rester dans l’essai, ce qui peut entrainer un biais d’attrition.
La note d’information et de consentement permet de faciliter la levée de l’aveugle pour le patient et d’améliorer les bénéfices du traitement. Si le produit entraîne une intolérance particulière, il est important de la décrire clairement. Il est aussi important de décrire les bénéfices attendus du traitement évalué afin de majorer l’a priori positif du patient qui suspectera son allocation au groupe traité. La note d’information et de consentement devrait être systématique publiée avec le protocole.
Là encore, si le critère d’évaluation est la mort, le risque de biais est plus faible que pour des critères d’évaluations subjectifs.
Au fait, peut-on avoir un biais de performance ou de détection sans levée de l’aveugle ?
Si on utilise un test plus sensible (et si possible plus spécifique), la détection d’une différence sera facilitée mais ce n’est pas un biais, c’est une autre évaluation.
Si un produit à tester est comparé à un autre produit actif difficile à manier, la prise en charge globale des patients sera différente de celle appliquée si le produit à tester, simple à manier, est comparé à un placebo. Ce n’est pas un biais, c’est une autre étude.
On pourrait aussi imaginer un essai par cluster avec des techniques de détection différentes (IRM différentes)
Pour l’analyse de la tolérance, l’objectif étant de ne pas montrer de différence, il est beaucoup plus facile de s’organiser un petit biais de détection. Le questionnaire pourra être orienté pour que tous les patients présentent un effet indésirable banal, minimisant ainsi la différence, ou à contrario pour minimiser la détection d’un effet indésirable particulier. Les modalités de recueil de la sévérité ou d’autres caractéristiques des effets indésirables peuvent aussi induire un biais de détection. En général, c’est plutôt un biais de reporting car l’information existe souvent. (exemple ici)
Et pour faire un bon biais d’attrition, que faut-il ?
Selon le tableau 8.5.a de la Cochrane, pour suspecter un biais d’attrition, l’élément à rechercher est… une attrition et les raisons pour lesquelles des patients n’ont pas été évalués.
Là encore, on est dans la quasi-totalité des cas, dans un système de suspicion de biais.
La description des raisons de sorties d’essai n’est généralement pas suffisamment informative. En particulier, on ne sait pas si ceux qui sortent sont des patients en échec thérapeutique ou non.
Avec plus de 20% d’attrition, le biais d’attrition est fortement suspecté selon certains. Mais de nombreux essais utilisent des critères d’évaluation basés sur l’évolution particulière d’un petit pourcentage de patients ; courbes de survie, pourcentage de répondeurs. Il peut dans ces conditions être suffisant de « sortir » un petit pourcentage de patients pour favoriser la positivité de l’étude.
Sortir des patients de l’étude est assez facile. Il y a toujours une bonne raison : non respect du protocole, retrait du consentement, pour recevoir un autre traitement, intolérance, décision du patient…
Pour favoriser un des groupes, il suffit alors
1. de connaitre le groupe de certains patients par une levée de l’aveugle (y compris au niveau central)
2. de choisir en fonction du groupe à favoriser un répondeur ou un non répondeur probable (en fonction de l’évolution initiale ou des facteurs de risques…)
3. de trouver une cause possible de sortie et de l’appliquer lors d’une consultation de suivi
Pour favoriser la positivité de l’essai, les patients à sortir sont ceux qui s’aggravent sous verum ou ne s’aggravent pas sous placebo et il faut garder ceux qui vont bien sous verum et s’aggravent sous placebo.
Certaines études prévoient de redemander le consentement après survenue d’une aggravation. C’est le médecin traitant (par opposition au médecin évaluateur), qui, ayant de bonnes chances de connaitre le traitement reçu et l’évolution, est en charge de cette discussion. Trop facile d’influencer le patient pour le faire sortir de l’essai ou a contrario pour le faire rester.
Mais cette discussion est dépendante des possibilités de traitement hors études cliniques : prise en charge, disponibilité d’un traitement.
En l’absence de traitement ou de prise ne charge possible pour un traitement onéreux, tous les patients se sachant sous traitement auront tendance à rester car l’alternative est une absence de traitement.
Le problème revient alors à faire rester les patients sous placebo, surtout ceux qui s’aggravent. Des arguments peuvent être prévus par le protocole de l’étude : traitement gratuit ou tout système de dédommagement si le patient reste dans l’étude suffisamment longtemps.
Là encore, le seul moyen de vérifier si les patients sortis favorisent un groupe ou l’autre est d’analyser les données individuelles. Seules ces données permettent de transformer le risque de biais en biais avéré et d’évaluer l’impact du biais, en particulier plus précisément qu’en considérant tous les sorties comme ayant pu favoriser le verum. La comparaison des analyses en ITT et en PP peut aider.
Lorsque des analyses intermédiaires sont réalisées, ou que des règles d’arrêt d’un essai sont prévues, quelqu’un en central dispose pour chaque groupe des patients ayant validé le critère d’évaluation et de ceux qui sont plus à même de le valider prochainement (facteurs de risque, évolution récente).
L’arrêt prématuré de l’essai doit être considéré comme un risque majeur de biais d’attrition.
Au pire, la sortie systématique des patients défavorables à la positivité de l’essai peut passer inaperçue si on ne dispose pas de l’ordre d’inclusion des patients dans l’essai comparé à leur durée de participation.
On est bien sûr dans le domaine de la fraude manifeste.
Et les autres biais ?
Le biais de reporting correspond à un mauvais reporting des données de l’essai, non conforme aux critères inscrits dans le protocole.
Pour le voir, il faut avoir le protocole.
J’ai du mal à évaluer ce que certains appellent le biais d’analyse, sauf à considérer qu’il s’agit d’une mauvaise utilisation des méthodes statistiques. Il faut qu’elles soient bien décrites.
Le biais de publication est un gros biais de reporting, concernant l’ensemble de l’essai !
Il y a probablement d’autres manières de biaiser un essai randomisé…
Conclusion
Il y a de multiples manières d’influencer les résultats d’un essai.
Les 4 types de biais, réalisables avant ou pendant l’essai (SPDA) sont dans la plupart des cas possibles grâce à une levée de l’aveugle ou du moins grandement facilités.
Et il est très rare de ne pouvoir suspecter une levée de l’aveugle : produit sans intolérance, sans effet biologique décelable, sans effet bénéfique rapide, évalué dans une étude sans analyse intermédiaire, où le médecin traitant n’a pas d’influence sur le suivi…
Faut-il considérer que, dès suspicion, que le ver est dans le fruit ? En pratique la suspicion n’empêche pas l’utilisation des essais suspects dans les méta-analyses ou pour la validation d’AMM.
Sur les publications, il est possible de suspecter la levée de l’aveugle mais son impact sur les résultats est difficilement évaluable.
Ré-analyser les essais sur les données individuelles est un énorme travail mais ce serait le seul moyen d’obtenir une évaluation correcte de certains essais et voir les fraudes manifestes.
Vous vous doutiez que j’allais conclure sur les données individuelles ?