CONSORT qui signifie « Consolidated Standards of Reporting Trials », propose comme son nom l’indique des règles de publication des essais cliniques et en particulier une check list des informations devant figurer dans la publication. Plusieurs cas particuliers sont traités (cluster, essais de non infériorité…). La dernière checklist « globale » est disponible par exemple ici ; c’est la table 1 de l’article.
Plusieurs items de cette checklist permettent de détecter les essais tronqués :
Sample size :
- 7b When applicable, explanation of any interim analyses and stopping guidelines
Recruitment
- 14b Why the trial ended or was stopped
Le diagramme de participation des patients dans l’essai peut aussi parfois aider.
Participant flow (a diagram is strongly recommended)
- 13a For each group, the numbers of participants who were randomly assigned, received intended treatment, and were analysed for the primary outcome
- 13b For each group, losses and exclusions after randomisation, together with reasons
Si j’ai décidé de faire un papier sur ce sujet, c’est pour deux raisons.
1) Je considère les essais tronqués comme biaisés jusqu’à preuve du contraire. C’est un point de vue pouvant être considéré comme un peu extrémiste, certes. Néanmoins, je vous ferais remarquer que j’admets qu’il est possible d’apporter une preuve que j’ai tort (dans un faible pourcentage de cas !).
2) Pierre Biron a attiré récemment mon attention sur l’essai JUPITER qui est un essai tronqué publié dans le NEJM et ayant fait l’objet de nombreuses critiques ( Celle ci et celle là en particulier). Les critiques sont principalement axées sur la faiblesse de l’effet observé, les anomalies des résultats confrontés à l’épidémiologie de la maladie et l’ampleur des conflits d’intérêt potentiels.
J’ai donc été téléchargé le rapport de la FDA sur cette étude. Je vous en sélectionne deux tableaux.
Le premier est une analyse du critère principal (critère combiné/composite sur les accidents cardio-vasculaires) selon l’année de suivi des patients, exprimé en probabilité de survie (survie = non survenue d’un des éléments du critère combiné), le second est le même résultat sur une courbe de survie mentionnant le nombre de patients à risque chaque année de suivi. Le premier tableau est une analyse de la FDA, la courbe est une information reprise du dossier du sponsor. C’est page 52 de la Medical Review(s).
Considérons que la FDA ne s’est pas plantée dans ses calculs ou dans leur présentation. Si tel est le cas, dans le premier tableau, au cours de la première année, il y a plus de survenues d’éléments validant le critère combiné dans le groupe verum que dans le groupe placebo (verum 0.993 versus placebo 0.998). Le résultat en NTT signifie donc qu’il faut traiter 200 patients avec le verum pour avoir un cas de plus par rapport à un traitement par placebo (personnellement, je l’aurais appelé NTH). La courbe issue du rapport du sponsor ne montre pas le même résultat. Si le patient sous verum a passé la première année, les choses s’améliorent (ouf !).
Enfin, elles s’améliorent pour environ la moitié d’entre-eux. L’essai a été arrêté donc les résultats les années ultérieures ne portent que sur une petite partie des patients inclus. Les nombres de patients sont inscrits en bas de la courbe.
Mes griefs vis-à-vis des essais tronqués sont les suivants.
1) La description des patients inclus ne permet pas de connaitre la typologie des patients selon leur influence sur les résultats de l’étude. On ne peut pas savoir si les patients suivis deux ans sont similaires à ceux inclus dans l’étude ou à ceux suivis pendant un an seulement. On ne peut pas savoir non plus si les groupes restent similaires (l’effet du traitement modifie certes les patients restant à risque mais dans le cas présent ils représentent moins de 5% des inclus).
2) Les flow charts généralement fournis pour analyser le suivi des patients mentionnent généralement un taux de perdus de vue très faible. Pour l’étude JUPITER, le flow chart est dans le supplementary material du NEJM. Tous les patients randomisés sont inclus dans l’analyse. Cela ne signifie pas qu’il y a 0% de perdus de vue ! Mais juste que l’information n’est pas clairement donnée. Le flow chart ne nous dit pas si des visites qui auraient du être comptabilisées à la date d’arrêt de l’essai, l’on bien été. Cette information ne peut être déduite des nombres de patients suivis à 1 an, 2 ans, contrairement aux essais sur des cohortes suivies pendant une durée unique. Zero pourcent de perdus de vue est un exploit !
3) Dans les essais tronqués, par définition, il y a des analyses intermédiaires. On ne peut pas toujours savoir si elles ont levé l’aveugle mais c’est probable. Si l’aveugle n’est pas levé, les données de tolérance ou de la baseline ont-elles été analysées ? Si oui, il est facile de savoir quels sont les patients à plus fort risque de validation du critère principal et dans quel groupe ils sont. Cela peut aider quand il faut définir la date d’arrêt de l’essai ou s’il est préférable de sortir prématurément un patient. On rentre ici dans la fraude mais la présentation des résultats d’un essai tronqué favorise cela.
4) Tous les résultats en nombre de patients qui ont présenté tel effet désirable ou indésirable ne peuvent être comparés à ceux des études réalisées sur une durée fixe pour tous les patients car il faudrait prendre en compte la durée de suivi des patients et les patients qui restent tolèrent à priori mieux les produits.
5) Autres arguments ici
Donc, je n’aime pas les essais tronqués.
Essayons de proposer des pistes pour améliorer l’information sur de tels essais.
L’item 7b de CONSORT peut être amélioré en demandant les informations analysées pour définir l’opportunité d’arrêt de l’essai : levée de l’aveugle, inclusion des données de tolérance ou des données initiales, analyses réalisées.
Le critère d’arrêt de l’essai était-il prévu sur une information spécifique et inscrit dans le protocole : par exemple tant de cas de (critère principal)……. Survenant sur l’ensemble des groupes ou « si c’est positif on arrête ! ».
Certains essais utilisent un critère d’évaluation dont la validation se fait sur deux visites successives (progression confirmée dans la sclérose en plaques) ou dont la survenue peut être plus ou moins suspectée sur la consultation précédente. Il est alors souhaitable de disposer du statut à la dernière consultation afin d’évaluer si l’arrêt de l’essai se fait à un moment plus ou moins opportun. Une telle analyse avait été faite par la FDA sur les essais Rebif même si l’essai n’était pas tronqué.
En plus du flow chart (item 13), identification des patients à des périodes successives (1 an, 2 ans…) et description de ces patients selon leur durée de suivi. Par exemple, caractéristiques initiales des patients suivis le plus longtemps par groupe de randomisation, comparées à celle des patients suivis moins longtemps, en particulier sur les critères éventuellement utilisés pour les ajustements et stratifications ou analyses de sous-groupes.
Évaluation de l’efficacité sur une durée fixe et sur les cohortes selon leur durée de suivi : Dans l’étude Avonex, c’est ce qui permet de voir le biais. Par exemple, pour l’étude JUPITER, il serait intéressant de connaitre l’efficacité du produit au cours de la première année sur les patients suivis plus d’un an et de la comparer à celle sur les patients suivis un an seulement (ou une autre répartition à définir selon la dispersion des durées de suivi). On pourra s’aider d’une comparaison des analyses en ITT et en PP si c’est possible. Attention aussi dans les essais tronqués, si les patients suivis le plus longtemps bénéficient d’une meilleure efficacité que ceux suivis moins longtemps, pour certains types de critères d’évaluation, l’analyse en ITT donnera un résultat plus favorable que celui qui serait obtenu sur la totalité des patients suivis pendant la totalité de la durée.
Évaluation de la tolérance selon la durée de suivi : La fréquence des effets adverses cumulatifs est minimisée dans les essais tronqués s’ils sont exprimés en pourcentage de la population incluse. De même pour les arrêts de traitement pour effet indésirable. Ces informations doivent être données avec une information sur le délai de survenue et le nombre de patients pris en compte. Les données d’observance peuvent aussi être faussées si elles sont dépendantes de la durée de traitement.
Mise à part la recherche de biais, ces informations peuvent aussi avoir un intérêt pour la réalisation de méta-analyses (on sait que les essais majorent généralement le bénéfice du traitement) et pour le poids à attribuer à chaque étude s’il est défini en fonction du nombre de patients inclus.
Peut-être qu’avec toutes ces données, je me mettrai à aimer les essais tronqués.
Ce sera probablement un amour pervers car je suis sûr qu’on trouvera plein de biais.