Je profite d’une récente publication sur les résultats de Tecfidera (BG-12) sur différents sous-groupes pour aborder le sujet. C’est un sujet important ; l’EMA a organisé en novembre 2011 un workshop sur le sujet.
Comme pour les ajustements, les analyses de sous-groupes utilisent les données initiales des patients (Baseline Characteristic).
Les ajustements permettent de contrôler lors des analyses statistiques une éventuelle inégalité entre les groupes comparés sur des critères influençant le critère d’évaluation. L’important est de disposer des analyses avec et sans ajustements. Le choix des variables d’ajustement doit se faire avant l’essai, c’est mieux.
Les analyses de sous-groupes permettent de comparer l’efficacité du produit sur des sous-groupes complémentaires de la population incluse, sous-groupes définis selon ces mêmes critères initiaux. Ces analyses sont très fréquemment réalisées. Là encore, il est préférable de prévoir les analyses de sous-groupes avant d’avoir les résultats de l’étude. Mais si on évaluait que ce que l’on connait déjà, on avancerait assez lentement… donc on peut faire des analyses de sous-groupes à la vue des résultats. On doit juste les considérer comme « exploratoires »
La principale question sur les sous-groupes est : maintenant qu’on a le résultat, on en fait quoi ?
En réalisant plusieurs analyses sur des sous-groupes, on peut en effet rencontrer plusieurs problèmes.
Plus on fait d’analyses, plus on augmente la probabilité d’avoir une différence significative dans un sous-groupe, plus on augmente la probabilité d’obtenir des sous-groupes complémentaires avec une interaction significative.
Cela, juste du fait du hasard.
L’analyse statistique réalisée sur un sous-groupe est moins puissante que celle effectuée sur la population totale (du fait du petit nombre de patients) donc même sur un groupe où l’efficacité est la plus forte, les résultats peuvent être non significatifs alors qu’ils le sont sur la population totale. On doit en plus utiliser des tests statistiques différents (recherche d’interaction / hétérogénéité) et ils sont moins puissants. L’utilisation de multiples tests nécessite une diminution du seuil alpha, ce qui rend plus difficile l’obtention d’une significativité.
Et si on obtient une différence notable entre deux sous-groupes, cela ne signifie pas forcément que le critère choisi pour définir les sous-groupes est le facteur causal expliquant la différence d’efficacité. Il peut aussi s’agir d’un facteur de confusion usuel.
En plus, il ne faut pas confondre les critères impactant l’efficacité du produit et ceux modifiant la possibilité de mise en évidence d’une efficacité. Si vous évaluez l’efficacité d’un produit sur la mortalité des patients de 40 à 70 ans, il est possible que chez les plus jeunes il n’y ait pas suffisamment de morts pour mettre en évidence votre effet ou que chez les plus vieux il y ait beaucoup trop de morts liées à une cause non « prévenue » par votre traitement (donc réparties équitablement dans les deux groupes). Dans les deux cas, l’efficacité apparente de votre produit (en considérant qu’elle est réelle) sera amoindrie sans que cela soit lié à l’efficacité réelle de votre produit (plutôt lié à la sélection des patients à traiter – perte de puissance mise à part).
Pour d’autres critères quantitatifs, la sélection des patients peut aussi diminuer leur variabilité et donc favoriser la mise en évidence d’une différence.
Bon, Alors, on en fait quoi de ces analyses de sous-groupes qui peuvent être positives ou négatives de manière un peu trop aléatoire?
Puisque l’on fait de l’analyse critique d’un essai, il faut d’abord savoir ce que l’on va critiquer : pourquoi l’auteur a fait des analyses de sous-groupes et quelles conclusions en tire t-il ?
Quels sont les résultats sur l’ensemble de la population ?
S’ils sont négatifs et qu’un sous groupe défini sur un critère « bizarre » montre une différence significative, on peut être dubitatif sur l’intérêt de cette analyse mais néanmoins féliciter l’auteur d’avoir publié un essai négatif.
Si le critère du sous-groupe n’est pas bizarre mais déjà connu pour interagir avec la mise en évidence d’une efficacité d’un produit similaire ou « logique » sur le plan biologique, ce sera une bonne base pour de nouveaux essais sur cette sélection de patient. Mais on ne peut pas exclure un facteur de confusion (particularité génétique versus origine ethnique par exemple) ou le facteur « chance ». Il est très difficile d’octroyer une AMM sur une seule analyse de sous-groupe.
Si l’essai est positif, on peut se demander pourquoi un sponsor industriel réalise des analyses de sous-groupes. A priori, faire une analyse de sous-groupes, ou pire prévoir d’en faire une avant d’avoir les données, risque de réduire le marché potentiel du médicament (même si la réduction du marché est un argument pour augmenter le prix du médicament).
Il faut regarder la conclusion de l’article pour savoir pourquoi les analyses de sous-groupes ont été réalisées ?
Plusieurs conclusions sont possibles.
- Le produit « marche » chez tout le monde. Si l’étude compare le produit à un référent et à un placebo, on peut voir des comparaisons de l’efficacité des deux produits actifs sur les différents sous-groupes pour mettre en avant le produit promu. C’est le cas de l’analyse de sous-groupes sur une des deux études de phase III de Tecfidera. L’étude compare deux doses de Tecfidera, un placebo et, sans aveugle, l’acétate de glatiramère (AG). Le Tecfidera marche sur tous les sous-groupes. Cette conclusion est déduite de l’observation d’odd ratio toujours inférieurs à 1. Bien évidemment certains sont non significatifs ! Par contre, l’AG augmente de 6% le pourcentage de patients avec poussées chez les patients de plus de 40 ans. Dans les données complémentaires, AG augmente la fréquence des poussées dans la région 1 (USA). On appréciera à sa juste valeur un tel argument basé sur une analyse de sous-groupe ! Il est dommage que ne figure pas la différence d’efficacité du Tecfidera selon la survenue d’un flushing comme indiqué dans le rapport de la FDA .
- Le produit « marche » même chez certains patients : c’était le cas dans l’étude PRISMS. Un graphique montre l’efficacité du Rebif 44 chez les patients dont l’EDSS est supérieur à 3,5 sur la prévention de la progression du handicap. Cette analyse, réalisée sur un faible pourcentage de patients, permettait de montrer l’efficacité de Rebif chez des patients non évalués dans l’étude Avonex (inclusion de patients dont l’EDSS était entre 0 et 3,5). On se rappellera que la durée d’évolution aux stades EDSS supérieurs à 3.5 est inférieure à celle aux stades plus précoces donc un plus fort pourcentage de patients progressera dans cette partie de l’échelle EDSS. D’un autre côté, la progression aux stades initiaux est souvent induite par des symptômes (subjectifs) alors que les progressions ultérieures sont induites par des signes (+objectifs).
- Zut ! Le produit ne marche pas chez certains patients. C’est très rarement souligné dans la conclusion voire rarement publié. Néanmoins On pourrait néanmoins imaginer que si le produit « marche » mieux dans un sous-groupe, cela signifie qu’il « marche » moins bien dans le sous-groupe complémentaire. Pour les critères binaires, cela n’est pas forcément vrai, le produit peut marcher dans les deux sous-groupes sans marcher sur la population totale! (paradoxe de Simpson : A supérieur à B dans les deux sous-groupes et B>A sur la population totale). Pour une corrélation, ce n’est pas vrai non plus : deux sous-groupes peuvent avoir une corrélation négative avec une abscisse x, l’ensemble ayant une corrélation positive avec la même abscisse x. Pour un critère basé sur une donnée quantitative, c’est plus compliqué car il peut y avoir de multiple manières d’évaluer l’impact des traitements (delta, pourcentage d’évolution, prise en compte de la donnée initiale même en réalisant une analyse correcte…et je n’ai pas trouvé d’exemple !). De toutes les manières, ces analyses sont à considérer comme exploratoires et il est urgent d’attendre une confirmation.
Bref, les analyses de sous-groupes sont amusantes à regarder car elles permettent parfois de comprendre l’argumentaire qui sera mis en avant et d’observer des anomalies qui peuvent mettre la puce à l’oreille. Il est en outre parfois intéressant de comparer la liste des sous-groupes à celle des éventuels ajustements ou stratifications.
Leurs conclusions sont à considérer avec beaucoup de précaution avant une confirmation par une autre étude.
Bonus : Les analyses de sous-groupes peuvent aider à rechercher des biais…
Par exemple : à tout seigneur, tout honneur, dans l’étude Avonex, l’analyse des patients selon leur durée de suivi permet de voir que les patients « gênants » pour l’obtention d’une démonstration d’efficacité (« bon répondeurs au placebo et mauvais répondeurs au verum) ont été suivis moins longtemps que ceux favorisant la différence. Dans l’étude Tecfidera, les patients faisant un flushing répondent mieux que ceux qui n’en font pas ; les analyses par région sont intéressantes aussi, de même que celles sur les cohortes IRM.
Donc, il faut laisser faire les analyses de sous-groupes, les stimuler même ! Et ne croire, avant confirmation éventuelle, que celles qui vous permettent de déceler un biais !
L’étude de sous-groupes avait défrayé la chronique début octobre 2008 avec l’annonce puis la publication de l’étude Tardieu sur la SEP chez les enfants après vaccin hépatite B, le sous-groupe des SEP considérées étant « vaccinés Engerix, délai de l’ADC supérieur à 3 ans, observants au calendrier vaccinal soit 4 DTP, 1 BCG et 1 ROR avant l’âge de 2 ans ». Il était significatif avec un OR de 2,78. On a alors tout entendu sur le traitement des sous-groupes.
Vous écrivez : «L’analyse statistique réalisée sur un sous-groupe est moins puissante que celle effectuée sur la population totale (du fait du petit nombre de patients) donc même sur un groupe où l’efficacité est la plus forte, les résultats peuvent être non significatifs alors qu’ils le sont sur la population totale. » Mais ici c’est l’inverse.
Pourquoi ? Sur cet exemple particulier que j’ai beaucoup travaillé (avec les seules données publiées) le plus vraisemblable est un déficit de cas déclarés chez les enfants vaccinés âgés : la limite de la première ADC était fixée à 16 ans ou 2003 ; si ADC ils étaient alors suivi jusqu’au 30 juin 2006. Aussi, le risque de SEP dans le cadre de cette étude n’était pas du tout le même pour un enfant vacciné à 15 ans ou à 11 ans.
Il est assez probable que si les auteurs avaient considéré les enfants des classes d’âge vaccinées en sixième, ce sous-groupe aurait été pour le moins significatif. Le fait d’y adjoindre les enfants vaccinés plus jeunes et ceux vaccinés plus âgés ayant un effet neutralisant. J’ai étudié cela [1].
On peut aussi noter que le fait d’exiger un ROR avant l’âge de 2 ans élimine pratiquement ceux nés en 1980 par exemple, donc déjà âgés quand la campagne débuta fin 1994. Les vaccins Engerix et Genhevac n’ont pas été répartis au hasard : Engerix a eu l’exclusivité dans les collèges pour la vaccination en sixième jusqu’au changement de ministre après les législatives du printemps 2007. Aussi, le sous-groupe Engerix va chercher ceux qui furent vaccinés en sixième et qui furent tous suivis jusqu’à 16 ans, donc pendant la même durée, contrairement à d’autres.
Si les auteurs avaient décidé d’étudier le sous-groupe des enfants vaccinés en sixième il n’y aurait aucune critique à faire au motif que ce serait un sous-groupe car il pouvait être choisi d’emblée comme groupe et la sélection des témoins associés n’est en aucune façon liée au fait que d’autres enfants avaient aussi été retenus dans l’étude. Ni au motif du risque de première espèce en avançant que les auteurs l’auraient étudié après 30 autres sous-groupes alors qu’il pouvait être le premier et même le seul étudié. Le risque de première espèce apparaît quand on répète l’expérience de façon indépendante, ce qui, sur cet exemple, signifie qu’on étudie d’autres populations d’enfants (dans d’autres pays ou dans d’autres générations) et non pas qu’on multiplie les études de sous-groupes.
Comme cela est très vraisemblable sur cet exemple, l’étude de sous-groupes peut mettre en évidence l’absence d’homogénéité du risque dans la population étudiée (relativement aux critères de l’étude et non en soi). C’est d’ailleurs par cela qu’il faudrait commencer : si on lance 100 pièces a-t-on à chaque fois la même probabilité d’obtenir pile ? C’est fondamental. Si le risque n’est pas homogène ce n’est pas forcément le fait du hasard. Ici c’est la construction même de l’étude qui crée cette situation.
[1] http://questionvaccins.canalblog.com/archives/2011/04/18/20920819.html