Avouez que c’est rageant ! Tant d’études de suivi avec des patients traités de diverses manières et on ne peut même pas valider l’efficacité des médicaments utilisés parce que le dogme de la randomisation n’est pas appliqué.
Ce dogme est : seule une étude randomisée permet d’attribuer une relation de causalité entre l’objet de la randomisation (traitement A ou B) et l’issue des patients. A ce jour, seule la randomisation permet d’obtenir deux groupes identiques sur des caractéristiques connues ou inconnues. Ce qui est important est le « inconnues ». On pourrait imaginer créer deux groupes en stratifiant sur les facteurs pronostiques ou prédictifs connus mais généralement, ils ne permettent d’expliquer qu’une petite partie de la variabilité des réponses. Ceux qui expliquent le reste de la variabilité sont inconnus sauf la part inexplicable si tant est que l’on considère qu’elle existe.
Quel dommage ! Les études de suivi sont beaucoup plus faciles à réaliser et moins couteuses. En plus, il y en a déjà plein qui sont faites et publiées et il existe plein de bases de données de patients suivis pendant de nombreuses années. Si on pouvait s’en servir pour démontrer ou confirmer l’efficacité des médicaments, voire pour obtenir un bon tiré-à-part pour la promotion, ce serait quand même bien.
Idéalement, on passerait l’AMM sur des études plus petites, comme pour une ATU (autorisation temporaire d’utilisation) et on promettrait de faire des grands suivis de populations traitées et d’analyser sur ces données de suivi l’efficacité et la tolérance du nouveau produit. Les autorités de tutelle proposent parfois des études complémentaires à réaliser après l’AMM pour confirmer l’efficacité dans des cas particuliers.
Cela vous semble irréaliste…
La première pierre est déjà posée.
Tout est sur le site http://www.imi-protect.eu/
Protect est un projet tenu par un partenariat public-privé entre l’EMA, l’EFPIA (syndicat européen de l’industrie pharmaceutique) et des universités.
L’objectif est d’organiser une meilleure utilisation des bases de données pour évaluer la tolérance des médicaments. Comme le démontrent régulièrement les scandales médicaux récents, il est difficile de mettre en évidence en pré-AMM tous les risques des médicaments (rappel : pour avoir 95% de chance de voir un événement indésirable rare et spécifique survenant à une fréquence de 1/x il faut 3x patients)
Il est évident qu’il faut suivre en post-AMM les patients traités pour avoir une meilleure évaluation de la pharmacovigilance. C’est l’axe principal du projet Protect et c’est très bien. Restera à s’assurer que ce suivi est « exhaustif ».
Néanmoins, le tableau récapitulatif du projet mentionne une petite flèche en pointillé entre les suivis des patients et le bénéfice des médicaments. L’utilisation des suivis de patients pour démontrer une efficacité est donc envisagée.
Les scores de propension
La technique actuellement la plus souvent en vogue pour transformer une étude de suivi en étude comparative démontrant une efficacité est celle des scores de propension (propensity scores en anglais).
La publication qui a lancé la mode des scores de propension pour comparer des médicaments à partir de données observationnelles est celle de Rosenbaum et Rubin en 1983, dans Biometrika. Son titre est explicite : « The central role of the propensity score in observational studies for causal effects »
Une petite révolution car vouloir démontrer une causalité à partir de données observationnelles aboutit à ce qui est appelé sur twitter #statalacon (demander à @DDupagne pour de plus amples explications).
Par exemple, on peut démontrer que la taille des chaussures des enfants est corrélée à leur capacité à résoudre des problèmes de mathématiques. Cela ne signifie pas que la cause de cette aptitude est la taille des chaussures (ni qu’il faut leur acheter des chaussures plus grandes pour augmenter cette aptitude).
Le score de propension (propensity score) est la probabilité qu’un patient reçoive un traitement donné en fonction ses caractéristiques initiales. A partir des différents facteurs de confusions potentiels disponibles, on calcule donc, par des modèles logistiques le plus souvent, pour chaque patient un score unique traduisant la probabilité qu’avait ce patient de recevoir l’un ou l’autre des traitements.
On considère alors que les patients ayant le même score de propension ont le même profil de facteurs de confusion, qu’ils peuvent être comparés comme s’ils avaient reçu le traitement par randomisation… et donc conclure que le traitement est la cause de la divergence d’évolution ; comme pour les essais cliniques randomisés. Bingo !
Dans un essai randomisé en deux groupes de même taille, la probabilité de recevoir un des deux traitements est de 0,5 ; elle ne dépend pas des caractéristiques initiales. L’utilisation des scores de propension permet de retrouver chez les patients suivis ceux ayant le même profil de facteurs de confusion
Les patients de chaque groupe, traitement par A ou par B, sont donc répartis selon leur score de propension.
Plusieurs méthodes de comparaison des patients sont alors possibles.
On peut créer des binômes de patients ayant le même score (à x décimales près par exemple). Cela revient à comparer les patients qui sont dans la zone délimitée par la double flèche bleue sur le graphique modifié à partir de cette publication (http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1790968/) mais pour chaque patient d’un groupe donné, il y a plusieurs possibilités d’appariement. Cette technique réduit aussi le nombre de patients (à ceux de la zone coloriée en bleue) donc la puissance des tests.
On peut aussi regrouper les patients selon des intervalles de score (quintiles par exemple) et effectuer une analyse stratifiée.
On peut aussi inclure le score dans une régression multiple.
Enfin, a été plus récemment proposée une autre méthode : Pondération par l’inverse du score de propension ou inverse-probability-of-treatment weighting (IPTW).
Plus d’informations sur les scores de propension dans cette publication que l’on peut demander à l’auteur.
Et voilà comment on transforme un suivi de patients en essai randomisé.
Quelques remarques s’imposent pour comprendre comment on peut obtenir un résultat conforme à ses souhaits avec ces méthodes.
1) Le chemin pour aboutir à la publication d’une comparaison basée sur des scores de propension est pavé de multiples choix qui peuvent influencer le résultat.
a. On choisit une cohorte ou une autre
b. On choisit les facteurs de confusion à inclure
c. On choisit le modèle pour calculer les scores de propension
d. On choisit la méthode de comparaison basée sur les scores
e. Pour l’appariement, on choisit la proximité et les patients à inclure dans la comparaison, pour la stratification, on choisit les limites et le nombre de classes
f. On choisit ensuite les autres éléments habituellement précisés dans le protocole d’un essai randomisé (critère, méthode statistique…)
Tous ces choix élargissent les possibilités d’obtenir des résultats différents. Donner tous les détails de la méthode utilisée est une première étape, fournir des informations sur l’influence des différents choix sur le résultat serait préférable pour tester la robustesse du résultat.
Des guidelines pour la réalisation et le reporting des analyses par scores de propension sont proposées (par exemple ici ) mais il semble encore y avoir quelques discussions sur les méthodes adéquates…
2) L’appariement réduit particulièrement le nombre de patients et donc la puissance de l’analyse. Ne pas mettre en évidence de différence entre deux groupes peut être un objectif (évaluation des effets indésirables ou minimisation d’une différence d’efficacité). Réduire le nombre patient favorisera l’atteinte de cet objectif.
3) La définition des patients dans les cohortes est généralement plus large (ou moins stricte) que dans un essai clinique. Comme cela peut être vu sur le graphique ci-dessus, certains patients ayant un score de propension proche de 0 ou proche de 1 n’ont reçu qu’un seul traitement et sont exclus des analyses, surtout en cas d’appariement. L’analyse par score de propension compare l’évolution des patients qui auraient pu recevoir l’un ou l’autre des traitements. C’est très intéressant comme question mais qui sont précisément ces patients ? Dire qu’ils ont un score de propension selon la cohorte x et les facteurs yi compris entre 0,2 et 0,8 n’est pas très pratique pour le clinicien. La population à laquelle est applicable le résultat de l’étude par score de propension, doit donc être précisément définie selon des caractéristiques aisément utilisables en pratique clinique. Ces critères sont a priori différents de ceux définissant la cohorte suivie. Les études basées sur cette méthode peuvent donc permettre de modifier une stratégie thérapeutique
4) Enfin, bien évidemment, les calculs des scores de propension sont effectués à partir des facteurs de confusion connus et ne prennent pas en compte ceux qui sont inconnus ou non colligés !
Conclusion
Le nombre de publications sur les analyses par score de propension est en forte croissance.
Il y encore de nombreuses discussions sur les modalités de réalisation et de reporting de ce type d’analyses. Elles ne peuvent remplacer les essais randomisés. Compte tenu de leur faible coût par rapport à un essai clinique et la possibilité d’en tirer des conclusions « ad hoc », il est néanmoins très probable qu’elles aient un bel avenir !
Bonjour
Intéressant exposé, mais j’ai un peu l’impression de retrouver les subprimes… Les facteurs de confusion sont cachés dans le score de propension, ce qui dissimule les biais liés aux facteurs de confusion inconnus. J’ai bien noté que vous étes très clair sur ce sujet, notamment dans le point 4. Je trouve néanmoins cette technique peu convaincante.
En revanche, je suis très intéressé par l’analyse de grandes quantités de données, et l’utilisation « d’accidents » pour aboutir à une causalité.
Par exemple : on craint qu’un médicament utilisé chez au moins 1% de la population puisse favoriser les lymphomes (tripler le risque basal). On dispose de l’incidence des lymphomes dans plusieurs pays. Ce médicament a été introduit dans ces différents pays avec un décalage de plusieurs années. Il me semble que le croisement des courbes de prévalence avec le décalage pourrait être riche en information.
Autre exemple : a-t-on en France une baisse des décès par embolie pulmonaire par rapport à d’autres pays où le médicament Diane 35 (très utilisé en France) n’a pas été suspendu et où il n’y a pas eu de report de prescription de CO3G vers les CO2G ?
Merci de votre commentaire.
Je suis persuadé, comme vous, que l’analyse de grandes quantité de données permettrait d’obtenir des informations importantes.Cela permettrait de « lever des lièvres » ou d’apporter un argument confortant des observations ponctuelles. Pas de doutes à ce sujet. L’histoire nous démontre que la causalité, avec un CQFD formel, est très difficile à affirmer et surtout à faire accepter : 40 ans pour le tabac…
Je pense que le terme de causalité doit être banni du domaine de l’épidémiologie. Si dans votre premier exemple, on retrouve effectivement un triplement de la fréquence des lymphomes après la prise d’un médicament (exemple inventé ou doute réel?). Le problème n’est pas de démontrer la causalité mais de démontrer que ce n’est pas vrai. En gros, cela revient à retourner la charge de la preuve.
Donc, il faut des bases de données bien renseignées, leur mise à disposition de la communauté scientifique, de multiples analyses (il y aura des faux positifs) et si association ; ce n’est pas à la communauté scientifique de démontrer que c’est un risque réel, causal, mais au labo de démontrer que ce n’est pas vrai…et de proposer une stratégie… je rêve peut-être.
Mais compte tenu des moyen de l’industrie pharmaceutique, il y a aura plein de base de données avec plein de critères de confusion qui permettront de noyer le poisson… Il faut qu’elles soient publiques. On pourra alors leur demander de justifier le lien de causalité entre un critère de confusion foireux et la survenue d’un effet indésirable !
Sur le même principe, je ne suis pas sûr qu’il faille attendre une significativité statistique pour dire qu’un produit favorise tel ou tel événement indésirable
Encore merci de votre commentaire
Merci pour cet article passionnant qui confirme que la manipulation des données a encore de beaux jours devant elle.
Un des problèmes majeurs des mega données, c’est le diagnostic par excès (pour le sur diagnostic c’est une affaire encore plus compliquée). Ma pratique m’apprend tous les jours que plus les traitements sont chers (en oncologie, en rhumatologie, en dermatologie, et cetera) et plus les diagnostics par excès sont nombreux. Dans les pathologies plus courantes, le problème est identique.
Comme toujours, et notamment en pharmacovigilance, le recueil des données est primordial.
Tant que nous aurons des « incertitudes » là dessus, nous raisonnerons sur du vent.
Merci de votre commentaire ; Vos articles sont aussi passionnants!
Les données ou plus généralement « l’information » est la plus puissante arme actuelle. Un peu « bateau », cette phrase, j’en conviens. Il est assez facile de leur faire dire ce que l’on souhaite ou d’en trouver certaines qui le permettront.
Pourriez vous préciser la différence que vous faites entre diagnostic par excès et sur-diagnostic?
Merci
Eh bien, un sur diagnostic c’est faire le diagnostic d’une maladie qui n’aurait jamais eu de conséquences sur la vie du patient (un cancer non mortel par exemple, une maladie rhumatismale asymptomatique). Le surdiagnostic est une variété du diagnostic par excès qui peut être dû à l’extension des critères d’inclusion d’une maladie (le prédiabète, la pré HTA, …) et/ou à l’excès de sensibilité d’un test diagnostique (le seuil de détection étant fixé arbitrairement), et à des faux positifs (liés à des erreurs histologiques, cliniques et/ou radiologiques).
Les courbes de mortalité comparées des cancers de la prostate, du sein et du poumon renseignent, corrélées à leur taux de mortalité, sur ces sur diagnostics.
Mais ce sont des données connues.
En pharmacovigilance les bases de données généralistes (incluant les notifications des patients) vont entraîner un bruit de fond inexploitable et on le voit dans les rapports que la lésion cutanée post exposition a besoin d’une documentation « dermatologique » pour qu’elle puisse constituer un signal physiopathologique cohérent.
Dans l’exemple des données de recueil des « syndromes grippaux » où il existe à la fois des sur diagnostics, des erreurs de diagnostic et des excès, seule la virologie pouvait conclure puisque cette année le vaccin était inapproprié.
Pas assez de palce, mais merci encore.
Merci d’avoir pris le temps de préciser ce point.
Pour avoir souvent effectué des prévisions de ventes de médicaments, je comprends très bien votre point de vue ! Un nouveau traitement dans une indication favorise la détection des diagnostics. Il y en a des vrais et des moins vrais.
Concernant les sur diagnostics, et en particulier l’argument basé sur la comparaison de de la mortalité et de l’incidence, je ne sais pas si l’explication est uniquement le sur diagnostic. Il faut que je m’y intéresse plus sérieusement.
Merci encore de vos commentaires
Bonjour, et merci pour votre article
N’étant pas très calé sur le sujet, je vais me permettre une question/remarque pour voir si j’ai bien compris :
Le score de propension n’est il pas finalement une façon d’apparier sur un grand nombre de facteurs, ce qui est impossible sans y recourir car les effectifs seraient alors minuscules ?
Si par exemple, sur une étude portant sur l’insuffisance rénale aigüe, je veux apparier les sujets sur leur âge/diabète/créatinine de base/quelques autres facteurs, je ne pourrais pas le faire car impossible de trouver un témoin comparable.
Hors avec ce score, si je mets par exemple le même poids au diabète et à la créat préexistante, et j’apparie sur (diabétique ou insuffisant rénal chronique) ?
Cordialement
Les scores de propension résument en une valeur, les différentes caractéristiques sur lesquelles il faudrait ajuster pour que les populations comparées soient les plus similaires possibles. C’est donc un moyen, effectivement, d’apparier des populations sur de très nombreux critères.
Il ne peuvent remplacer la randomisation qui est censée répartir également les caractéristiques influençant le résultat, qu’elles soient connues ou inconnues.
Merci de l’attention portée au site.
Cordialement