Dans le récent rapport de Monsieur le député Cédric Villani sur l’intelligence artificielle, il est fait mention dans les pages décrivant l’intérêt de l’IA en santé d’une enquête épidémiologique reliant la consommation d’alcool et la survenue d’une démence. Elle est présentée comme un exemple d’apport de l’intelligence artificielle pour améliorer les connaissances dans le domaine de la santé. Plus de 38 millions de patients sont analysés.
Cette enquête analyse les données du Programme de Médicalisation des Systèmes d’Information. Elle a été publiée dans le Lancet Public Health et mise en ligne en février dernier. (http://dx.doi.org/10.1016/S2468-2667(18)30022-7).
Ses données concernent donc des patients hospitalisés en France.
Et c’est un problème car les caractéristiques des patients hospitalisés sont différentes de celles des patients de la population générale.
Pour faire « simple », les patients qui ont un motif d’hospitalisation sont surreprésentés à l’hôpital par rapport à ceux qui n’en ont pas !
Et plus vous avez de raisons de vous faire hospitaliser, plus vos caractéristiques seront surreprésentées chez les patients hospitalisés. On retrouve donc plus fréquemment à l’hôpital qu’en ville des patients qui ont deux, trois ou plus encore de raisons d’être hospitalisés.
La démence et les troubles consécutifs à la prise d’alcool étant des motifs possibles voire très fréquents d’hospitalisation, ces patients seront donc très probablement surreprésentés à l’hôpital.
C’est le biais de Berkson (Joseph 1899 -1982)
Un petit exemple chiffré pour deux maladies sans liaison dans la population générale
Maladies | % dans la population générale |
Probabilité d’hospitalisation |
% relatifs dans la population hospitalisée |
A et B |
5% |
20% |
1% |
A et non B |
5% |
5% |
0.25% |
Non A et B |
5% |
5% |
0.25% |
Non A et non B |
5% |
3% |
0.15% |
L’odd-ratio dans la population générale est de 1 (donc il n’y a pas de liaison entre la maladie A et la maladie B) et de 2.4 pour les patients hospitalisés (la liaison apparait chez les patients hospitalisé !). Cet odd-ratio, et donc la démonstration de la liaison entre les pathologies, chez les patients hospitalisés dépend de la probabilité d’être hospitalisé selon la ou les pathologies des patients.
Tous les hazard ratios de la publication sont ainsi influencés par la probabilité d’être hospitalisé pour chaque type de patient. Le résultat intéressant serait celui sur la population totale, hospitalisée ou non ; ce résultat ne peut évidemment pas être appréhendé à l’aide des données uniquement obtenues lors des hospitalisations.
Dans le cas particulier de cette étude, le recueil des patients sur 6 ans a permis d’obtenir environ 80% de la population Française des plus de 65 ans (et 50% de ceux de moins de 65 ans). Cela pourrait limiter l’impact potentiel du biais de Berkson. A contrario, la sélection, parfois très stricte des patients, réduisant leur nombre pour les analyses, peut le favoriser.
Ce biais de Berkson doit donc au minimum être discuté dans la publication.
Si les auteurs soulignent une liaison entre la prise d’alcool et une démence (dont une partie sont les démences consécutives à la prise d’alcool !), ils pourraient aussi souligner que l’obésité, l’hypertriglycéridémie et les cancers semblent protéger de la démence !
Pour les cancers, c’est probablement parce que les gens meurent avant de déclarer leur démence (exemple de biais de compétition) mais pour les deux autres caractéristiques soit il y a un autre biais soit il faut revoir les canons de la médecine préventive.
Spoiler : c’est en fait probablement la conséquence de l’utilisation de tous les facteurs de risque comme facteurs de confusion ; ceux qui ne sont que obèses ou que hyperlipémiques sans avoir les autres facteurs de risque analysés – infarctus, AVC, diabète, tabac…- s’en tirent plutôt bien… parmi ceux qui sont hospitalisés bien évidemment. Il y a en plus tous ceux qui ne sont pas hospitalisés qui vont à priori encore mieux.
C’est chouette l’intelligence artificielle!
Bon, en cadeau, je vous offre un petit biais de citation
Référence pour les biais
Alexis Clapin. Enquêtes médicales et évaluation des médicaments – de l’erreur involontaire à l’art de la fraude
Éditeur : desiris
Cedric Villani est un excellent mathématicien, mais son domaine d’application est la physique et il connaît sûrement moins les subtilités de la recherche médicale. L’article cité en exemple est mal choisi car l’apprentissage statistique basé sur les données massives ne ferait que des études de cohortes gigantesque, ce qui n’a qu’un intérêt très limité, du fait en autres des biais inhérents comme vous le soulignez bien.
En revanche, l’apprentissage statistique a déjà de réels impacts ; voici deux études en diabétologie qui montre les 2 aspects (apprentissage supervisé ou non) de ce genre de méthode :
– une première étude dans JAMA qui montre comment l’apprentissage profond (supervisé) peut interpréter de manière automatique un fond d’œil de retinopathie diabétique : https://jamanetwork.com/journals/jama/fullarticle/2588763?guestAccessKey=e95d1518-94df-41f3-a32c-f5ee30e7f3b1
– une autre étude, parue dans le Lancet, utilise l’apprentissage non supervisé pour faire des clusters de patients diabétiques afin de mieux comprendre la variété des profils et des réponses aux traitements : http://www.thelancet.com/journals/landia/article/PIIS2213-8587(18)30051-2/fulltext
Cher Monsieur,
Merci de votre commentaire
Pas besoin de défendre Monsieur Cédric Villani! C’est une personne remarquable et je pense qu’il n’a pas lu l’article ; s’il l’a lu, il faut le féliciter car lire des études médicales sans être de la partie, c’est faire preuve de courage. Cette étude est aussi peut-être la seule issue des données françaises…
Concernant les études que vous citez, l’utilisation d’un grand nombre de données permets d’obtenir des informations parfois intéressantes (et parfois intéressées). Il faut analyser les données disponibles. C’est très bien à condition que les modalités d’analyse et tous les résultats soient clairement et complètement décrits.
Une première étape pour améliorer la santé de nos concitoyens serait de rendre publiques les données individuelles (anonymisées) des essais cliniques pour avoir des médicaments correctement évalués et une meilleure connaissance des pathologies et des profils évolutifs.