Depuis quelques années, les avancées en matière de stockage et d'analyse de données ont fait émerger le concept de big data et ses corollaires, l'apprentissage automatique (machine learning) et l'intelligence artificielle (IA), un terme désormais à la mode.
Dans ce numéro, 5 exemples illustrent différents aspects de ces big data : ils concernent l'addictovigilance, l'IA appliquée à la pharmacométrie, les essais plateformes, la pharmacogénomique et les études fédérées en pharmacoépidémiologie.
Le terme de big data s'applique ici tant à des données de grande taille, dans une base individuelle, qu'à des données provenant de sources différentes, dont la combinaison et l'analyse relèvent de méthodes adaptées. On peut définir ces big data comme des données en quantités telles qu'elles ne permettent pas l'analyse individuelle, mais requièrent des méthodes analytiques adaptées, de type épidémiologique, soit classiques, soit faisant appel à des méthodes, en particulier, d'IA ou de machine learning.
Parmi les premières utilisations des méthodes d'analyse de grandes bases de données se trouve celle des méthodes de disproportionnalité dans les bases de données de pharmacovigilance, nationales ou internationales. Une des limites est ici la difficulté d'harmoniser des terminologies et des diagnostics à l'échelle d'un pays malgré l'existence d'un réseau de centres régionaux de pharmacovigilance ayant des méthodes de travail similaires. À l'échelle mondiale, par exemple dans les bases de l'OMS à Uppsala, les difficultés sont majorées par l'hétérogénéité des systèmes de santé nationaux, de l'accès aux différents médicaments et des comportements de déclaration. Cela rend ces bases déclaratives très sensibles en tant que système d'alerte ou de génération d'hypothèses, mais elles nécessitent une évaluation plus approfondie, en particulier pour les événements plus graves, dans les bases de données des systèmes de santé.
Ces données sont typiquement les données populationnelles issues de bases de remboursement de soins telles que le Système national des données de santé (SNDS) en France [1] et les bases similaires d'autres pays européens, les données canadiennes que l'on trouve dans CNODES (Canadian Network for Observational Drug Effect Studies), et le système Sentinel aux États-Unis ; elles peuvent inclure des données de soins, comme la CPRD (Clinical Practice Research Datalink) au Royaume-Uni ou dans les pays nordiques, parfois combinées avec des données de pathologies spécifiques, comme les registres de cancer (Danemark, Écossse) ou de pathologies telles que la sclérose en plaques. De par leur diversité et leur taille, ces données peuvent permettre d'examiner des associations entre expositions et “outcomes”, positifs ou négatifs, de plus en plus rares, avec de plus en plus de précision, et les différences entre ces bases offrent la possibilité de soulever des hypothèses concernant des modificateurs d'effets. Cependant, ces très grandes bases et associations de bases imposent des conditions strictes d'utilisation, en particulier la connaissance de la structure des données qui permet de les analyser par le développement de modèles communs, offrant la possibilité d'appliquer des méthodes d'analyse homogènes. Et, bien sûr, l'homogénéité des définitions de termes est requise pour qu'une pathologie identifiée dans une base corresponde bien à la même pathologie dans une autre base. Cela impose l'utilisation de codes communs ou au moins traduisibles, et celle de définitions de termes. Dans les études multipays, il faut, au stade de l'élaboration du protocole, travailler sur les stratégies communes d'identification des “outcomes” communs et des modalités d'analyse, en particulier les analyses de sensibilité permettant de mesurer l'impact des différentes stratégies d'identification et de quantification des expositions et des diagnostics [2].
Cela s'applique également au sein d'une même base contenant des données de sources diverses. Par exemple, dans les bases du SNDS/PMSI, il convient qu'un diagnostic correspondant à un code ICD-10 donné soit identique dans les données des différentes hospitalisations, ce qui souligne l'importance de la validation de ces bases et des diagnostics qu'on peut y trouver. En France, les responsables du programme de médicalisation des systèmes d'information (PMSI) et l'Assurance Maladie font un travail remarquable d'harmonisation du codage, y compris par la mise en place de codeurs professionnels.
Il en va de même pour les choix analytiques, dont une description exhaustive sortirait du cadre de cet éditorial.
Le vieil adage “garbage in, garbage out” s'applique ici au premier chef. De la qualité des données dépend la qualité des résultats qu'on peut en obtenir. Un exemple typique a été la publication rétractée de M.R. Mehra et al. dans le Lancet [3], dont l'analyse des données était correcte, mais les données factices.
Ce premier exemple concerne des données similaires d'exposition et de pathologies induites ou évitées, dans des réseaux multinationaux.
Un second exemple concerne des bases hétérogènes, comme, par exemple, le travail présenté sur l'addictovigilance [4], qui combine le déclaratif des bases de surveillance sur le mésusage des produits psychotropes (OPPIDUM), les ordonnances falsifiées (OSIAP), les décès en relation avec des abus de médicaments et de substances, ou d'antalgiques, ainsi que les soumissions chimiques. Ces programmes spécifiques permettent d'identifier des suspicions de mésusages, en particulier lors de l'apparition de produits nouveaux. Les bases de données de l'Assurance Maladie permettent de leur côté d'identifier et de quantifier les phénomènes de détournement d'ordonnances et, en particulier, de doctor shopping, les prescriptions par plusieurs médecins des mêmes produits suspects, notamment les opiacés. Les prescriptions dispensées peuvent atteindre des quantités considérables, remboursées par l'Assurance Maladie, dont on imagine qu'elle met en place des systèmes de détection automatique de telles fraudes.
Tout le défi de ces approches déclaratives est la quantification de l'ampleur des phénomènes, en l'absence de mesures fines de la sous-notification. Cependant, l'existence d'un réseau national de centres d'addictovigilance et de méthodes similaires couvrant toute la population permet d'avoir une vision assez précise des addictions existantes et émergentes.
Le troisième exemple concerne plus les méthodes applicables aux données de pharmacométrie, machine learning et IA, que les big data elles-mêmes, qui ne sont pas celles analysées mais servent de référence [5]. Dans ce concept, contrairement aux approches statistiques classiques, aucune hypothèse a priori n'est établie, dont on chercherait à vérifier la probabilité. En machine learning, on confie l'ensemble des données disponibles à la machine, qui construit des modèles permettant d'expliquer les valeurs observées. Cela a été appliqué à des jeux de données de pharmacocinétique d'immunosuppresseurs, dans lesquels des jeux de données limitées sont analysés pour déterminer l'aire sous la courbe (ASC) des concentrations plasmatiques, comparativement aux prédictions issues de données comprenant des cinétiques complètes.En fin de compte, il suffirait de 2 concentrations (T0-T3 h) pour prédire l'ASC et améliorer l'ajustement thérapeutique de ces produits, comme cela fut le cas en son temps pour l'adaptation thérapeutique des antituberculeux. À partir de ces résultats initiaux, des populations de cas simulés ont pu être développées, permettant la prédiction des concentrations et des ASC attendues après une dose initiale, ce qui offre la possibilité de réserver les données réelles pour la validation des modèles obtenus.
Ces approches d'apprentissage automatisé, ici appliquées aux immunosuppresseurs, offrent des perspectives de développement fascinantes pour d'autres produits dont les mesures d'exposition sont cruciales pour l'ajustement thérapeutique, tels que, bien sûr, des antibiotiques, mais encore plus des anticancéreux comme les inhibiteurs de tyrosine kinase [6, 7].
Dans d'autres cas, les big data ne sont plus observationnelles mais expérimentales, comme dans les essais cliniques dits de plateforme, où chaque patient inclus dans ce type d'essai interventionnel est tiré au sort pour recevoir le traitement standard de la pathologie étudiée uniquement ou le traitement standard de la pathologie étudiée associé à une des molécules ou des approches thérapeutiques considérées, selon un protocole maître unique pour l'ensemble du projet, chaque bras étant une variation du protocole principal ou un amendement à ce protocole [8]. Cela permet l'accumulation de données concernant différentes approches de traitement, en utilisant le même groupe témoin. Ce type d'essai offre de nombreux avantages, en particulier la vitesse de réalisation, l'économie du nombre de sujets témoins nécessaires, la simplification méthodologique, la rapidité avec laquelle des traitements hypothétiques d'une maladie émergente peuvent être rejetés ou adoptés, enrichissant alors le traitement de référence. Cette approche a été largement utilisée dans le cadre du Covid, l'infection due au virus SARS-CoV-2, par exemple dans les essais ACTIV-6 [9], qui permettent de récuser un effet de l'ivermectine [10] ou de la fluvoxamine [11], ou de RECOVERY [12], qui suggère l'effet bénéfique de la dexaméthasone [13], mais par exemple ni de l'hydroxychloroquine, ni de la colchicine [14-16]. On peut aussi citer ASCOT [17], I-SPY [18], WHO Solidarity, AGILE-ACCORD [19], PRINCIPLE [20], REMAP, ou encore STIMULATE-ICP pour le Covid long [21].
Ces essais posent cependant un certain nombre de difficultés : en tout premier lieu, la mise en place de la structure de coordination de ces essais souvent très importants (RECOVERY a recruté plus de 50 000 personnes et a impliqué tous les services des soins intensifs du Royaume-Uni) ; ensuite, leur financement, idéalement public mais qui peut être onéreux et surtout prolongé dans le temps, une zone de faiblesse connue des financements publics. La participation des producteurs industriels des molécules étudiées se heurte souvent à la propriété des résultats, dont l'industriel estime devoir avoir la propriété pour en soumettre les résultats aux autorités réglementaires. Cela peut expliquer que la plupart de ces essais portent sur la réutilisation de produits anciens (“repurposing”) hors brevet.
Idéalement, le groupe témoin recevra un placebo identique au traitement du groupe expérimental, mais la multiplication des bras de traitement rend quelquefois le développement d'un placebo commun impossible, ou encore entraîne des difficultés d'analyse, toutes ces difficultés étant parfaitement illustrées dans l'article de D. Deplanque [8]. Ces essais plateformes posent donc des problèmes très différents de ceux de l'analyse des bases de données populationnelles. On pourrait imaginer recréer de telles études dans les données populationnelles, si ce n'était qu'alors ces produits seraient utilisés hors AMM, comme cela a pu être le cas dans le Covid.
Enfin, A. Ait Tayeb et C. Verstuyft décrivent l'utilisation des données massives de pharmacogénomique en médecine personnalisée [22]. L'individualité métabolique a un rôle depuis longtemps démontré dans les caractéristiques pharmacocinétiques des patients, due à des phénotypes spécifiques (métaboliseurs rapides/extensifs ou lents/pauvres, par exemple) liés au génotype ou à la prise conjointe d'autres médicaments (inhibiteurs ou inducteurs enzymatiques), qui n'est pas négligeable et peut modifier le phénotype. Cela est quantifiable par le suivi des concentrations plasmatiques dans différentes circonstances. Il est, en revanche, souvent plus difficile d'identifier ou de quantifier l'impact de variations dans l'effet pharmacodynamique individuel et la réponse aux médicaments, à concentration égale. Ces variations peuvent d'ailleurs s'opposer aux variations métaboliques ou être également influencées par des interactions médicamenteuses. La diffusion rapide des analyses du génome complet et des interactions avec les réponses biologiques aux médicaments est encore au stade des balbutiements. On sait identifier les génotypes à risque de certains effets indésirables, devant amener à éviter ou réduire le produit à l'échelle individuelle, mais, pour le moment, on manque encore de liens entre les données de biobanques génomiques et celles de santé ou d'exposition aux médicaments. La métabolomique et autres omiques s'ajoutent à cela et permettront sûrement de décrire les états morbides, pouvant servir de critères de substitution clinique. Cependant, il reste encore à faire le lien entre les pathologies d'intérêt et les marqueurs omiques, en y incluant la génomique, et à intégrer dans ces équations les expositions médicamenteuses tant comme cause que comme conséquence des états morbides. Dans une telle approche, on retrouve de très grosses masses de données, individuelles d'abord, puis populationnelles, en augmentant progressivement les horizons de telles analyses. Les outils analytiques pour ce type d'analyse existent-ils ? On les connaît pour les données populationnelles pouvant inclure des dizaines de millions de personnes, et des centaines ou des milliers de paramètres par personne, par exemple pour des scores de propension à haute dimension, mais il me semble que l'inclusion de la génomique et des autres omiques augmenterait la complexité de plusieurs ordres de grandeur. On peut s'attendre à une approche incrémentielle. Certainement, les données incluses dans des approches de type health data hub, qui sont prévues pour inclure des données génomiques, seront un pas de plus.
Dans toutes ces facettes de l'analyse des données massives, qu'elles soient individuelles ou populationnelles, la qualité des résultats dépend de la qualité des données : complétude, homogénéité, validité. Ces points sont des prérequis si l'on veut avoir des résultats pertinents ainsi, bien sûr, que l'œil du pharmacologue qui intègre dans toute analyse sa connaissance indispensable du médicament. On pourrait dire des pharmacologues, tant la complexité et la diversité des sujets risqueraient de créer des sous-spécialités liées aux différents domaines cités, qui ne peuvent que s'enrichir et se protéger dans des actions coopératives avec, bien entendu, la contribution des spécialistes cliniciens des domaines concernés.