La démarche scientifique repose depuis toujours sur un processus fondé sur des étapes successives d’observation, de formulation d’hypothèses et d’expérimentations visant à tester ces hypothèses explicatives des observations réalisées.
Dans le domaine médical, l’application de ces principes à l’évaluation des médicaments se traduit par une démarche de prise en compte de prérequis de connaissances (études précliniques, essais cliniques précoces préalables à une étude de phase III) et d’une hypothèse d’un intérêt thérapeutique nécessitant la réalisation d’un essai clinique pivot de confirmation. C’est la base du concept d’EBM (evidence-based medicine), ou médecine fondée sur les preuves (médecine factuelle).
Cette expérimentation humaine est une étape indispensable mais, par construction, imparfaite car l’usage futur du médicament testé se fera dans des conditions quelquefois distantes des conditions expérimentales : patients moins sélectionnés en vie réelle, plus fragiles, porteurs de plus de comorbidités, observance des traitements variable, durées de traitement plus longues... Bien qu’imparfaits, ces essais cliniques sont indispensables à l’établissement d’un niveau de preuve de qualité expérimentale suffisant avant l’exposition de populations de malades à plus grande échelle (après autorisation de mise sur le marché). Les études sur des populations en vie réelle (pharmacoépidémiologie) ou modélisées (essais cliniques in silico), développées plus récemment, constituent des approches complémentaires et non de remplacement. Dans le premier cas, elles sont très pertinentes en vue de confirmer, ou non, en condition de soins courants, l’efficacité et la sécurité d’emploi des médicaments. Les études in silico, qu’elles soient fondées sur un modèle mécanistique (physiopathologie, pharmacodynamie, pharmacocinétique, etc.) ou statistique (intelligence artificielle, apprentissage par usage de données massives, etc.) ne peuvent pour leur part et au stade actuel, répliquer avec suffisamment d’exactitude les réactions d’un ensemble d’organismes humains dans leur environnement de vie et de prise en charge médicale.
Un effort de mobilisation des ressources et de temps pour la réalisation d’essais cliniques et leur analyse critique est donc nécessaire afin d’établir, avec un niveau d’assurance suffisant, une connaissance objective des médicaments. Ce coût initial est indispensable pour lever une incertitude qui exposerait des populations entières à des risques d’inefficacité ou d’effets indésirables parfois graves, sans oublier les conséquences économiques. L’urgence légitimement exprimée, dans l’espoir d’accéder à des médicaments potentiellement prometteurs dans des maladies graves sans autre ressource thérapeutique, ne doit pas exposer à de telles incertitudes prolongées, du fait d’études inachevées ou de mauvaise qualité.
Dans le meilleur des cas, l’essai pivot est construit selon une méthodologie évitant tout risque de biais. C’est le cas des essais dits contrôlés, randomisés en double aveugle. Une fois réalisés, ces essais font généralement l’objet de publications dans des revues sous une forme résumée, ce qui rend d’autant plus indispensable leur lecture attentive.
Éléments-clés d’un essai clinique au travers de sa lecture critique
La lecture critique doit faire appel au bon sens et à l’expérience mais gagne considérablement à être structurée [1, 2]. Chaque éditeur a ses propres règles de présentation des travaux mais les points essentiels servant à évaluer une publication restent similaires. C’est ainsi que le lecteur pourra se référer à la liste des points suivants.
Choix de la revue
Il convient de ne retenir que des revues à comité de lecture (indiqué sur leurs sites Internet et dans leur version papier). Ces comités de lecture, au-delà de la garantie supplémentaire de qualité scientifique des articles retenus pour publication (selon leur composition et leur mode de fonctionnement), contribuent à une indépendance des choix des travaux publiés par rapport à la société éditrice qui, pour sa part, est exposée à des intérêts commerciaux. La variété des messages publicitaires portés par le journal est, par ailleurs, un indicateur relatif d’indépendance commerciale, contrairement à des publications fondées sur un nombre limité d’annonceurs ou, cas extrême, de situation de lien exclusif avec une seule entreprise, comme cela peut être le cas lors de suppléments ou de tirés à part dédiés à un sujet médical spécifique.
Titre de l’article
Le titre de l’article doit résumer avec exactitude l’objet de l’étude, ce qui devra apparaître comme tel après avoir lu l’article, cela constituant l’étape de vérification de cohérence entre le contenu de l’article et son titre.
Depuis 2005, l’ICMJE1(International Committee of Medical Journal Editors) rend nécessaire l’enregistrement des essais cliniques en vue de toute future publication. Cet enregistrement s’effectue dans une base de données publique, au plus tard au moment du recrutement du premier patient. Il peut être utile de comparer les informations disponibles sur ces registres (ex. : sur clinicaltrials.gov) à celles apparaissant dans la publication.
Introduction
L’introduction d’un article scientifique doit permettre au lecteur d’entrer dans le sujet de la recherche publiée, en commençant par les connaissances préalables à l’étude (données biologiques, physiologiques, épidémiologiques, pharmacologiques, etc.), constituant les bases rationnelles à la démarche de l’étude et appuyant l’hypothèse de recherche.
Les auteurs doivent aussi faire référence aux modalités actuelles de prise en charge des patients visés par la recherche. Dans le cas d’un essai thérapeutique, il s’agit d’exposer la ou les stratégies de prise en charge des patients inclus. Au cas où le médicament évalué ne correspondrait à aucune thérapeutique spécifique disponible, les auteurs doivent préciser malgré tout si d’autres traitements sont à l’heure actuelle proposés aux patients (soins de support, par exemple, qui devront alors être appliqués à tous les groupes de patients de l’étude).
Méthode
Type d’étude
Toute expérimentation scientifique est soumise à des risques de biais. Ces risques sont d’autant plus importants que les expérimentateurs comme les sujets de l’expérience sont humains.
Les résultats des essais cliniques sont exposés à de nombreux risques de biais (et donc d’erreurs) contre lesquels les bons choix méthodologiques permettent de se prémunir. La constitution de 2 groupes de patients suivis en parallèle par randomisation (répartition au hasard entre les 2 groupes) permet de les rendre parfaitement comparables par construction et ainsi d’éviter le risque de biais de sélection (risque de répartir différemment les patients entre les groupes selon les traitements proposés dans chacun des groupes). La randomisation assure par ailleurs la répartition homogène entre les groupes de tout facteur non contrôlé (ex. : un facteur de risque d’évolution défavorable de la pathologie) pouvant influencer l’évolution de la maladie (facteur de confusion) et permet ainsi de s’affranchir du risque de biais de confusion (ou d’interprétation).
L’application de la méthode du double aveugle, c’est-à-dire l’ignorance par les patients et par les médecins investigateurs du groupe d’affectation (médicament testé ou de référence ou placebo) permet de ne pas influencer le suivi et la mesure de l’effet des traitements. C’est ainsi que le biais de mesure (ou d’évaluation) est géré.
Dans la construction de l’essai comparatif, la vérification du choix des modalités de traitement dans le groupe témoin est essentielle. En effet, l’exercice de comparaison ne peut être valide que si les patients du groupe témoin se voient proposer la thérapeutique la plus appropriée à leur tableau clinique (en particulier par rapport aux recommandations applicables et à jour dans la pathologie concernée). Il conviendra d’être particulièrement attentif aux durées de traitement et aux posologies utilisées.
Si le groupe de comparaison est soumis à un placebo et que l’usage de ce placebo est légitime (absence de préjudice pour les patients de ce groupe), l’article doit décrire les soins standards de base auxquels tous les patients seront exposés (dans le groupe placebo et le groupe exposé au médicament testé).
Une série de cas traités avec le médicament évalué sans constitution d’un groupe témoin en parallèle correspond au niveau de preuve le plus bas dans la hiérarchie des études cliniques. Pourtant, ce type d’observation est rapporté dans la littérature, avec généralement un protocole systématisant les critères d’inclusion, de suivi et de mesure d’effet permettant à l’essai d’être qualifié de monobras. Ce type de méthode n’est pas exceptionnel dans le domaine des maladies graves rares ou en oncologie, lorsque l’effet biologique observé d’une molécule est potentiellement prometteur en thérapeutique et alors qu’il n’existe aucune autre thérapeutique à proposer sinon des soins dits de support. Dans le meilleur des cas, les publications comparent les effets observés à des “témoins historiques”, sans garantie rigoureuse de comparabilité des 2 groupes de patients. La gravité de certaines situations cliniques conduit parfois les autorités à autoriser de manière conditionnelle l’usage de ces médicaments à la lecture de résultats positifs, mais à condition de soumettre ultérieurement des données établies de manière plus robuste. En effet, hormis les cas de pathologies à issue très défavorable, invariables et ne laissant aucune latitude à l’interprétation (ex. : décès systématique après un délai donné), le résultat de ces essais monobras est à considérer avec beaucoup de précautions2.
Choix de la population étudiée
La population de patients inclus est définie par les critères d’inclusion et d’exclusion du protocole d’essai clinique. La mise en évidence d’une différence entre les groupes de l’essai sera facilitée par une grande homogénéité des patients inclus. Cette contrainte méthodologique ne doit cependant pas être excessive, au risque de mettre en danger la validité externe de l’étude, c’est-à-dire le degré d’extrapolabilité des résultats obtenus à la future pratique médicale (soins courants).
Au stade d’une phase pivot (phase III, juste avant l’autorisation de mise sur le marché), les patients inclus doivent approcher les caractéristiques des patients pris en charge en pratique clinique courante. Cela est aussi applicable aux examens réalisés afin de sélectionner les patients pour l’essai. Il n’est, par exemple, pas approprié, pour un essai pivot, de sélectionner les patients à l’aide d’examens biologiques ou d’imagerie inaccessibles en soins courants.
Critères d’évaluation
Un protocole d’essai clinique prévoit généralement un grand nombre de mesures chez les patients inclus. L’une d’entre elles doit être clairement désignée comme critère d’évaluation principal. Ce critère doit être le plus pertinent possible, au regard de l’évaluation de l’intérêt clinique du médicament étudié : guérison avérée d’une pathologie infectieuse avec un recul suffisant dans le temps, évaluation de la survie dans des pathologies avec mise en jeu du pronostic vital, etc.
La conclusion de l’essai devra être établie sur ce critère principal sur lequel l’hypothèse de recherche et les calculs statistiques seront fondés. Les résultats concernant les autres critères de mesure (secondaires) seront uniquement exploratoires et pourront à leur tour nourrir des hypothèses de recherche à l’origine d’éventuels nouveaux essais cliniques.
En cas d’essai prévoyant d’établir sa conclusion en utilisant des critères multiples ou plusieurs mesures sur un critère principal unique (ex. : la réalisation d’analyses intermédiaires en cours d’essai), il est alors nécessaire d’adapter les calculs statistiques afin de conclure avec des niveaux de risques d’erreur acceptables.
L’usage d’un critère composite comme critère principal, c’est-à-dire fondé sur la survenue d’événements d’origine ou de nature différentes, est possible à condition que ces événements associés aient une pertinence clinique (ex. : le cumul de survenue d’épisodes ischémiques aigus cérébraux, cardiaques et artériels périphériques).
La pertinence de certains critères d’évaluation clinique peut n’apparaître qu’après un temps de suivi prolongé, parfois incompatible avec une durée raisonnable d’essai clinique (ex. : l’évaluation d’un antihypertenseur et la mesure de survenue d’un AVC ou d’un accident coronarien). Dans de tels cas, il peut être intéressant de recourir à un critère d’évaluation intermédiaire (ex. : l’évolution de la pression artérielle), car son évaluation est plus rapide. Il convient toutefois qu’un lien soit alors préétabli entre ce critère intermédiaire et l’objectif de bénéfice clinique ultime (éviction d’événements morbides, diminution de mortalité, etc.). Lorsque ce lien entre objectif clinique pertinent et critère intermédiaire est établi, ce dernier est qualifié de critère de substitution. Il faut prêter attention à l’utilisation de nombreux critères intermédiaires qui ne sont pas des critères de substitution (par exemple, l’évolution d’une masse tumorale peut être déconnectée de la survie) [3].
Outils statistiques
La définition du critère d’évaluation principal (ou de son critère de substitution) est déterminante, en particulier dans le calcul du nombre de sujets qu’il sera nécessaire d’inclure dans l’essai afin d’exprimer une conclusion statistiquement et cliniquement valide. En effet, les auteurs de l’étude doivent définir a priori la différence minimale recherchée entre les valeurs moyennes du critère de mesure principal entre les 2 groupes de patients comparés (exposés, pour l’un, au médicament évalué, et, pour le groupe témoin, au médicament de référence ou au placebo).
Cette différence doit être cliniquement pertinente : c’est la notion de “plus petit bénéfice intéressant en pratique” (ou minimal clinically important difference, MCID) [4] (encadré, voir sur le PDF).
En effet, le nombre de sujets nécessaires à l’étude est calculé sur la base de cette différence ainsi que sur la variabilité du critère de mesure principal (sa variance, extraite d’études préalables) mais aussi sur celle des risques dits de 1re et de 2e espèce (respectivement α et β). Le risque α est conventionnellement établi à 0,05 et correspond à la probabilité de conclure à tort à un effet du traitement devant une différence en réalité due au hasard (risque de faux positif). La puissance du test (1-β) correspond pour sa part à la probabilité de mettre en évidence une différence lors de l’essai, lorsque celle-ci existe réellement.
À valeurs de risques de 1re et 2e espèce fixées, le nombre de sujets nécessaires sera d’autant plus important que la différence recherchée sera petite et que la variance du critère de mesure sera grande3.
Résultats
Pour la description de la population recrutée, les caractéristiques des patients de chaque groupe doivent être rapportées, même en cas de randomisation, afin d’identifier une répartition pouvant par hasard être déséquilibrée sur des facteurs qui pourraient avoir un impact sur le ou les critères d’évaluation (ex. : traitements concomitants).
Les résultats doivent être exprimés avec leurs intervalles de confiance, en ITT (intention de traiter : calculs incluant tous les patients randomisés quel que soit leur devenir, y compris en cas de changement de groupe en cours d’essai) et en PP (per protocole : calculs basés uniquement sur les patients ayant strictement suivi les instructions du protocole pendant leur participation à l’essai). L’analyse PP est indispensable en cas d’essai de non-infériorité car, dans ce type d’essai, l’analyse en ITT favorise un résultat favorable en cas d’application imparfaite du protocole.
Le nombre de patients perdus de vue doit être le plus faible possible afin d’éviter un biais d’attrition lié à la perte de la comparabilité des groupes initialement établie par la randomisation. C’est l’une des raisons pour lesquelles une analyse en ITT doit être réalisée.
Les valeurs des extrémités des intervalles de confiance (fourchette d’estimation de la taille d’effet) doivent être attentivement interprétées. La valeur de la borne inférieure de l’intervalle de confiance conserve-t-elle un sens clinique en matière d’effet observé ? Cette même question est à poser en cas de test de non-infériorité : la valeur extrême de la différence d’effet thérapeutique est-elle cliniquement acceptable (perte d’effet thérapeutique) ?
La différence observée correspond-elle à celle établie initialement dans les hypothèses de la recherche et à la base du calcul du nombre de sujets nécessaires ? Dans la négative, la capacité de l’étude à répondre à la question posée peut être remise en question.
Les résultats présentés en sous-groupes de patients ou les résultats intermédiaires ont-ils été initialement prévus et exposés dans la partie “Méthode” ? Le calcul du nombre de sujets nécessaires a-t-il tenu compte de ces analyses multiples (répartition du risque α sur tous les tests effectués, avec augmentation des effectifs en conséquence) ? Dans la négative, les résultats ne pourront être considérés que comme exploratoires et non conclusifs.
Les résultats sont-ils exprimés sous forme de rapport (ex. : risque relatif) ou en nombre absolu ? Il faut pouvoir accéder aux résultats en nombre absolu (ex. : nombre de sujets nécessaires à traiter pour observer un bénéfice chez un patient) ou les calculer afin de mieux évaluer l’échelle du possible gain thérapeutique. Un médicament qui permettrait de guérir 4 patients au lieu de 3 sur une population de 100 correspond à un gain en guérison de 33 % mais à un NNT (number needed to treat, ou nombre de patients à traiter) [5] de 100 pour gagner une guérison.
Les événements indésirables sont-ils décrits par groupe de traitements ? Les auteurs ont-ils fait la différence entre événements (faits délétères survenus lors de l’essai) et effets (attribués au traitement testé) ? Par définition, les essais thérapeutiques ne sont pas aptes à mettre en évidence des événements graves de fréquence faible. À titre indicatif, l’absence d’événement survenu sur une population de taille N implique une fréquence maximale de cet événement de 3/N. Ainsi, l’absence de survenue d’un événement indésirable grave observé sur un bras d’essai comportant 1 500 patients exposés à un médicament testé implique (avec une probabilité de 95 %) une fréquence possible de cet événement de 1/500 patients exposés sur une même durée.
Discussion et conclusion
Au-delà de la reprise des résultats essentiels, ceux-ci doivent être mis en parallèle avec les connaissances préétablies et donc avec les autres résultats obtenus lors de recherches similaires. Les forces et faiblesses de l’étude doivent être exposées avec leurs conséquences sur la lecture à avoir des résultats. Enfin, les auteurs doivent expliquer les conséquences de leur travail, notamment le besoin d’études complémentaires et l’impact sur la pratique médicale.■
1 www.icmje.org
2 https://sfpt-fr.org/livreblancmethodo/index.htm
3 https://biostatgv.sentiweb.fr/?module=etudes/sujets