Avec la numérisation de toutes les activités liées à la santé, on assiste à une explosion de la production de données. La maladie cancéreuse est en première ligne en raison de sa fréquence et de l'utilisation de données de grands volumes (big data), images et séquençage à haut débit. Les volumes unitaires ne sont pas tous considérables : un compte-rendu médical n'occupe que quelques kilooctets, les images de scanners ou d'IRM sont de l'ordre du mégaoctet. D'autres données occupent des volumes beaucoup plus conséquents : les lames virtuelles peuvent rapidement atteindre le gigaoctet et les données brutes issues du séquençage sont de l'ordre du téraoctet. Ces grands volumes de données posent des problèmes d'archivage et de conservation dans la durée ; il est aussi nécessaire de résoudre la qualité des bandes passantes des réseaux et l'administration de ces bases de données gigantesques, centralisées ou réparties. Il persiste des préoccupations techniques comme la durée de vie et la fiabilité des supports numériques, la sécurisation des données et les problèmes éthiques, confidentialité des données et protection de la vie privée.
Dans son but premier, le dossier médical est conservé pour la continuité des soins ou la transmission d'informations. Les données qu'il rassemble ne sont pas utilisables telles quelles : elles doivent être regroupées, transformées, stockées dans des entrepôts où elles se présentent sous plusieurs formes : des textes, des données structurées, des signaux, des images.
Plusieurs défis doivent être relevés pour utiliser ces données dans une démarche de recherche clinique, pour l'apprentissage automatique ou l'intelligence artificielle.
- Le traitement du langage naturel avec une structuration automatique est nécessaire. La majorité des informations figurant dans les dossiers ne sont pas structurées, ne sont pas analysables telles quelles et il est nécessaire de les transformer en données codifiées, normalisées selon les concepts des nomenclatures internationales.
- Les comptes-rendus médicaux relatent une histoire, différente d'un patient à l'autre, interprétée par un médecin ou un soignant. La valeur informationnelle de chaque compte-rendu dépend de l'observateur, de son expertise, de la situation clinique, du temps disponible, du support électronique. La subjectivité est la règle plus que la reproductibilité.
- Le partage de données entre différentes institutions de soins est nécessaire, car la maladie cancéreuse n'est pas une entité unique. Plus nous avançons dans la compréhension des mécanismes moléculaires, plus le nombre de cas d'une même entité se réduit et devient trop faible dans un seul hôpital pour alimenter les algorithmes d'apprentissage. Le partage des données nécessite une interopérabilité technique et sémantique, il requiert d'utiliser des classifications communes et des systèmes permettant les échanges (HL7, FHIR, OMOP).
- Un des points majeurs est le contrôle de la qualité des données qui servent à l'apprentissage automatique. Les données qui alimentent les algorithmes sont par nature de grand volume, ce qui les rend difficiles à contrôler une par une, nécessitant des vérifications logiques ou par tirage au sort.
- Il est indispensable de disposer de données longitudinales dès lors que l'objectif est la prédiction de la réponse à un traitement ou l'étude du pronostic. Il faut s'assurer que les données utilisées sont récentes et que l'algorithme ne reproduit pas le passé, car dans certaines pathologies, les progrès sont rapides.
- Si l'hôpital concentre la majeure partie des données des patients atteints de cancer, il est utile de les lier et de les corréler à des données extrahospitalières ou recueillies auprès des patients. Lors des prises en charge dans plusieurs établissements, il est important d'assurer un lien avec les données démographiques pour l'analyse de la survie et il est possible pour cela d'utiliser les données de l'INSEE ou du Centre d'épidémiologie sur les causes médicales de décès.
- Un des points essentiels pour pouvoir utiliser ces données est l'information des patients et le respect de la législation, le règlement général de protection des données.
Pour la recherche, il s'agit d'un changement complet de paradigme dans la mesure où la donnée devient le sujet majeur. L'approche big data ne s'appuie pas sur des structurations d'information préexistantes dans un contexte prédéterminé, comme dans un essai thérapeutique, mais sur la donnée issue de la vie réelle. L'approche big data et intelligence artificielle repose sur un nouveau triptyque : donnée-hypothèse-connaissance. On passe d'un raisonnement déductif à un raisonnement inductif et ce changement de paradigme va modifier la façon de concevoir la recherche. La donnée de santé devient donc un enjeu majeur. Il faut considérer qu'il s'agit d'un bien commun et qu'il serait non éthique de ne pas l'utiliser pour faire progresser la recherche contre le cancer.