Alternatives Economiques - Numérique Les données de santé, un gisement convoité

Valérie Peugeot
07/11/2018

C’est officiel : depuis hier, chaque assuré peut créer en ligne son Dossier Médical Partagé, ou DMP. Il s’agit d’une sorte de carnet de santé numérique, qui devrait à terme centraliser toutes les informations concernant la santé de son titulaire : examens pratiqués, traitements suivis, allergies… « [Le DMP] se présente notamment comme une réponse efficace à une anomalie constatée depuis longtemps, qui est que les Français ne disposent pas de l’historique de leur dossier médical » a déclaré hier la ministre de la Santé et des Solidarités Agnès Buzyn. « Il doit devenir demain une évidence pour tous les Français, comme l’est devenue la carte Vitale », a-t-elle ajouté.

Un tel historique a pour objectif premier d’améliorer la prise en charge des patients, et le contrôle par ces derniers des informations le concernant. Mais une telle masse de données (l’objectif étant que 40 millions de DMP soient ouverts d’ici cinq ans) pourraient également constituer une véritable mine d’or pour tout une série d’acteurs : chercheurs en médecine ou spécialistes du système médical, praticiens, gestionnaires de santé, industriels du numérique, assureurs, association de patients…
Le Dossier Médical Partagé s’inscrit de ce point de vue dans une forte tendance plus générale à la numérisation des données de santé, dont les usages potentiels sont aussi divers que puissants... et potentiellement risqués, comme l’explique la chercheuse Valérie Peugeot ci-dessous.

Ce texte est extrait du numéro 80 de la revue L’économique Politique consacré à la santé, qui vient de paraître.

A l’heure où l’économie numérique ne parle que big data et intelligence artificielle, les données de santé sont l’objet d’une convoitise particulièrement intense. Gisement sous-utilisé de connaissances aux yeux des chercheurs, vecteur de thérapies inventives pour une partie du corps médical, opportunité de nouvelles créations de valeur pour des industriels du numérique, innovations de services pour les start-up, source de transparence pour les associations de patients…
Si le monde numérique est coutumier des promesses enflammées, elles prennent une coloration particulière dans le champ de la santé, en raison du caractère unique des données impliquées : particulièrement sensibles, les données de santé parlent de notre intimité, de nos souffrances, de nos fragilités et appellent une protection particulière contre de possibles mésusages. Les risques sont à la hauteur des promesses, un contexte qui oblige tous les acteurs, à commencer par la puissance publique, à avancer sur un chemin étroit, entre enthousiasme et prudence.

La santé, comme tant d’autres domaines de l’activité humaine, s’appuie chaque jour un peu plus sur des dispositifs numériques et, ce faisant, génère massivement des données. La numérisation de l’hôpital n’est pas un phénomène récent, les débuts du programme de médicalisation des systèmes d’information - PMSI - remontent à 1982. Mais elle connaît depuis quelques années une accélération, et tend vers le zéro papier : de l’aide-soignante au médecin chef, du biologiste au radiologue, tous sont ou seront demain outillés. En ville, les médecins s’équipent également : 96 % des médecins généralistes déclarent disposer d’un logiciel pour la gestion des patients et 86 % des spécialistes interrogés déclarent avoir accès au dossier patient informatisé au sein de leur établissement1. Des outils et logiciels métiers qui sont autant de sources produisant des informations.

Le patient devient également producteur de données médicales et de bien-être.
Twitter

Les officines pharmaceutiques n’échappent pas au phénomène, l’intégralité de la gestion de stocks étant informatisée. Le patient devient également producteur de données médicales et de bien-être. En nourrissant son dossier pharmaceutique, consultable par les officines, destiné notamment à éviter des incompatibilités entre prescriptions ; en utilisant des services en ligne comme cette application de « suivi des règles et de l’ovulation » téléchargée plus de 4,5 millions de fois sur Google Play ; en s’équipant de thermomètres et de balances connectées ; en partageant leur état de santé et les effets secondaires attachés à leurs traitements dans des communautés en ligne de patients atteints de maladies chroniques ; demain, en versant ces informations dans leur dossier médical partagé - DMP -, dont la Caisse nationale de l’assurance maladie (Cnam) va commencer le déploiement 2... Quant à la recherche médicale, elle recrute des cohortes toujours plus importantes en nombre, pour un suivi longitudinal toujours plus profond afin d’identifier de nouveaux phénomènes, à l’image de la cohorte française Constances3, qui frôle les 200 000 individus...

À toutes ces sources de données médicales, il faut ajouter dans le cas de la France une base de données exceptionnelle par sa taille : le système national de données de santé - SNDS. Cette base est en réalité la réunion de plusieurs autres, dont la plus massive est le système national d’information inter-régimes de l’assurance maladie (Sniiram), qui rassemble toutes les données récoltées par la Caisse nationale de l’assurance maladie des travailleurs salariés, soit des informations sur 99 % de la population française, environ 66 millions d’individus. Cette dernière est complétée par la base PMSI qui rassemble les données médico-administratives des établissements hospitaliers et celle des causes médicales de décès. Elle devrait aussi être complétée prochainement par deux autres bases, l’une en provenance de certaines assurances maladie complémentaires, l’autre permettant de faire remonter des informations sur le handicap. À ce jour, elle peut être considérée comme la plus grande base mondiale de données médicales, une ressource que les scientifiques de certains pays nous envient.

Mutualiser pour faire parler les données
La constitution de bases de taille importante est indispensable à un traitement massif susceptible de dégager des informations et des analyses inédites. Ceci explique en partie la mise en place de nouveaux entrepôts de données, fruits d’une mutualisation de bases auparavant en silos. Ainsi, l’Assistance publique-Hôpitaux de Paris, qui rassemble 39 établissements, est-elle en train de déployer une base de données commune, qui servira aussi bien à l’amélioration du parcours patient (traité dans un établissement, son dossier sera accessible dans un autre, s’il doit consulter ailleurs) qu’à la recherche.

On voit actuellement émerger des « courtiers de données », qui proposent de collecter, de regrouper et d’anonymiser les données, puis d’effectuer pour des tiers, le travail de fouille et d’analyse
Twitter

Mais la mutualisation ne se limite pas à des partages à l’intérieur d’un même groupement d’institutions. Le CEA, par exemple, centralise des images (scans, IRM) de cerveaux provenant de laboratoires privés et publics, afin d’obtenir une masse suffisante de données pour des projets de recherche sur les maladies neurodégénératives. Par ailleurs, on voit actuellement émerger toute une série d’acteurs privés, appelés « courtiers de données », qui proposent d’entreprendre ce travail de collecte, de regroupement et d’anonymisation de données, puis d’effectuer pour des tiers, le travail de fouille et d’analyse. Pour récupérer les informations, ils nouent des accords avec les producteurs de données que sont les établissements hospitaliers, les médecins, les officines. Ainsi, Sophia Genetics, qui déploie des solutions d’intelligence artificielle en santé, consolide et traite les données de 218 000 patients provenant de 418 établissements hospitaliers dans 60 pays.
En France, deux entreprises, l’une française, OpenHealth Company, l’autre filiale états-unienne, Iqvia, ont noué des partenariats avec des pharmacies pour récupérer les informations sur les achats de leurs clients. En échange, elles livrent gracieusement aux pharmacies des tableaux de bord contenant des informations exploitables en marketing. Autre exemple, la start-up Med-eShare a annoncé en août dernier qu’elle proposera aux médecins libéraux un nouveau logiciel de gestion de cabinet gratuit, connecté à une plate-forme cloud. Elle espère constituer une base de données de santé et monétiser auprès de tiers le partage de ces données une fois anonymisées4.

Des usages médicaux avant tout...
Du côté des usages, difficile de démêler ce qui tient de la promesse à longue échéance ou de la simple hypothèse de recherche, du bénéfice à court ou moyen terme. Comme souvent en matière d’innovation numérique, l’inflation sémantique autour des horizons heureux a d’abord vocation à en construire les régimes de justification pour convaincre investisseurs privés et publics. Quitte à s’exposer à certaines déconvenues en situation réelle. Les discours-slogans autour de la médecine des « 4 P » - préventive, prédictive, personnalisée et participative -, reflètent bien cette pensée prête à l’emploi qui masque les différences de maturité comme les controverses. Difficile également de prétendre à un panorama exhaustif tant les ambitions sont nombreuses. Tentons cependant, sur la base du discours des acteurs, sans chercher à hiérarchiser, de donner à voir quelques-uns de ces usages actuels ou futurs.

Ces big data peuvent aussi nous aider à comprendre les inégalités sociales de santé, en matière de mortalité et de handicap, au-delà des critères déjà reconnus, comme la profession ou le niveau d’étude
Twitter

En matière d’épidémiologie, les espoirs sont nombreux : en croisant des bases de données jusqu’ici en silos - les statistiques de gastro-entérites avec celle de qualité de l’eau ; celles sur les maladies neurodégénératives des agriculteurs avec les ventes de pesticides ; les informations sur la consommation d’antidépresseurs et d’anxiolytiques dans un territoire donné après un épisode climatique violent... -, il s’agit de repérer des causalités encore insoupçonnées ou supposées, mais difficiles à prouver, et d’en tirer les conséquences. Ces big data peuvent aussi nous aider à comprendre les inégalités sociales de santé, en matière de mortalité et de handicap, au-delà des critères déjà reconnus, comme la profession ou le niveau d’étude, et en incluant de nouveaux critères, comme l’exposition aux polluants atmosphériques. Mieux comprendre les risques professionnels liés à l’exposition au bruit, aux agents cancérogènes, au stress... est également un enjeu de taille, alors que de nombreuses molécules utilisées sur le lieu de travail n’ont pas fait l’objet d’évaluation de toxicité.

La pharmacovigilance devrait être un autre bénéficiaire majeur de ces traitements massifs de données, en permettant de repérer les effets secondaires des médicaments plus tôt, sans dépendre des laboratoires pharmaceutiques qui commercialisent les molécules et sans attendre un scandale sanitaire, comme cela a été le cas avec des médicaments tels le Distilbène, le Mediator ou la Dépakine.

Prometteuse génomique ?
Le diagnostic est également donné comme un des gagnants de l’application de l’intelligence artificielle (IA) aux données de santé. Des acteurs comme IBM et son IA Watson, Google avec son équivalent DeepMind et d’autres moins visibles se positionnent sur ce créneau : diagnostic oncologique à partir de scanners et d’IRM, diagnostic de déficience visuelle liée au diabète à partir d’une photo, qui vient d’être autorisé par la FDA5, en sont quelques exemples.

Mais c’est du côté de la génomique que l’inflation des promesses ne cesse d’enfler. Le coût des techniques de séquençage du génome ayant chuté drastiquement, de nouvelles thérapies dites de précision ou personnalisées se développent, qui vont par exemple croiser des informations sur la spécificité génétique et biologique d’une tumeur, avec des informations liées à l’environnement et au mode de vie du malade. Ces informations, confrontées à celles de « n » patients, doivent aider les soignants dans leurs choix thérapeutiques, de manière à améliorer la performance des soins.

La connaissance du génome d’un individu permettrait de détecter des risques de pathologies et, le cas échéant, d’être traité en amont
Twitter

Toujours du côté de la génomique, certains n’hésitent pas à parler de médecine prédictive. La connaissance du génome d’un individu permettrait de détecter des risques de pathologies (fragilité cardiaque, rupture d’anévrisme...), permettant au patient d’adapter son style de vie et, le cas échéant, d’être traité en amont. Aux Etats-Unis, l’entreprise 23andMe propose des tests génétiques, sur simple envoi d’un échantillon de salive. Le client se voit retourner des informations sur les origines géographiques de ses ancêtres et sur les risques qu’il encoure pour une dizaine de maladies (Alzheimer, Parkinson, maladie de Gaucher...).

Des patients acteurs
Les associations de patients sont aussi demandeuses d’un accès aux données de santé, afin d’exercer un travail de vigilance, voire d’alerte, par exemple en comparant l’accès aux soins à l’échelle des territoires, en mettant à jour des inégalités de traitements en fonction de la situation socioéconomique du patient, ou en détectant des prescriptions répétées inadaptées... C’est ainsi que l’association Renaloo s’est penchée sur la situation des patients souffrant d’une insuffisance rénale terminale et, en travaillant avec des chercheurs, a pu notamment démontrer qu’il y avait un accès socialement différencié aux deux traitements disponibles6 : la dialyse d’une part, qui demande au patient de passer plusieurs heures plusieurs fois par semaine dans un centre d’hémodialyse, ce qui est extrêmement handicapant pour la vie personnelle et professionnelle ; la greffe de rein de l’autre, plus efficace et libératrice pour le patient. L’étude révèle que les patients diplômés ont plus souvent accès à la greffe que les autres.

En ce qui concerne le patient lui-même, l’usage de ses données de santé pour son propre bénéfice reste encore à inventer
Twitter

Quant au patient lui-même, l’usage de ses données de santé pour son propre bénéfice reste encore à inventer. En effet, tant que le DMP ne sera pas largement diffusé et utilisé par les professions médicales7, le patient ne disposera que d’informations parcellaires, souvent en format non numérique, quand l’accès ne lui en est tout simplement pas interdit. Ainsi, aujourd’hui, le patient ne peut accéder à son dossier pharmaceutique. Pourtant cela lui permettrait, par exemple, de retrouver le nom de médicaments qui lui ont déclenché une allergie ou qui, au contraire, se sont révélés efficace dans le passé, pour tout simplement partager cette information avec son praticien. L’enjeu n’est pas trivial : il conditionne la capacité du patient à nouer un dialogue plus équilibré et fructueux avec le corps médical, à réduire l’asymétrie de pouvoir entre médecin et malade. Comme le montre l’enquête ethnographique menée par la sociologue Dominique Pasquier8 auprès de familles modestes utilisatrices de l’Internet, le simple accès à des sites d’information médicale est déjà une source de "capacitation" pour ces dernières. Sans préjuger des usages à venir, gageons qu’un accès à la complétude des données devrait prolonger ce constat.

Si les données de santé devraient d’abord servir à l’amélioration de la qualité des soins, on ne peut ignorer qu’elles peuvent servir à d’autres finalités, notamment en matière de marketing médical pour les industriels du secteur. À titre d’exemple, connaître la consommation de médicaments par zone de chalandise permet d’organiser les tournées des visiteurs médicaux pour cibler les médecins non-prescripteurs ; ou, à l’instar de n’importe quel secteur commercial, connaître les profils des internautes permet de pousser de la publicité en ligne, toujours plus personnalisée. Les industries de santé consacrent de plus en plus de budget à leur marketing digital, en direction des prescripteurs ou des patients eux-mêmes.

Des risques multiples
On le voit, les données de santé sont générées de plus en plus massivement, collectées et stockées par un nombre croissant d’acteurs, utilisées à des fins qui ne cessent de se diversifier. Cette triple envolée n’est pas sans soulever de nombreux problèmes. Le premier est lié à la sécurisation des bases de données. Leur multiplication, leur dispersion entre les mains de nombreuses entreprises plus ou moins habituées à manipuler des données sensibles, induisent mécaniquement une augmentation des risques de fuite de données, par inadvertance - un sous-traitant technique peu exigeant - ou à la suite de manoeuvres crapuleuses. Il se passe rarement plus de quelques jours sans qu’on ne découvre une faille de sécurité sur des logiciels clés ou, plus grave, qu’une fuite de données ne soit révélée9. En janvier 2018, ce sont les données de 53 000 patients américains, comprenant entre autres des informations cliniques et des données sur les médicaments prescrits, qui sont parties dans la nature ; le même mois, à Porto Rico, ce sont les données de 36 000 autres personnes qui ont potentiellement été compromises. Derrière ces fuites, une pratique : le vol de données avec exigence de rançon, à l’image de cet hôpital de l’Indiana10 dont des cybercriminels exigeaient, en janvier dernier, une rançon en bitcoins, pour un montant non révélé. De précédents événements montrent que la somme peut être élevée, comme ce centre médical de Los Angeles auquel l’équivalent de 3 millions d’euros avait été réclamé en 2016 pour qu’il puisse récupérer ses données et éviter qu’elles ne soient rendues publiques.

Plus le nombre de bases de données accessibles est important, plus les croisements entre bases sont possibles, plus les risques de « réidentification » de données pourtant anonymisées sont grands.
Twitter

Mais les problèmes de sécurité sont également liés à une difficulté technique : celle de l’anonymisation des données. En effet, une majeure partie des usages évoqués sont effectués sur des données agrégées et anonymisées, de manière à protéger les patients concernés. Mais l’anonymisation d’une donnée est extrêmement difficile : il ne suffit pas de décorréler l’information médicale (la pathologie, la prescription...) du nom du patient. Il faut pouvoir s’assurer que d’autres informations associées ne permettront pas de remonter jusqu’à lui. Par exemple, si le patient souffre d’une pathologie lourde et qu’on dispose du nom de la petite commune où il demeure, il est extrêmement simple de l’identifier. C’est pour cela qu’on parle le plus souvent de « pseudonymisation » (lorsque l’identité a été enlevée mais avec une possibilité de réversibilité). Or plus le nombre de bases de données accessibles est important, plus les croisements entre bases sont possibles, plus les risques de « réidentification » de données pourtant anonymisées sont grands.
Le gouvernement australien en a fait la pénible expérience en 2016, après avoir mis en open data11 les données de remboursements de dépenses médicales anonymisées de 2,9 millions d’Australiens, couvrant une période allant de 1984 à 2014. La publication scientifique en ligne ScienceX a rapidement démontré que le processus pouvait être inversé, et s’est amusée à réidentifier sept célébrités australiennes, dont trois députés et un footballeur12.

Derrière l’atteinte à la vie privée, la discrimination
De façon générale, l’accès à des données aussi sensibles que les données médicales par des tiers qui ne sont pas supposés en connaître le contenu est en soi une atteinte à la vie privée, avec la violence psychologique qui l’accompagne.
Mais de cette violation peut découler toute une série de conséquences très concrètes pour la vie des personnes. Imaginons qu’un recruteur ait devant lui deux candidats aux qualités professionnelles équivalentes, mais qu’il sache que le premier a dans le passé été sujet à des incidents cardiaques et non le second... Imaginons un bailleur social qui puisse choisir ses locataires en fonction de leur état de santé... Imaginons qu’un banquier sollicité pour un emprunt, déjà en droit légalement de connaître de notre situation médicale passée et présente, puisse de surcroît accéder au profil génétique du demandeur et que celui-ci révèle une forte probabilité de développer un cancer... Imaginons un assureur qui calculerait ses primes d’assurance en fonction de l’état de santé de ses clients ou qui, tout simplement, exclurait les clients à la santé jugée trop fragile…

À défaut d’accéder aux données de santé proprement dites, les assureurs utilisent les données dites de « bien-être », issues de nos objets connectés (pèse-personne, montre...), qui en disent déjà long sur notre état général
Twitter

Même si ces pratiques sont totalement illégales aujourd’hui en France13, ces risques ne sont pas théoriques, loin s’en faut. Pour s’en convaincre il suffit de regarder du côté des assureurs14. À défaut d’accéder aux données de santé proprement dites, ils utilisent les données dites de "bien-être", issues de nos objets connectés (pèse-personne, montre...), qui en disent déjà long sur notre état général. Ainsi, l’assureur américain John Hancock Financial Services propose à ses clients désireux d’acheter une assurance-vie une réduction de cotisation s’ils acceptent de faire régulièrement de l’exercice physique et de l’évaluer à l’aide d’un appareil connecté15. En France, Axa avait expérimenté une démarche similaire en 2014, proposant des chèques cadeaux à ses clients qui acceptaient de marcher un certain nombre de pas par jour et de surveiller cette activité avec un appareil de la marque Withings. Tout cela bien entendu au nom de l’encouragement à une vie saine et à la réduction des risques sanitaires.
Réglementation : à la recherche de l’équilibre
En France, les données de santé bénéficient par défaut d’une protection renforcée depuis l’adoption de la loi informatique et libertés en 1978. Et en Europe, le règlement général sur la protection des données, ou RGPD, entré en vigueur en mai 2018, ne fait que confirmer ce principe et laisse aux Etats la liberté d’adopter un régime encore plus exigeant. Dans l’Hexagone, l’usage des données de santé fait l’objet d’un encadrement strict puisque, par défaut, est interdit « le traitement des données génétiques, des données biométriques aux fins d’identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l’orientation sexuelle d’une personne physique »16.

Si le patient fournit un accord libre et éclairé, ses données peuvent alors être utilisées pour d’autres finalités que la raison première de leur collecte
Twitter

Pour autant, il ne s’agit pas d’empêcher toute réutilisation et la loi prévoit d’emblée une série d’exceptions au principe d’interdiction, dans lesquelles le consentement du patient joue un rôle fondamental : si ce dernier fournit un accord libre et éclairé, ses données peuvent alors être utilisées pour d’autres finalités que la raison première de leur collecte, sous réserve bien entendu du respect de normes de sécurité élevées. Lorsque le recueil du consentement n’est pas possible, l’utilisation des données doit se justifier par l’intérêt public et suppose une série d’autorisations et d’avis préalables17.

En complément de ces dispositions qui demeurent relativement lourdes, la loi autorise la Cnil à élaborer des référentiels et des règlements types pour certaines catégories de données ou de traitements : la demande d’autorisation n’est pas nécessaire, une simple déclaration de conformité auprès de la Cnil suffit. Par ailleurs, toujours dans un souci d’encouragement à l’innovation et à la recherche, le gouvernement a choisi en 2016, dans le cadre de la loi de modernisation de notre système de santé, de mettre à disposition de tous en open data des extractions agrégées du SNDS et d’élargir l’accès à ce dernier, jusqu’ici uniquement ouvert à une poignée de chercheurs membres d’organisations publiques. Aujourd’hui, sous réserve de ne pas poursuivre des finalités interdites (promotion en direction des professionnels ou des établissements de santé ; exclusion des garanties de contrats d’assurance ou modification de cotisations ou de primes d’assurance pour un individu ou un groupe d’individus), les acteurs privés peuvent également accéder à ces données.
Ce régime, qui se veut d’équilibre, est pourtant loin de clore le débat, ou plutôt les débats, qui sont, de façon schématique, économiques d’une part et éthiques de l’autre.

L’intelligence artificielle pousse à la massification
On pourrait croire que la France dispose d’une masse de données de santé suffisante pour outiller tant la recherche que les industriels de santé. Mais ces derniers considèrent que l’accès au SNDS demeure trop complexe, et souhaitent disposer de données toujours plus fraîches, quasiment en temps réel, et toujours plus abondantes. Le rapport Villani18 publié en mars 2018, qui propose une stratégie française et européenne en matière d’intelligence artificielle (IA), conforte cette position. La santé y est citée comme l’un des quatre secteurs prioritaires, avec l’agriculture, la mobilité et la sécurité. Le rapport soutient que le SNDS n’est pas adapté à l’IA : l’obligation de "non-réidentification" interdit le suivi du patient dans son parcours de soins ; la procédure d’évaluation d’intérêt public ex ante limite les capacités d’exploration de l’IA, qui ne peuvent pas être toujours décrites en amont ; l’architecture technique du SNDS ne répond pas à des finalités de recherche, d’innovation ou de création de nouvelles applications.
La remise en cause de ces trois caractéristiques risque d’ébranler considérablement tout l’édifice juridique historique. Le rapport préconise la création d’une plate-forme d’accès et de mutualisation des données ayant vocation à se substituer au SNDS, dotée de procédures d’accès fluides en temps court, et étendue à de nouveaux jeux de données, issus de grandes cohortes nationales, de cliniques et d’hôpitaux, du Plan France médecine génomique... Dans la foulée du rapport, dès le mois de juin, une mission de préfiguration de ce health data hub (plate-forme de données de santé, en français) a été lancée, dont le rendu est imminent.

« Si on veut vraiment passer un cap, il faut mettre en commun ces données » – Dominique Polton, présidente de l’Institut National des Données de Santé (INDS)
Twitter

Si cette course à la massification et à la « désanonymisation » ne peut qu’inquiéter pour les raisons évoquées précédemment, la stratégie industrielle qui sous-tend le projet est intéressante : il s’agit ni plus ni moins que de contrer le déploiement intensif de géants états-uniens dans le champ de l’intelligence artificielle19 et de rouvrir un espace compétitif pour des acteurs de petite ou moyenne taille qui pourront avoir accès à ces données. Encore faut-il accepter la logique de mutualisation. Comme le souligne Dominique Polton, présidente de l’INDS, et l’une des trois copilotes de cette mission : "Chacun pense qu’il va tirer un très gros potentiel de sa propre base, de son propre entrepôt ponctuel d’hospitalisation, de sa propre cohorte spécialisée sur une pathologie, mais en réalité, si on veut vraiment passer un cap, il faut mettre en commun ces données"20. Un point de vue qui rejoint l’une des intentions du rapport Villani selon lequel "la puissance publique doit [...] amorcer de nouveaux modes de production, de collaboration et de gouvernance sur les données, par la constitution de "communs de la donnée"".

Enjeux éthiques
À côté de ces enjeux d’innovation et de politique industrielle, l’usage des données, que ce soit à l’échelle individuelle ou en traitement massif, soulève de nombreux enjeux éthiques, pour lesquels les réponses restent en grande partie à inventer. Côté individuel, ce sont les données génétiques qui sont au coeur de la controverse la plus vive. Ne serait-ce parce qu’elles révèlent des informations non pas sur un individu unique mais sur tous ceux qui ont en partage son ADN, ascendants, membres de la même cohorte familiale et descendants. Mais aussi et surtout parce qu’une prédiction n’est qu’une probabilité, et que la révélation de cette prédiction peut causer plus de mal que de bien.

Que faire lorsque l’on risque à 40 % d’être atteint d’une pathologie pour laquelle il n’existe aucun traitement préventif ? Doit-on partager cette information avec sa fratrie, sa descendance ? Cette connaissance ne va-t-elle pas être un facteur supplémentaire susceptible de déclencher la maladie ? Autant de questions qui constituent l’un des débats clés des Etats généraux de la bioéthique qui se sont déroulés en France de janvier à juin derniers21. Le déploiement de tests « direct-to-consumer » (publicité et vente de produits médicaux auprès des patients plutôt que des médecins) comme celui de 23andMe amplifient ce phénomène : quel peut être le vécu de personnes recevant sans accompagnement par un professionnel un résultat de test leur annonçant qu’ils ont une forte probabilité de souffrir à l’avenir d’une pathologie grave ?

Comment s’assurer qu’une banque n’est pas en train de scruter massivement les relevés de ses clients, comportant des remboursements de frais médicaux, pour dresser le profil des personnes à risque ?
Twitter

Côté mégadonnées, les interrogations liées à l’IA ne sont pas moins fortes. Ces questionnements ne sont pas spécifiques au champ médical, mais prennent ici une acuité particulière. Ainsi des questions de transparence des algorithmes. Comment s’assurer par exemple qu’une banque n’est pas en train de scruter massivement les relevés de ses clients, comportant des remboursements de frais médicaux, pour dresser le profil des personnes à risque, puis exclure sur cette base les clients considérés comme potentiellement insolvables ? Et des questions de responsabilité : qui sera responsable, par exemple, en cas d’erreur de diagnostic : le médecin, l’hôpital ou l’entreprise productrice de l’algorithme ? La Cnil a publié fin 2017 un rapport qui pose un diagnostic et ouvre de premières pistes d’actions22. Une contribution à des controverses qui ne cessent de se complexifier.

On l’aura compris, les données de santé constituent sans doute aucun un terreau fertile tant du point de vue scientifique que médical et économique. Mais les risques associés sont élevés et obligent à veiller à ce que les finalités d’innovation soient compatibles avec les exigences d’une société démocratique, soucieuse de préserver la vie privée et l’autonomie de ses citoyens. Cette ambivalence contraint à faire preuve d’une imagination renouvelée en matière technique et juridique, tant sur le recueil et la conservation que sur les traitements et les usages des données de santé.
Valérie Peugeot est commissaire à la Cnil en charge du secteur santé, chercheuse à Orange Labs et présidente de l’association Vecam
1.
"Les médecins à l’heure du numérique", enquête Ipsos, 31 janvier 2017.
2.
"Virage numérique, l’assurance maladie accélère. La Cnam vise 2,3 millions de DMP fin 2018", Lequotidiendumédecin.fr, 5 juillet 2018.
3.
Constances est une cohorte épidémiologique "généraliste" constituée d’un échantillon représentatif de 200 000 adultes âgés de 18 à 69 ans, consultant des centres d’examens de santé (CES) de la Sécurité sociale.
4.
"Med-eShare mise sur le logiciel du médecin pour collecter et partager la donnée de santé", TICsanté.com, 24 août 2018.
5.
La Food and Drug Administration est l’agence fédérale qui a, notamment, le pouvoir d’autoriser la mise sur le marché des médicaments aux Etats-Unis.
6.
"Maladies rénales et inégalités sociales d’accès à la greffe en France", par Baudelot et al., Population, 2016/1 (Vol. 71).
7.
Le dossier médical partagé, ou DMP, est un serpent de mer : lancé pour la première fois en 2004, il a fait l’objet de différentes moutures sans réussir à convaincre les professionnels qui n’y ont vu qu’une charge de travail supplémentaire. La nouvelle version qui s’ouvre actuellement au public est supposée lever un certain nombre des obstacles rencontrés précédemment.
8.
L’Internet des familles modestes. Enquête dans la France rurale, par Dominique Pasquier, Presses des Mines, 2018.
9.
Il suffit de faire un tour sur le site https://www.cyberveille-sante.gouv.fr pour s’en rendre compte.
10.
Voir "Ransomware attack on Hancock Health drives providers to pen and paper", Healthcareitnews, 15 janvier 2018.
11.
Données rendues publiques et accessibles gratuitement sous format numérique.
12.
Voir "Research reveals de-identified patient data can be re-identified", phys.org, 18 décembre 2017.
13.
La loi de modernisation de notre service de santé du 26 janvier 2016 interdit explicitement l’usage des données du SNDS pour "l’exclusion de garanties des contrats d’assurance et la modification de cotisations ou de primes d’assurance d’un individu ou d’un groupe d’individus présentant un même risque".
14.
Voir "Health insurers are vacuuming up details about you - and it could raise your rates", National Public Radio, 17 juillet 2018.
15.
Voir "John Hancock will include fitness tracking in all life insurance policies", Venturebeat, 19 septembre 2018.
16.
Article 8 de la loi du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés.
17.
Le responsable de traitement doit présenter un dossier de demande d’autorisation à la Cnil et, lorsqu’il s’agit d’un projet de recherche, il doit également obtenir préalablement un avis de l’Institut national des données de santé sur le caractère d’intérêt public du projet et, selon les cas, l’avis d’un Comité de protection des personnes (CPP) ou d’un Comité d’expertise pour les recherches, les études et les évaluations dans le domaine de la santé (Cerees).
18.
Voir "Donner un sens à l’intelligence artificielle, pour une stratégie française et européenne", par Cédric Villani, sur https://www.aiforhumanity.fr.
19.
Voir "E-santé : l’offensive estivale des Gafam", 7 septembre 2018, sur https://www.ticpharma.com
20.
Voir "Dominique Polton plaide pour une "gouvernance unifiée" des bases de données de santé", 17 septembre 2018, sur https://www.ticpharma.com
21.
Voir https://etatsgenerauxdelabioethique.fr/.
22.
Voir "Comment permettre à l’homme de garder la main ? Rapport sur les enjeux éthiques des algorithmes et de l’intelligence artificielle", CNIL, 15 décembre 2017.