France Info : Pourquoi nos données de santé sont-elles si convoitées ?

Propos recueillis par - Marie-Violette Bernard
France Télévisions

Publié le 16/10/2021 07:09

Les données médicales sont devenues un véritable "or noir" pour les chercheurs comme les cybercriminels. Pour la journaliste Coralie Lemke, leur utilisation peut permettre des avancées médicales, à condition d’être bien encadrée.

Un vol massif. Les données personnelles d’environ 1,4 million de patients ont été dérobées dans une attaque informatique durant l’été, a annoncé l’Assistance publique-Hôpitaux de Paris (AP-HP) mercredi 15 septembre. En février déjà, 500 000 dossiers médicaux avaient été piratés. De plus en plus d’établissements de santé sont la cible de cybercriminels. Pourquoi nos données de santé sont-elles si convoitées et qui intéressent-elles ? Faut-il s’inquiéter de les voir devenir plus accessibles, pour les chercheurs comme pour les pirates ? Franceinfo a posé ces questions à Coralie Lemke, journaliste santé chez Sciences et Avenir et autrice du livre Ma Santé, Mes données (Premier Parallèle).

Franceinfo : Lorsqu’on parle de "données de santé", à quoi fait-on référence exactement ?

Coralie Lemke : En France, les données de santé ont une définition très précise, formulée par la Commission nationale de l’information et des libertés (Cnil). Il s’agit de toute information collectée pour bénéficier de soins, lors d’un test ou d’un examen, ou de toute information sur l’état physiologique et biomédical de quelqu’un.

Les informations collectées grâce aux objets connectés (podomètres, montres et balances connectées, applications de suivi de sommeil…) ne sont considérées comme des données de santé que si elles sont croisées avec d’autres informations médicales. Ainsi, savoir grâce à une application que je dors trois heures par nuit ne dit pas grand chose de ma santé. Néanmoins, si on sait également que j’ai une ordonnance pour des antidépresseurs, on peut éventuellement en déduire que je souffre d’une pathologie psychologique. C’est à ce moment que la Cnil considère que ces informations sont des données de santé à part entière.

Notre suivi de santé est de plus en plus assuré grâce à des ordinateurs. Quel impact a eu cette numérisation sur les données de santé ?

Elle a considérablement facilité la prise en charge et le suivi des patients. Désormais, à l’hôpital, chez le médecin, tout est enregistré sur un ordinateur. Nos radios et IRM sont numérisées et vous générez des données de santé à chaque fois que votre carte vitale est scannée.

La numérisation a également beaucoup fait avancer la recherche, en permettant l’analyse de "lots de données de santé" [les dossiers de plusieurs centaines ou milliers de patients]. Il était compliqué d’accéder à ces informations lorsqu’elles étaient toutes sur papier.

Le revers de la médaille, c’est que ces données sont plus vulnérables. Elles sont devenues plus accessibles pour les soignants, mais aussi pour plusieurs acteurs qui s’y intéressent.

Pourquoi ces données de santé sont-elles si convoitées aujourd’hui ?

Il faut d’abord se rappeler qu’une donnée unique n’intéresse pas grand monde : connaître le groupe sanguin d’un individu n’a que peu d’utilité. En revanche, les données de santé agrégées de plusieurs milliers ou millions d’individus sont vues comme un véritable "or noir", parce que leur étude permet notamment de faire avancer la recherche.

Ces informations intéressent trois types d’acteurs. En premier lieu les laboratoires pharmaceutiques, qui doivent passer par de nombreuses étapes et études cliniques pour développer des traitements. Ce processus prend beaucoup de temps et d’argent, mais il est bien plus rapide si on commence par analyser des lots de données. Pour les obtenir, les laboratoires s’adressent à des "data brokers", des courtiers spécialisés dans la recherche de données. Ces derniers sont chargés de contacter les établissement de santé et de nouer des partenariats avec eux pour obtenir des lots de données anonymisées.

Le deuxième type d’acteur, ce sont les Gafam (Google, Apple, Facebook, Amazon et Microsoft), qui s’y intéressent pour des raisons commerciales. Ils proposent en effet leur expertise technologique aux universités ou aux centres de recherche en quête d’algorithmes pour traiter ces données. Une étude a ainsi établi que l’intelligence artificielle développée par Google pour détecter le cancer du sein est plus précise que les radiologues.

Le dernier type d’acteur, ce sont évidemment les cybercriminels. Leur objectif est de pirater des établissement de santé pour récupérer des données de santé, puis de les revendre sur le dark web ou de s’en servir pour obtenir une rançon. En octobre 2020, au moins 2 000 patients finlandais ont ainsi reçu un mail les menaçant de publier sur le web les détails de leur suivi psychologique s’ils ne payaient pas plusieurs centaines d’euros, après le piratage des données d’un réseau de centre de psychothérapie.

Nos données de santé sont donc devenues une cible privilégiée pour les cybercriminels ?

Oui, et ce phénomène s’est accentué avec la pandémie de Covid-19 : entre février et mars 2020, il y a eu une hausse de 475% des attaques visant des hôpitaux en France, selon l’entreprise de cybersécurité Bitdefender. Certains cybercriminels avaient promis une trêve au début de la crise sanitaire, mais ça n’a pas duré longtemps : ils ont vite compris que c’était une période où les établissements de santé étaient encore plus vulnérables.

Les établissements de santé sont particulièrement visés par les cybercriminels parce qu’ils sont fragiles sur le plan informatique. Les appareils sont souvent vieux, les protections informatiques ne sont pas à jour. Ce sont donc des cibles faciles et les conséquences peuvent être désastreuses. En 2017, le rançongiciel [un virus malveillant qui bloque l’accès aux fichiers en échange d’une rançon] WannaCry a paralysé le système de santé britannique (NHS). Il a provoqué l’annulation de plusieurs millions de rendez-vous médicaux et d’opérations chirurgicales, ce qui représente une perte de chances de survie pour certains patients.

Les données de santé représentent une manne financière importante pour ces cybercriminels. Le cabinet EY (PDF en anglais) estime ainsi que les 55 millions de dossiers médicaux des citoyens britanniques valent 9,6 milliards de livres, soit plus de 11 milliards d’euros. La valeur d’un dossier individuel peut grimper jusqu’à 5 600 euros s’il comprend le séquençage de l’ADN de cette personne.

Pourquoi les données génétiques sont-elles particulièrement recherchées ?

Toutes les données de santé n’ont pas la même valeur : la génétique, c’est le graal. Notre ADN est la clé de notre identité et contient les informations déterminantes sur notre physique, nos prédispositions à la survenue de certaines maladies… C’est pour cela que ces données valent si cher.

Les entreprises qui proposent des tests génétiques salivaires au grand public, pour mieux connaître ses origines, l’ont d’ailleurs bien compris. La plupart des gens ne lisent pas les petites lignes précisant que ces données peuvent ensuite être revendues. En 2018, le groupe 23andme a ainsi signé un accord de 300 millions de dollars avec le laboratoire GSK, portant sur 5 millions de profils génétiques anonymisés. L’objectif de ce partenariat est de travailler sur le développement de traitements pour la maladie de Parkinson, mais cela pose tout de même des questions de sécurité et de protection des données.

Comment les données de santé sont-elles protégées en France ?

Elles sont encadrées par le Règlement général sur la protection des données (RGPD), qui régule l’utilisation des données personnelles en France et en Europe depuis 2018. Pour recueillir et traiter une donnée de santé, il faut le consentement explicite de la personne concernée. Le RGPD interdit également le transfert des données hors de l’Union européenne. Ce sont des garde-fous qui n’existent pas dans d’autres pays, comme les Etats-Unis, et qui empêchent par exemple Google de recueillir des données sur nos rendez-vous médicaux dans nos mails, pour ensuite les revendre à une tierce partie.

Est-il possible de renforcer ces protections ?

Individuellement, on ne peut pas grand chose. On peut s’efforcer de ne pas trop semer d’informations personnelles en ligne, mais cela reste une goutte d’eau dans un océan de données. C’est surtout très compliqué dans le monde actuel. On estime par exemple que deux tiers des Français ont aujourd’hui un compte sur Doctolib, et c’est logique parce que c’est un outil pratique pour prendre des rendez-vous médicaux. A moins de ne plus être remboursé, on est par ailleurs obligé de sortir sa carte vitale (et donc de transmettre des données sur sa santé) à chaque fois que l’on est soigné.

Encore faut-il que ces lois soient appliquées. Les réclamations concernant le RGPD sont toutes gérées par la Cnil irlandaise, qui est l’autorité qui régule les Gafam au niveau européen. Mais l’organisme reçoit tellement de plaintes que 99,93% d’entre elles ne sont pas traitées. C’est extrêmement décourageant. C’est sur ce volet qu’on peut encore améliorer la protection des données de santé.

Un autre exemple de la vigilance qu’il faut avoir sur ces questions est celui du Health Data Hub. Fin 2019, le gouvernement français a décidé d’établir une immense bibliothèque de données de santé. L’idée est de regrouper toutes les données qui existent déjà – celles des hôpitaux, de l’Assurance maladie – sur une plateforme unique, pour en donner l’accès à des équipes de chercheurs et trouver de nouveaux parcours thérapeutiques ou de nouveaux traitements.

Lorsqu’il a fallu trouver un hébergeur de données de santé agréé, qui remplit certains prérequis technologiques et sécuritaires, pour gérer cette base de données, l’une des plus grosses au monde, le choix s’est porté sur Microsoft. Le problème, c’est qu’il s’agit d’une entreprise régie par le droit américain. Or, il existe notamment une loi aux Etats-Unis, le Cloud Act, qui permet le transfert des données des filiales étrangères d’un groupe dans le cadre d’une procédure judiciaire. En clair, Microsoft peut en théorie récupérer les données de santé des Français et les transférer outre-Atlantique, ce qui est absolument contraire au RGPD. La France est d’ailleurs en train de rétropédaler et il est probable que le projet soit confié à un autre acteur d’ici à la fin 2022.

Faut-il alors s’inquiéter de voir nos données de santé de plus en plus exploitées ?

Les données de santé ont un caractère assez paradoxal : elles sont très intimes et relèvent de la sphère privée, mais lorsqu’elles sont agrégées toutes ensemble elles peuvent servir le bien commun. La médecine est déjà révolutionnée par l’utilisation des données de santé. L’agence américaine du médicament (FDA) a autorisé le recours à une intelligence artificielle pour diagnostiquer les rétinopathies diabétiques, qui sont une des causes majeures de cécité chez l’adulte. Il suffit d’une photo pour la détecter, et cela a été rendu possible grâce à l’analyse de données de santé.

L’étude de ces données peut aussi permettre de mieux comprendre pourquoi tel type de cancer répond à certains traitements mais pas d’autres, de faire avancer la recherche sur les maladies neurodégénératives qu’on connaît encore mal comme Alzheimer, voire de trouver des traitements pour des maladies rares qui n’affectent que quelques personnes dans chaque pays. Sans la numérisation et l’étude de ces informations médicales, il serait impossible de rassembler les informations sur quelques milliers de malades éparpillés sur la planète. L’exploitation des données de santé peut donc être vertueuse, à condition d’être bien encadrée par la loi.