Vous devez être connecté pour accèder à cette archive.

Se connecter
X
Dossiers > Réglementation

Que disent les règlements européens sur les DM face aux défis de l’IA ?

Publié le 08 novembre 2021 par Patrick RENARD
La notion de boîte noire illustre l’opacité des algorithmes d’IA, en termes d’accès aux structures internes du logiciel et de compréhension du processus de décision.
Crédit photo : ©dimamoroz Adobe Stock

Si l'IA a prouvé son efficacité dans le médical, elle représente des défis épineux pour le législateur. C'est ce que nous explique ici Frédéric Barbot, en se focalisant sur les algorithmes d’apprentissage automatique au regard des règlements européens RDM (UE) 2017 /745 et RDIV (UE) 2017/746.

Par Frédéric Barbot, Praticien Hospitalier, Inserm CIC 1429, hôpital Raymond Poincaré APHP, Garches. Tech4Health. Réseau d’expertises F-Crin.

L’apprentissage automatique comprend l’apprentissage supervisé (données étiquetées), non supervisé (données brutes, non étiquetées), l’apprentissage par renforcement (pas de données prédéfinies) et l’apprentissage profond. Ces systèmes d’intelligence artificielle, qui représentent ce que l’on trouve en majorité en médecine, reposent sur des logiciels autonomes ou des logiciels intégrés dans des dispositifs médicaux.

Le secteur des logiciels embarquant de l’IA évolue très rapidement dans l’univers de la santé, avec plusieurs défis à relever.

Interprétabilité, explicabilité et opacité (boîte noire) des algorithmes

Le premier défi concerne la notion de "boîte noire", qui englobe deux dimensions :

  • la compréhension du processus de décision : certains algorithmes d’apprentissage sont difficiles à interpréter (comment l’algorithme prend une décision) et à expliquer (pourquoi l’algorithme a pris une décision) ;
  • des structures internes au logiciel non accessibles aux évaluateurs.

Le RDM précise les exigences générales de sécurité et de performance pour les logiciels. Ceux-ci sont conçus de manière à garantir la répétabilité, la fiabilité et les performances, eu égard à leur utilisation prévue (Annexe I, 17.1). Par ailleurs, les logiciels sont développés et fabriqués conformément à l’état de l’art, compte tenu des principes du cycle de développement, de gestion des risques, y compris la sécurité de l’information, de vérification et de validation. (Annexe I, 17.2).

Mais il n’y a pas d’exigence dans le RDM ni dans le RDIV stipulant que le modèle soit interprétable et explicable, ni d’exigence d’ouverture de la boîte noire (accès au code source de l’IA).

A ce jour, les différentes normes harmonisées ISO n’abordent pas ces points. L’ISO 14971-2019 (gestion des risques) n’est que partiellement adaptée aux défaillances et aux risques des systèmes d’IA par apprentissage automatique. Déterminer l’origine de défaillances d’un algorithme dans un système opaque est beaucoup plus complexe.

Quantité de données et adaptabilité des algorithmes

Un algorithme d’apprentissage automatique a la capacité de s’améliorer dans le temps avec de nouvelles données d’entraînement (au delà de l’obtention du marquage CE).

Or, le RDM impose une surveillance après commercialisation (article 83) et le fabricant doit informer l’organisme notifié des modifications substantielles des parties ou composants du dispositif (annexe IX, chapitre I, article 2.4). Les processus de validation, en termes de performance et de sécurité des algorithmes, doivent se poursuivre tout au long du cycle de vie du logiciel.

Une grande majorité des systèmes d'IA sont développés et entraînés à l'aide de données historiques. La performance d’un algorithme a tendance à "dériver" (data drift) au cours du temps. Les populations, les pratiques médicales et les standards de soins évoluent. La prévalence des maladies change.

On notera que des seuils de performance de l’algorithme peuvent être mis en place afin de détecter des anomalies.

Ceci dit, tous les systèmes d’IA ne sont pas adaptatifs et ceux qui sont figés posent moins de problème, même si une dérive des performances de l’IA est possible au fil du temps.

Dans les règlements européens (RDM, RDIV) et les normes harmonisées associées, il a été prévu de considérer les modifications possibles des dispositifs médicaux. Mais cela ne va pas jusqu'à la prise en compte de ces systèmes d’IA dynamiques et autonomes, apprenant et s’adaptant suite à de nouvelles données disponibles tout au long du cycle de vie d’un logiciel.

Des biais potentiels

La qualité des données dépend de nombreux facteurs (données incorrectes ou manquantes, traçabilité des annotations, modalités de segmentation…) ainsi que de la qualité et de la pertinence des données d’entraînement.

Les systèmes d'IA entraînés à l'aide de données historiques peuvent être sujets à des biais. Des données biaisées peuvent conduire à un algorithme qui fonctionne différemment selon les populations.

Les exemples sont nombreux. Prenons celui des algorithmes d’apprentissage profond concernant une tâche de diagnostic dans le domaine de l’imagerie en santé aux Etats-Unis. La majorité de ces algorithmes sont formés sur des ensembles de données provenant de patients dans seulement trois zones géographiques : Californie, Massachusetts et New York. La majorité des autres états n’a que peu de patients représentés. Ces 3 états ont des caractéristiques qui ne sont pas représentatives de l’intégralité des Etats-Unis (Kaushal et al, JAMA 2020).

Autre exemple, le déséquilibre hommes/femmes dans des bases de données portant sur l’imagerie pulmonaire produit des performances moindres d’un réseau de neurones convolutif (apprentissage profond) dans les groupes sous-représentés (Larrazabal et al, PNSA 2020).

Quant à la plupart des données des algorithmes de détection en imagerie ophtalmologique, elles proviennent de patients d'Amérique du Nord, d'Europe et de Chine. Ces algorithmes formés sur ces données sont-ils susceptibles de fonctionner correctement en Afrique, en Amérique latine ou en Asie du Sud-Est ? Il y a un risque de sous-performance de ces systèmes d’IA dans ces autres populations (Khan et al Lancet Digital Health 2021).

Les fabricants de DM à base d’IA vont devoir se plier aux exigences d’un autre règlement européen que le RDM (ou le RDIV), avec le projet Artificial Intelligence Act qui réglementera les systèmes d’IA à haut risque lorsqu’il entrera en vigueur.
Publié par la Commission européenne le 21 avril 2021, ce projet fait l'objet d'un autre article intitulé "Droit et éthique des DM à base d’IA : l’Europe et la France accélèrent !".

Enfin, il existe aussi un risque de biais suite au recours à l'apprentissage automatique pour les dépistages du cancer de la peau (mélanome). Les peaux foncées ne sont pas suffisamment inclues dans la formation des algorithmes et la plupart des programmes d’apprentissage automatique sont réalisés sur des peaux claires (Adamson et Smith JAMA Dermatology 2018).

Ces biais géographiques et de populations interrogent sur la validité des algorithmes chez les patients d'autres régions du globe et sur des populations non diversifiées. Ils peuvent conduire à des modèles insuffisamment performants.

Les données d’entraînement doivent reproduire les populations pour lesquelles les algorithmes seront utilisés. Il est important d’évaluer ces biais et d’améliorer la robustesse des algorithmes.

Il n’y a aucune obligation dans le RDM et le RDIV d’inclure des données diversifiées en termes de sexe, d’origine ethnique et géographique, en ce qui concerne les systèmes d’IA.

Performances d’un algorithme d’apprentissage automatique

Il existe de nombreuses mesures pour évaluer la performance d’un algorithme ou comparer divers algorithmes ou plusieurs versions d’un algorithme au fil du temps.

La performance d’un algorithme d’apprentissage automatique repose sur sa capacité à prédire un résultat. On utilise généralement une matrice de confusion (tableau croisé entre les valeurs réelles et les prédictions). A partir de cette matrice de confusion, il est possible d’utiliser plusieurs indicateurs de performance tels que la sensibilité, la spécificité, la précision, le taux de vrais positifs, le taux de vrais négatifs, le taux de faux positifs, le taux de faux négatifs et le score F1. Par exemple le score F1 de l’algorithme, qui est la moyenne harmonique de la précision et de la sensibilité, peut se détériorer au fil du temps suite à des modifications des données. D’autres métriques existent comme l’Indice de Jaccard, la courbe ROC, etc.

Il n’y a aucune recommandation dans les règlements européens (RDM et RDIV), ni dans les normes harmonisées associées sur l’évaluation de la performance des algorithmes. La performance des algorithmes n’est d’ailleurs pas abordée dans le MDCG 2020-1, document d’orientation portant sur les évaluations cliniques (RDM) et des performances (RDIV) des logiciels dispositifs médicaux.

Evaluation clinique de l’IA embarquée dans un logiciel

Faut-il évaluer un système d'IA par rapport à un autre système d'IA ? Ou évaluer un système d’IA par rapport à l’homme ? Vaste sujet, mais c’est un autre débat.

Dans le cadre de la surveillance après commercialisation, le RDM impose une évaluation clinique en continu des DM et l’obligation d’investigations cliniques pour les dispositifs implantables et de classe III sur des personnes humaines, sauf si le recours à des données cliniques existantes peut être justifié.

L’évaluation clinique peut consister en une analyse critique des résultats de toutes les investigations cliniques déjà réalisées, ou en une analyse critique de la littérature scientifique se rapportant à un dispositif déjà évalué, ou encore en une combinaison des deux analyses. Ce "recours à l’équivalence" est très bien encadré par le RDM et implique 3 dimensions cumulatives : clinique, biologique et technique (Annexe XIV, A (3)).

Les fabricants qui revendiquent une équivalence avec un concurrent devraient avoir accès au dossier technique ou au dossier de conception du logiciel, c’est-à-dire l’accès au modèle et au jeu de données d’entraînement afin de prouver la similitude entre les deux algorithmes. Cette mission est très compliquée, voire impossible. Si un fabricant ne dispose pas des données de son concurrent, inutile de chercher à revendiquer l’équivalence. L’investigation clinique sera de rigueur.

Responsabilité juridique

Des questions d'ordre juridique se posent. Un algorithme d’apprentissage profond, qui apprend une tâche par essai et erreur avant d’acquérir son autonomie, exonère-t-il le concepteur de l’algorithme et le fabricant du logiciel de leur responsabilité en cas de défaillance ? Un clinicien peut-il aller à l’encontre du résultat final donné par l’algorithme ?

Une résolution du Parlement Européen, 2020/2014 (INL) fournit un élément de réponse en spécifiant que « l’opérateur d’un système d’IA à haut risque est objectivement responsable de tout préjudice ou de tout dommage causé par une activité, un dispositif ou un procédé physique ou virtuel piloté par un système d’IA » (Chapitre II, article 4 (1)).

Normalement, la responsabilité en cas de défaillance du logiciel embarquant de l’IA incombe au fabricant, sauf si le professionnel de santé a utilisé le logiciel en dehors des limites de son approbation réglementaire.

Sur un plan juridique c’est un vaste domaine à réguler avec le besoin de clairement définir où la responsabilité commence et se termine pour le fabricant et le professionnel de santé.

Protection des données

Le RGPD (UE 2016/679) a mis en place des réglementations contraignantes autour de la protection des données et de la vie privée. Il assure un niveau élevé de protection des données personnelles, tout en permettant leur libre circulation au sein de l’Union Européenne. Le processus de pseudonymisation/anonymysation des données doit être systématique.

La question de l’obtention d’un consentement libre et éclairé face à des algorithmes opaques reste bien entendu centrale.

En conclusion, le cadre règlementaire européen devra s’adapter à l’IA embarquée dans les logiciels. Un document d’orientation de type MDCG serait très utile.


tech4health.fr

Partagez cet article sur les réseaux sociaux ou par email :
Mots-clés :

A lire aussi