Épaulés par le CHU de Nantes et l’entreprise Zenidoc, des chercheurs développent le premier modèle ouvert de traitement automatique des langues dédié au domaine biomédical et clinique français. Baptisé DrBERT, il servira par exemple à la structuration automatique et à la traduction de documents médicaux.
Un modèle pré-entraîné grâce au supercalculateur Jean Zay
Des scientifiques du laboratoire informatique d’Avignon (LIA) et du laboratoire des sciences du numérique de Nantes (LS2N) collaborent avec le Centre hospitalier universitaire de Nantes et la société Zenidoc, éditrice de logiciels à destination des établissements de santé. Ensemble, ils développent DrBERT, un modèle de langue ouvert dédié au domaine biomédical et clinique français. Ce modèle se base sur les travaux de thèse de Yanis Labrak, doctorant à Avignon Université, membre du LIA et alternant chez Zenidoc, et d’Adrien Bazoge, doctorant à Nantes Université et membre du LS2N. Il a d’abord été entraîné à apprendre le français médical sur “le plus grand corpus de données médicales sous licence libre” grâce au supercalculateur Jean Zay, opéré par l’Institut du Développement et des Ressources en Informatique Scientifique (IDRIS – CNRS). Ce corpus est composé du corpus biomédical open source NACHOS et de 1,7 million de comptes-rendus désidentifiés du CHU de Nantes. Il respecte le RGPD et ne permet aucune fuite d’informations personnelles.
Aider à la structuration, à la traduction et au classement des documents médicaux
Les scientifiques et Zenidoc ont décidé de mettre DrBERT à disposition du public, accompagné d’une partie du corpus sur lequel il a été entraîné. Cette publication en open source va "faciliter l’adoption de ce type d’outils par les professionnels de santé et la reproduction de nos recherches par la communauté", a expliqué Richard Dufour, professeur en informatique à Nantes Université, dans une publication datant du 8 septembre 2023. DrBERT pourra être adapté “au traitement de tâches qui les intéressent pour un coût de calcul largement inférieur au pré-entraînement complet du modèle”, a-t-il précisé. Plus concrètement, ce modèle pourra servir à la structuration automatique de documents à l’aide de la catégorisation de mots, à la traduction de documents médicaux ou encore au classement de documents par spécialité médicale.
Un modèle de langue prometteur mais encore perfectible
Pour le moment, DrBERT n’est pas encore performant sur toutes ses applications potentielles. C’est pourquoi les membres du LIA, du LS2N et de Zenidoc développent “un jeu de données de référence pour une vingtaine de tâches qui permettront de mieux évaluer les capacités des modèles produits par la recherche et ainsi de comparer de façon plus large leurs performances”, a relevé Richard Dufour. Dans la continuité de ces travaux, le scientifique pilotera à partir d’octobre 2023 le projet MALADES, financé par l’Agence nationale de la recherche (ANR). Il servira à mettre au point un modèle génératif de langue fiable, dynamique et adaptable, destiné aux acteurs de la santé “dans un contexte de ressources contraintes”.