Séminaire en Traitement Automatique des Langues

20 mars 2026

14h-17h

UFR SLHS
Grand Salon

En visioconférence
urlr.me/V4hXqC

Génération de données médicales synthétiques avec des grands modèles de langue (LLM)

Avec Salah Yahiaoui, post-doctorant en TAL

Résumé

Dans un contexte où l’accès aux données cliniques est restreint, la constitution de corpus d’entraînement pour les systèmes de traitement automatique des langues (TAL) dans le domaine médical représente un défi majeur. Dans ce séminaire, nous présentons une approche de génération de données médicales synthétiques visant à produire des documents réutilisables en recherche tout en préservant la confidentialité, sans compromettre la structure et la cohérence nécessaires aux usages en TAL. L’exposé s’appuie sur le certificat de décès, un document structuré décrivant une chaîne causale.

Le séminaire détaillera comment cette génération peut être guidée par des exemples et par des contraintes de cohérence médicale. Nous montrerons également comment la qualité est contrôlée au moyen de vérifications automatiques (appariement à des référentiels, cohérence des enchaînements). L’objectif final est d’illustrer en quoi ces données synthétiques permettent de tester, comparer et améliorer des méthodes de TAL médical lorsque les données réelles ne sont pas accessibles.

.