Séminaire en Traitement Automatique des Langues
20 mars 2026

Génération de données médicales synthétiques avec des grands modèles de langue (LLM)
Avec Salah Yahiaoui, post-doctorant en TAL
Résumé
Dans un contexte où l’accès aux données cliniques est restreint, la constitution de corpus d’entraînement pour les systèmes de traitement automatique des langues (TAL) dans le domaine médical représente un défi majeur. Dans ce séminaire, nous présentons une approche de génération de données médicales synthétiques visant à produire des documents réutilisables en recherche tout en préservant la confidentialité, sans compromettre la structure et la cohérence nécessaires aux usages en TAL. L’exposé s’appuie sur le certificat de décès, un document structuré décrivant une chaîne causale.
Le séminaire détaillera comment cette génération peut être guidée par des exemples et par des contraintes de cohérence médicale. Nous montrerons également comment la qualité est contrôlée au moyen de vérifications automatiques (appariement à des référentiels, cohérence des enchaînements). L’objectif final est d’illustrer en quoi ces données synthétiques permettent de tester, comparer et améliorer des méthodes de TAL médical lorsque les données réelles ne sont pas accessibles.
.
