Snds2vec, représentations continues pour les concepts médicaux du Système national des données de santé - 28/02/20
Résumé |
Introduction |
Les bases de données médico-administratives sont des sources d’information très riches sur les systèmes de soin. Cependant, leur exploitation est délicate à cause de leur complexité. En appliquant aux séquences de soins une méthode similaire à l’approche word2vec ayant révolutionné le traitement automatique du langage, nous proposons des représentations vectorielles riches reflétant les interactions (co-occurrences) au cours des parcours de soins entre les codes ou évènements de quatre grandes terminologies médicales françaises.
Méthodes |
Un échantillon à 4 % du Système national des données de santé (SNDS) de 2008 à 2016 est utilisé. Dans cet ensemble, sont considérés les codes de diagnostics en CIM10, les actes médicaux en CCAM, les prescriptions médicamenteuses en ATC et les actes de biologie en NABM, soit 980 millions au total. Le nombre de codes rubriques distincts est 4739. L’approche retenue est une implémentation de word2vec factorisant la matrice de co-occurrences des codes dans une fenêtre glissante de 60jours. Pour chaque code distinct, un vecteur de dimension 150 est calculé (« embedding »). Cela permet de calculer des distances entre codes.
Résultats |
Pour évaluer l’utilité de ces représentations, deux approches qualitatives ont été menées :
– projection en deux dimensions des vecteurs de coordonnées des 4739 codes : mise en évidence de groupes d’évènements reflétant le traitement d’une pathologie ;
– les proximités entre divers codes sont étudiées par ordre décroissant de distance. Par exemple, pour l’insuffisance cardiaque (I50), le code le plus proche est un code diagnostic de fibrillation et flutter auriculaires (I48), le médicament le plus proche est un antiarythmique, l’amiodarone (C01BD01), l’acte le plus proche est l’échographie du cœur (sous-chapitre 04.01.03.01), le code NABM le plus proche est le dosage de la digoxine (327).
Discussion/conclusion |
Cette première application de représentation des informations médicales du SNDS semble prometteuse pour décrire les liens entre les codes. Les travaux sont poursuivis pour tester en particulier l’effet de la taille de la fenêtre d’observation, le niveau d’agrégation des codes, la pondération des décomptes. Les résultats seront mis en ligne.
Le texte complet de cet article est disponible en PDF.Plan
Vol 68 - N° S1
P. S35 - mars 2020 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.