Description standardisée du processus d'extraction de caractéristiques afin d'améliorer la réutilisation des données - 24/02/23

Résumé |
Introduction |
Malgré les nombreuses possibilités qu'offre la réutilisation des données, sa mise en œuvre présente de nombreuses difficultés, et les données brutes ne peuvent pas être réutilisées directement. Les informations ne sont pas toujours directement disponibles dans la base de données source et doivent être calculées a posteriori. L'objectif principal de cette étude est de présenter une description standardisée des étapes et des transformations nécessaires lors du processus d'extraction de caractéristiques.
Méthodes |
Cette étude a comporté les deux étapes suivantes: (1) la collecte de cas d'étude pertinents liés à l'extraction de caractéristiques; (2) la description normalisée des données brutes, des étapes et des transformations, qui étaient communes aux cas d'étude.
Résultats |
Nous avons interrogé 10 chercheurs de trois hôpitaux universitaires français et de la Haute Autorité de santé, qui ont participé à huit études rétrospectives et observationnelles. Sur la base de ces études, deux états (piste et caractéristique) et deux transformations (la définition de pistes et l'agrégation de pistes) ont émergé. La "piste" est un signal ou une période d'intérêt dépendant du temps, défini par une unité statistique, une valeur et deux jalons (un événement de début et un événement de fin). La "caractéristique" est une information de haut niveau indépendante du temps, de dimension identique à l'unité statistique de l'étude, définie par un label et une valeur. La dimension temporelle est devenue implicite dans la valeur ou le nom de la variable.
Discussion/Conclusion |
Nous proposons une description standardisée du processus d'extraction de caractéristiques. Ce processus combine les deux étapes de définition et d'agrégation des pistes. En divisant l'extraction de caractéristiques en ces deux étapes, la difficulté a été gérée lors de la définition des pistes. La standardisation des pistes nécessite une grande expertise au niveau des données, mais permet l'application d'un nombre infini de transformations complexes. Au contraire, l'agrégation des pistes est une opération très simple avec un nombre fini de possibilités. Une description complète de ces étapes pourrait améliorer la reproductibilité des études rétrospectives.
Mots-clés |
Réutilisation de données ; Base de données ; Entrepôt de données ; OMOP ; Caractéristique
Déclaration de liens d'intérêts |
Les auteurs déclarent ne pas avoir de liens d'intérêts.
Le texte complet de cet article est disponible en PDF.Vol 71 - N° S1
Article 101465- mars 2023 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.