S'abonner

Description standardisée du processus d'extraction de caractéristiques afin d'améliorer la réutilisation des données - 24/02/23

Doi : 10.1016/j.respe.2023.101465 
A. Lamer 1, , M. Fruchart 1, N. Paris 2, B. Popoff 3, A. Payen 1, T. Balcaen 4, W. Gacquer 5, M. Cuggia f, M. Doutreligne g, E. Chazard 1
1 Uniersité de. Lille, CHU Lille, ULR 2694 - METRICS: Évaluation des technologies de santé et des pratiques médicales, Lille, France 
2 InterHop, Rennes, France 
3 Département d'anesthésie et réanimation, CHU Rouen, Rouen, France 
4 Département de l'information médicale, CHU Amiens, Amiens, France 
5 Direction du système d'information, CHU d'Amiens, Amiens, France 
f Institut national de la santé et de la recherche médicale (Inserm), LTSI-UMR 1099, Université de Rennes, CHU Rennes, Rennes, France 
g Mission Data, Haute Autorité de santé, Saint-Denis, France 

Auteur correspondant

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Malgré les nombreuses possibilités qu'offre la réutilisation des données, sa mise en œuvre présente de nombreuses difficultés, et les données brutes ne peuvent pas être réutilisées directement. Les informations ne sont pas toujours directement disponibles dans la base de données source et doivent être calculées a posteriori. L'objectif principal de cette étude est de présenter une description standardisée des étapes et des transformations nécessaires lors du processus d'extraction de caractéristiques.

Méthodes

Cette étude a comporté les deux étapes suivantes: (1) la collecte de cas d'étude pertinents liés à l'extraction de caractéristiques; (2) la description normalisée des données brutes, des étapes et des transformations, qui étaient communes aux cas d'étude.

Résultats

Nous avons interrogé 10 chercheurs de trois hôpitaux universitaires français et de la Haute Autorité de santé, qui ont participé à huit études rétrospectives et observationnelles. Sur la base de ces études, deux états (piste et caractéristique) et deux transformations (la définition de pistes et l'agrégation de pistes) ont émergé. La "piste" est un signal ou une période d'intérêt dépendant du temps, défini par une unité statistique, une valeur et deux jalons (un événement de début et un événement de fin). La "caractéristique" est une information de haut niveau indépendante du temps, de dimension identique à l'unité statistique de l'étude, définie par un label et une valeur. La dimension temporelle est devenue implicite dans la valeur ou le nom de la variable.

Discussion/Conclusion

Nous proposons une description standardisée du processus d'extraction de caractéristiques. Ce processus combine les deux étapes de définition et d'agrégation des pistes. En divisant l'extraction de caractéristiques en ces deux étapes, la difficulté a été gérée lors de la définition des pistes. La standardisation des pistes nécessite une grande expertise au niveau des données, mais permet l'application d'un nombre infini de transformations complexes. Au contraire, l'agrégation des pistes est une opération très simple avec un nombre fini de possibilités. Une description complète de ces étapes pourrait améliorer la reproductibilité des études rétrospectives.

Mots-clés

Réutilisation de données ; Base de données ; Entrepôt de données ; OMOP ; Caractéristique

Déclaration de liens d'intérêts

Les auteurs déclarent ne pas avoir de liens d'intérêts.

Le texte complet de cet article est disponible en PDF.

© 2023  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 71 - N° S1

Article 101465- mars 2023 Retour au numéro
Article précédent Article précédent
  • Valeur ajoutée des algorithmes de traitement automatique du langage: exemple de la prise en charge du cancer du pancréas à l'Assistance publique-Hôpitaux de Paris
  • S. Priou, G. Lamé, R. Flicoteaux, E. Guével, G. Chatellier, C. Tournigand, E. Kempf
| Article suivant Article suivant
  • Extraction de caractéristiques pour la réutilisation de données: comment les variables seront-elles transformées et analysées ?
  • T. Choteau, A. Lamer, P. Balayé, E. Chazard

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2025 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.