S'abonner

Indexation automatique de documents en santé : évaluation et analyse de sources d’erreurs - 06/12/12

Automatic indexing of health documents in French: Evaluating and analysing errors

Doi : 10.1016/j.irbm.2012.10.002 
W. Chebil a, b, , L.F. Soualmia b , B. Dahamna b , S.J. Darmoni b
a Unité de recherche MARS, université de Monastir, Monastir, Tunisie 
b Équipe CISMeF, LITIS-TIBS EA 4108, CHU de Rouen, cours Leschevin, porte 21, 3e étage, 1, rue de Germont, 76031 Rouen cedex, France 

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

pages 14
Iconographies 6
Vidéos 0
Autres 0

Résumé

Catalogue et index des sites médicaux de langue française (CISMeF) a été développé pour trouver sur Internet l’information médicale utile destinée aux professionnels de santé, les patients et les étudiants en médecine. Les ressources collectées sont indexées manuellement, semi-automatiquement ou automatiquement. Actuellement, la fonction d’indexation automatique de CISMeF indexe qu’une partie des ressources qui sont jugées les moins importantes.

Objectif

L’objectif de ce travail est d’évaluer la fonction d’indexation automatique de CISMeF et analyser les erreurs générées.

Matériel et méthode

Nous avons utilisé 500 recommandations pour évaluer la fonction d’indexation basée dès son implémentation sur l’algorithme de sac de mots. L’index automatique généré est comparé à l’indexation manuelle, considérée ici comme le « gold standard ». Nous étudions l’indexation automatique conjointe des titres et des sous-titres courts, l’indexation automatique conjointe des titres et des sous-titres longs, l’indexation automatique conjointe des titres et des sous-titres courts et longs, puis celle des résumés. Les mesures d’évaluation utilisées sont les mesures classiques de précision, rappel et F-mesure.

Résultats

Les résultats de l’évaluation de l’indexation des titres et des sous-titres courts sont de 0,56 pour la précision et 0,21 pour le rappel. Pour les titres et sous-titres longs, la précision est de 0,39 et le rappel est de 0,27. La précision de l’indexation des résumés est 0,23 et le rappel est de 0,61. Suite à l’analyse des erreurs d’indexation, 13 catégories d’erreurs sont identifiées. L’indexation des titres et sous-titres courts a généré moins d’erreurs qui sont à l’origine de la présence des descripteurs non corrects (0,97 erreurs par titre et sous-titre court). L’indexation des résumés a généré moins d’erreurs qui sont à l’origine de l’absence des descripteurs pertinents (2,52 erreurs par résumé).

Conclusion

L’évaluation de l’indexation automatique a montré qu’elle n’est applicable telle quelle que pour l’indexation des phrases simples et courtes, vu la précision acceptable de l’indexation des titres et sous-titres courts. Nous visons, suite à l’identification des causes des erreurs, qui représente une étape importante vers l’amélioration de la fonction d’indexation, à proposer et implémenter des solutions ce qui permettra d’indexer automatiquement un plus grand nombre de documents en santé.

Le texte complet de cet article est disponible en PDF.

Abstract

Catalogue and Index of French Medical Sites (CISMeF) is developed for retrieving the relevant medical information in the Internet for health professionals, the patients and students in medicine. The gathered resources are manually indexed, semi-automatically indexed or automatically indexed. Actually, the function indexing of CISMeF indexes only a part of resources that are judged the less important.

Objectives

The objective of this work is to evaluate the indexing function developed for CISMeF, and analyse generated errors.

Material and method

We used 500 clinical guidelines for the evaluation of the indexing function, based since his implementation, on the “bag of words” algorithm. The automatic index generated is compared with the manual one which is considered as the “gold standard”. We analyze the automatic indexing of short titles and subtitles associated, the automatic indexing of long titles and subtitles associated, the automatic indexing of long and short titles and subtitles associated and the automatic indexing of abstracts. The measures used for the evaluation are Precision, Recall and F-measure.

Results

The results of the evaluation of the short titles and subtitles indexing are 0.56 for the precision, 0.21 for the recall. For the long titles and subtitles the precision is 0.39, the recall is 0.27. The precision of abstracts indexing is 0.23 and the recall is 0.61. Thirteen categories of errors are identified by analysing the indexing function. The short titles and subtitles indexing generated the less errors leading to the presence of wrong descriptors (0.97 errors per short tiles and subtitles). The long titles and subtitles generated the most errors leading to the absence of relevant descriptors (2.52 errors by long titles and subtitles).

Conclusion

The evaluation of the indexing function showed that it should be used only for short titles and subtitles. We aim, after the identification of the causes of errors, to improve the performance of the automatic indexing function which will allow indexing more medical documents.

Le texte complet de cet article est disponible en PDF.

Plan


© 2012  Elsevier Masson SAS. Tous droits réservés.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 33 - N° 5-6

P. 316-329 - décembre 2012 Retour au numéro
Article précédent Article précédent
  • Mise en place humaine des systèmes d’information en cancérologie : mesure du degré d’applicabilité des moyens et de désordre (entropie)
  • J. Béranger, J. Mancini, J.-C. Dufour, P. Le Coz
| Article suivant Article suivant
  • Analyse de la taille et de la répartition des glandes coliques en endomicroscopie confocale de fluorescence : une voie prometteuse pour différencier in vivo les grades de néoplasie intra-épithéliale ?
  • J. Le Meur, F. Cholet, J. Jézéquel, D. Le Mée, M. Robaszkiewicz

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.

Déjà abonné à cette revue ?

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.