Indexation automatique de documents en santé : évaluation et analyse de sources d’erreurs - 06/12/12

Automatic indexing of health documents in French: Evaluating and analysing errors

Doi : 10.1016/j.irbm.2012.10.002

W. Chebil ^a,^b,^⁎ , L.F. Soualmia ^b , B. Dahamna ^b , S.J. Darmoni ^b
^a Unité de recherche MARS, université de Monastir, Monastir, Tunisie
^b Équipe CISMeF, LITIS-TIBS EA 4108, CHU de Rouen, cours Leschevin, porte 21, 3^e étage, 1, rue de Germont, 76031 Rouen cedex, France

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

pages	14
Iconographies	6
Vidéos	0
Autres	0

Résumé

Catalogue et index des sites médicaux de langue française (CISMeF) a été développé pour trouver sur Internet l’information médicale utile destinée aux professionnels de santé, les patients et les étudiants en médecine. Les ressources collectées sont indexées manuellement, semi-automatiquement ou automatiquement. Actuellement, la fonction d’indexation automatique de CISMeF indexe qu’une partie des ressources qui sont jugées les moins importantes.

Objectif

L’objectif de ce travail est d’évaluer la fonction d’indexation automatique de CISMeF et analyser les erreurs générées.

Matériel et méthode

Nous avons utilisé 500 recommandations pour évaluer la fonction d’indexation basée dès son implémentation sur l’algorithme de sac de mots. L’index automatique généré est comparé à l’indexation manuelle, considérée ici comme le « gold standard ». Nous étudions l’indexation automatique conjointe des titres et des sous-titres courts, l’indexation automatique conjointe des titres et des sous-titres longs, l’indexation automatique conjointe des titres et des sous-titres courts et longs, puis celle des résumés. Les mesures d’évaluation utilisées sont les mesures classiques de précision, rappel et F-mesure.

Résultats

Les résultats de l’évaluation de l’indexation des titres et des sous-titres courts sont de 0,56 pour la précision et 0,21 pour le rappel. Pour les titres et sous-titres longs, la précision est de 0,39 et le rappel est de 0,27. La précision de l’indexation des résumés est 0,23 et le rappel est de 0,61. Suite à l’analyse des erreurs d’indexation, 13 catégories d’erreurs sont identifiées. L’indexation des titres et sous-titres courts a généré moins d’erreurs qui sont à l’origine de la présence des descripteurs non corrects (0,97 erreurs par titre et sous-titre court). L’indexation des résumés a généré moins d’erreurs qui sont à l’origine de l’absence des descripteurs pertinents (2,52 erreurs par résumé).

Conclusion

L’évaluation de l’indexation automatique a montré qu’elle n’est applicable telle quelle que pour l’indexation des phrases simples et courtes, vu la précision acceptable de l’indexation des titres et sous-titres courts. Nous visons, suite à l’identification des causes des erreurs, qui représente une étape importante vers l’amélioration de la fonction d’indexation, à proposer et implémenter des solutions ce qui permettra d’indexer automatiquement un plus grand nombre de documents en santé.

Le texte complet de cet article est disponible en PDF.

Abstract

Catalogue and Index of French Medical Sites (CISMeF) is developed for retrieving the relevant medical information in the Internet for health professionals, the patients and students in medicine. The gathered resources are manually indexed, semi-automatically indexed or automatically indexed. Actually, the function indexing of CISMeF indexes only a part of resources that are judged the less important.

Objectives

The objective of this work is to evaluate the indexing function developed for CISMeF, and analyse generated errors.

Material and method

We used 500 clinical guidelines for the evaluation of the indexing function, based since his implementation, on the “bag of words” algorithm. The automatic index generated is compared with the manual one which is considered as the “gold standard”. We analyze the automatic indexing of short titles and subtitles associated, the automatic indexing of long titles and subtitles associated, the automatic indexing of long and short titles and subtitles associated and the automatic indexing of abstracts. The measures used for the evaluation are Precision, Recall and F-measure.

Results

The results of the evaluation of the short titles and subtitles indexing are 0.56 for the precision, 0.21 for the recall. For the long titles and subtitles the precision is 0.39, the recall is 0.27. The precision of abstracts indexing is 0.23 and the recall is 0.61. Thirteen categories of errors are identified by analysing the indexing function. The short titles and subtitles indexing generated the less errors leading to the presence of wrong descriptors (0.97 errors per short tiles and subtitles). The long titles and subtitles generated the most errors leading to the absence of relevant descriptors (2.52 errors by long titles and subtitles).

Conclusion

The evaluation of the indexing function showed that it should be used only for short titles and subtitles. We aim, after the identification of the causes of errors, to improve the performance of the automatic indexing function which will allow indexing more medical documents.

Le texte complet de cet article est disponible en PDF.

Plan

Introduction

Matériel et méthode

La fonction d’indexation

Corpus de test

Mesures d’évaluation

Processus d’évaluation

Résultats

Performance de l’indexation automatique des titres, sous-titres et résumés

Analyse des erreurs

Discussion

Conclusion

Export

Vol 33 - N° 5-6

P. 316-329 - décembre 2012 Retour au numéro

Article précédent

Mise en place humaine des systèmes d’information en cancérologie : mesure du degré d’applicabilité des moyens et de désordre (entropie)
J. Béranger, J. Mancini, J.-C. Dufour, P. Le Coz

| Article suivant

Analyse de la taille et de la répartition des glandes coliques en endomicroscopie confocale de fluorescence : une voie prometteuse pour différencier in vivo les grades de néoplasie intra-épithéliale ?
J. Le Meur, F. Cholet, J. Jézéquel, D. Le Mée, M. Robaszkiewicz

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.

Déjà abonné à cette revue ?

connectez-vous ou créez un compte

Indexation automatique de documents en santé : évaluation et analyse de sources d’erreurs - 06/12/12

Automatic indexing of health documents in French: Evaluating and analysing errors

Résumé

Objectif

Matériel et méthode

Résultats

Conclusion

Abstract

Objectives

Material and method

Results

Conclusion

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL