Indexation automatique de documents en santé : évaluation et analyse de sources d’erreurs - 06/12/12
Automatic indexing of health documents in French: Evaluating and analysing errors
pages | 14 |
Iconographies | 6 |
Vidéos | 0 |
Autres | 0 |
Résumé |
Catalogue et index des sites médicaux de langue française (CISMeF) a été développé pour trouver sur Internet l’information médicale utile destinée aux professionnels de santé, les patients et les étudiants en médecine. Les ressources collectées sont indexées manuellement, semi-automatiquement ou automatiquement. Actuellement, la fonction d’indexation automatique de CISMeF indexe qu’une partie des ressources qui sont jugées les moins importantes.
Objectif |
L’objectif de ce travail est d’évaluer la fonction d’indexation automatique de CISMeF et analyser les erreurs générées.
Matériel et méthode |
Nous avons utilisé 500 recommandations pour évaluer la fonction d’indexation basée dès son implémentation sur l’algorithme de sac de mots. L’index automatique généré est comparé à l’indexation manuelle, considérée ici comme le « gold standard ». Nous étudions l’indexation automatique conjointe des titres et des sous-titres courts, l’indexation automatique conjointe des titres et des sous-titres longs, l’indexation automatique conjointe des titres et des sous-titres courts et longs, puis celle des résumés. Les mesures d’évaluation utilisées sont les mesures classiques de précision, rappel et F-mesure.
Résultats |
Les résultats de l’évaluation de l’indexation des titres et des sous-titres courts sont de 0,56 pour la précision et 0,21 pour le rappel. Pour les titres et sous-titres longs, la précision est de 0,39 et le rappel est de 0,27. La précision de l’indexation des résumés est 0,23 et le rappel est de 0,61. Suite à l’analyse des erreurs d’indexation, 13 catégories d’erreurs sont identifiées. L’indexation des titres et sous-titres courts a généré moins d’erreurs qui sont à l’origine de la présence des descripteurs non corrects (0,97 erreurs par titre et sous-titre court). L’indexation des résumés a généré moins d’erreurs qui sont à l’origine de l’absence des descripteurs pertinents (2,52 erreurs par résumé).
Conclusion |
L’évaluation de l’indexation automatique a montré qu’elle n’est applicable telle quelle que pour l’indexation des phrases simples et courtes, vu la précision acceptable de l’indexation des titres et sous-titres courts. Nous visons, suite à l’identification des causes des erreurs, qui représente une étape importante vers l’amélioration de la fonction d’indexation, à proposer et implémenter des solutions ce qui permettra d’indexer automatiquement un plus grand nombre de documents en santé.
Le texte complet de cet article est disponible en PDF.Abstract |
Catalogue and Index of French Medical Sites (CISMeF) is developed for retrieving the relevant medical information in the Internet for health professionals, the patients and students in medicine. The gathered resources are manually indexed, semi-automatically indexed or automatically indexed. Actually, the function indexing of CISMeF indexes only a part of resources that are judged the less important.
Objectives |
The objective of this work is to evaluate the indexing function developed for CISMeF, and analyse generated errors.
Material and method |
We used 500 clinical guidelines for the evaluation of the indexing function, based since his implementation, on the “bag of words” algorithm. The automatic index generated is compared with the manual one which is considered as the “gold standard”. We analyze the automatic indexing of short titles and subtitles associated, the automatic indexing of long titles and subtitles associated, the automatic indexing of long and short titles and subtitles associated and the automatic indexing of abstracts. The measures used for the evaluation are Precision, Recall and F-measure.
Results |
The results of the evaluation of the short titles and subtitles indexing are 0.56 for the precision, 0.21 for the recall. For the long titles and subtitles the precision is 0.39, the recall is 0.27. The precision of abstracts indexing is 0.23 and the recall is 0.61. Thirteen categories of errors are identified by analysing the indexing function. The short titles and subtitles indexing generated the less errors leading to the presence of wrong descriptors (0.97 errors per short tiles and subtitles). The long titles and subtitles generated the most errors leading to the absence of relevant descriptors (2.52 errors by long titles and subtitles).
Conclusion |
The evaluation of the indexing function showed that it should be used only for short titles and subtitles. We aim, after the identification of the causes of errors, to improve the performance of the automatic indexing function which will allow indexing more medical documents.
Le texte complet de cet article est disponible en PDF.Plan
Vol 33 - N° 5-6
P. 316-329 - décembre 2012 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.
Déjà abonné à cette revue ?