Accueil > Informatique, science de l’information et bibliothéconomie > RIST > Volume 12 > Numéro 02

Similarités entre textes basés sur les noms propres.

Friburger N., Maurel D.

le traitement automatique des langues peut apporter des améliorations
non négligeables à la fouille de textes. Les noms propres ont été
largement étudiés dans le domaine de l’extraction d’information ; nous
pensons qu’ils peuvent aussi jouer un rôle dans les systèmes de recherche
d’information. C’est pourquoi nous proposons de faÎre ressortir les qualités
sémantiques des noms propres à travers une mesure de similarité pour classer
des articles de journaux entre eux. La quantité de noms propres et leur qualité
informationnelle dans ce type de textes les rend pertinents pour améliorer la
classification non supervisée grâce à une mesure de similarité qui les met en
valeur par rapport aux autres mots d’un texte. L’hypothèse de l’importance
des noms propres présents dans un texte pour le classer semble prometteuse.
Dans cet article, nous présentons la tâche Mue relative à l’extraction des
entités nommées (dont les noms propres font parti} et notre système
d’extraction et de catégorisation des noms propres. Dans une deuxième
partie, nous proposons les mesures de similarité à base de noms propres que
nous avons créées et testées. Enfin, nous expliquons comment nous avons
procédé pour comparer les différentes classifications hiérarchiques obtenues
avec nos mesures de similarité et nous décrivons les résultats obtenus.