Logo du site
  • English
  • Français
  • Se connecter
Logo du site
  • English
  • Français
  • Se connecter
  1. Accueil
  2. Université de Neuchâtel
  3. Publications
  4. Variations autour de tf idf et du moteur Lucene
 
  • Details
Options
Vignette d'image

Variations autour de tf idf et du moteur Lucene

Auteur(s)
Savoy, Jacques 
Institut d'informatique 
Dolamic, Ljiljana
Date de parution
2008
In
Actes 9e journées Analyse statistique des Données Textuelles JADT 2008, Laboratoire ICAR - ENS-LSH, 2008///1047-1058
Mots-clés
  • évaluation
  • recherche d’information
  • tf idf
  • Lucene
  • langue française
  • évaluation

  • recherche d’informati...

  • tf idf

  • Lucene

  • langue française

Résumé
A l'aide d’un corpus écrit en langue française et composé de 299 requêtes, cet article analyse et compare l’efficacité du dépistage de diverses stratégies d’indexation et de recherche basées sur le modèle classique « tf idf ». Cette dernière formulation demeure ambiguë et cache diverses variantes possédant des performances différentes, performance mesurée soit par la précision moyenne (MAP) soit par le rang moyen de la première bonne réponse (MRR). Notre analyse confirme que la meilleure efficacité s’obtient par le modèle Okapi. Mais lorsque nous sommes dans des contextes particuliers (e.g., systèmes distribués) dans lesquels la valeur de l’idf n’est pas connue lors de l’indexation des documents, nous démontrons que des stratégies simples, basées uniquement sur la fréquence d’occurrence (ou tf) permettent d’obtenir une performance significativement meilleure que le modèle classique « tf idf ». En utilisant le moteur Lucene (logiciel libre), nous avons également évalué deux de ses facettes, à savoir l’accroissement d’importance attachée aux mots des titres et la prise en compte du nombre de termes en commun entre le document dépisté et la requête., This paper evaluates and compares the retrieval effectiveness resulting from various models derived from the classical tf idf paradigm when searching into a test-collection written in the French language (CLEF, 299 queries). We show that the simple paradigm “tf idf” may hide various formulations providing different retrieval effectiveness measured either by the mean average precision (MAP) or the mean reciprocal rank (MRR). Our analysis demonstrates that the best retrieval performance can be obtained from applying the Okapi probabilistic model. However, when faced with particular contexts (e.g. distributed IR) where the idf value cannot be obtained during the indexing process, we demonstrated that a simple indexing scheme (based only the frequency of occurrence or tf) may produce a significantly better performance than the classical « tf idf » model. Using the Lucene search engine, we also analyze and evaluate two particular features of this open-source system (namely the boost and coordinate level match).
Identifiants
https://libra.unine.ch/handle/123456789/14360
Autre version
http://jadt2008.ens-lsh.fr
Type de publication
journal article
Dossier(s) à télécharger
 main article: Savoy_Jacques_-_Variations_autour_de_tf_idf_du_moteur_Lucene_20100224.pdf (473.35 KB)
google-scholar
Présentation du portailGuide d'utilisationStratégie Open AccessDirective Open Access La recherche à l'UniNE Open Access ORCIDNouveautés

Service information scientifique & bibliothèques
Rue Emile-Argand 11
2000 Neuchâtel
contact.libra@unine.ch

Propulsé par DSpace, DSpace-CRIS & 4Science | v2022.02.00