Une liste de mots vides est une liste prédéfinie de mots qui ne seront pas pris en compte au cours des processus de récupération d’information et d’indexation.
Utilisation
L’objectif d’une liste de mots vides (stop list) est d’exclure les mots qui sont si courants et fréquents dans une langue qu’ils n’apportent peu ou pas de valeur dans la distinction d’un document par rapport à un autre.
Opérateurs
Les listes de mots vides contiennent généralement des mots tels que “un,” “une,” “les,” “dans,” “sur,” “de,” et d’autres prépositions, conjonctions et articles. Ces mots n’ont pas une signification en eux-mêmes, et les inclure dans une requête de recherche ou un index contribuerait à générer un grand nombre de résultats de recherche inappropriés.
Traitement du langage
Dans le traitement automatique du langage naturel (TALN), les listes de mots vides sont souvent utilisées pour prétraiter les données textuelles avant des tâches telles que la classification de documents, l’analyse des sentiments ou la modélisation des rubriques.
En supprimant les mots vides d’un document ou d’une œuvre, les mots restants deviennent bien plus riches en informations et cette action permet de révéler les rubriques et les thèmes sous-jacents.