TF.IDF (term frequency – inverse document frequency) est une mesure statistique permettant d’indiquer l’importance d’un mot ou d’une phrase relativement à un document au sein d’une collection de documents.
Le score est proportionnel au nombre d’occurrences du mot dans le document, compensé par la fréquence du mot dans la collection de documents.
Il se calcule en multipliant la “fréquence du terme” (term frequency) du mot apparaissant dans le document et la “fréquence inverse du document” (inverse document frequency) du mot dans l’ensemble des documents.
Il est conçu pour mesurer la pertinence d’un terme pour un document particulier par rapport aux autres documents dans l’ensemble.
Dans les recherches centrées sur les personnes, comme les offres d’emploi, TF.IDF permet d’identifier les mots associés à certains postes ou rôles, afin que les employeurs puissent comparer correctement les CV avec les compétences requises pour le poste.
(Voir également BM25)