Les archives de FluxBB.fr
Vous n'êtes pas identifié(e).
MPok vient de m'expliquer à quoi servait le fichier stopwords.txt, je n'avais aucune idée de ce à quoi il pouvait bien servir. Suite à ses explications j'ai rapidement fait un tour sur le Web pour voir ce que je pouvais y trouver à ce sujet. Quelqu'un d'autre aurait-il une autre source ? Sinon, on va attendre que Mpok nous livre sa liste, on pourra discuter à partir de ça
!
[edit]
Ah ben tiens, vin100 avait déjà proposé des "mots vides" : http://www.punbb.fr/forums/viewtopic.ph … 724#p67724 
En supprimant les mots de moins de 3 lettres comme le propose MPok et les mots qui n'existent pas comme "étée" on pourra avoir quelque chose d'assez intéressant je pense...
[/edit]
[edit2]
J'ai trouvé d'autres choses encore :
* Un sujet sur les forums Webrankinfo
* Ceux utilisés par Google (semblerait-il, source non officielle)
* Une vieille liste sur le site dot-seo (à réviser également...)
* Sur wikimédia (basé sur le site ranks.nl)
[/edit2]
Dernière modification par jojaba (28-03-2010 15:35:09)
Plume CMS - le système de gestion de contenu léger mais puissant !
Localiser des extensions Mozilla sur BabelZilla
PluXml blog ou cms sans base de données, facile à installer, à modifier, à utiliser.
Hors ligne
Bonjour,
La liste des mots d'un fichier stopwords.txt peut, bien sûr, comporter une partie commune pour tous les forums, mais AMHA, elle dépend beaucoup du forum sur lequel elle est et des « particularités » des utilisateurs dudit forum.
par exemple, sur mon forum, je termine toujours mes contributions par
Cordialement
Dominique
Donc, ces deux mots font partie de la liste, tout comme les mots, qui, vu les sujets du forum, se retrouvent dans plus de 70% des contributions et qui, en recherche, ne sont absolument pas significatifs.
Pour un Administrateur de forum, cette liste est évolutive et les résultats sont visibles en regardant les tailles des tables search_matches et search_words, bien sûr, après une ré-indexation.
Rien n'empêche de faire des essais en local pour voir.
C'est un peu comme pour les index de MySQL qui sont un sujet paradoxal. Ils sont absents de la théorie relationnelle et de la norme SQL. Invisibles à l'utilisateur, ils sont pourtant omniprésents dans toute base de donnée relationnelle.
Ce n'est pas parce que l'erreur se propage qu'elle devient vérité. Gandhi
Sont différents : ça et sa - est et ait - à et a - ce et se - mes et mais ou met - été et était - c'est et ces - ce-si et ceci
La vie sans musique est tout simplement une erreur, une fatigue, un exil. Friedrich Nietzsche
Hors ligne