Clustering sémantique sur internet

[travail en cours d'élaboration]

L’objet de ce travail est la mise au point d’un processus de nettoyage du bruit autour d’une requête puis de l’extention de cette requête via l’exploration d’un réseau sémantique donné. Après un certain nombre d’itérations menées sous le contrôle de critères de convergence sémantique et au regard d’un référentiel sémantique donné [ie un thésaurus correspondant à l'extension de l'objet de la requête] on débouche sur un certain nombre de clusters cohérents … dont on espère qu’un au moins relève de la question posée à l’origine par l’opérateur.

Le processus est apprenant, en effet, après élimination des clusters non adaptés et valorisation des clusters adaptés le calibrage local du processus peut s’améliorer. De plus on mémorise le réseau sémantique qui s’est avéré efficace et on sera a même d’effectuer plus tard la même requête et de comparer l’évolution du résulat dans le temps.

Dans le cadre de l’Intelligence Economique et Concurrentielle, il est très important de disposer de protocoles de requête reproductibles sur le web, le web invisible, et  ses bases de donnée textuelles propres. Dans les systèmes de GED, on possède déjà des notions de ‘topics’, mais ces notions sont données ‘à priori’, et ne s’adapte pas facile à des contextes mouvants. L’ambition de cette recherche est de contribuer à trouver une solutin à ce problème.