La difficulté que nous adressons ici est basique : comment identifier des signaux faibles sur des réseaux sociaux comportant de grands volumes d’information et une grande variété sémantique ?
Position du problème
Les relations entre les acteurs d’un réseau social ou les relations entre les acteurs et les différents objets manipulés dans le réseau (liens, videos …) révèlent partiellement les représentations mentales des acteurs. En effet, les acteurs du réseau organisent l’information d’une façon accordée à leurs schémas habituels de classification, d’autant plus que les relations sont parfois annotées (j’aime …, je n’aime pas, j’utilise, j’ai trouvé …).
Ces mécanismes deviennent donc en parti prédictibles (au travers de l’identification de patterns, ou au travers d’études statistiques). Pour autant l’analyse des patterns est souvent entachée d’un biais lié aux rigidités du média internet (l’outil restreint la capacité d’expression, considérons l’exemple de Twitter).
On peut constater que le réseau social indexe des données relativement statiques (les constats, les opinions, les goûts …) et des données très dynamiques (les informations: il y a une heure il s’est passé ceci, j’ai appris que …). Le praticien de l’IEC est partiellement intéressé par la les données statiques, qui relèvent de la tendance, du marketing, de la psychologie, de la sociologie …. En effet l’analyse de ces données « statiques » lui fournit un contexte, un fond de carte qui lui permettra de mettre en perspective ses futures analyses. Mais ce praticien doit naturellement se concentrer sur les données les plus dynamiques pour accroître la valeur ajoutée de sa veille.
Réponse opérationnelle
Parmi les différentes méthodes d’analyse des réseaux sociaux que nous avons travaillées ces deux dernières années (en particulier au travers de travaux d’encadrement d’étudiants en Business Intelligence), nous avons identifié une méthode très prometteuse et triviale dans son implémentation :
1) Effectuer régulièrement une requête sur un réseau social x
2) Eliminer toutes les données communes entre les résultats de ces requêtes successives (élimination des données structurellement statiques)
3) Sur les données restantes: Identification et séparation de 3 types d’attributs verbaux annotant les données :
- Factif ( c’est un …)
- Déclaratif (je pense, je dis que, j’aime …)
- Actif ( untel fait ceci, untel a fait cela, untel fera cela …)
4) Extraction des assertions comportant à la fois des termes « déclaratif » + « actif »
On obtient ainsi la liste de toutes les « news » ayant trait à notre requête de base et qui ont retenu l’attention des acteurs du réseau social x.
Dès ce stade l’information obtenue est intéressante à exploiter.
Mais cette méthode n’exploite pas l’information disponible sur la structure des schémas de classifications propre aux acteurs tels que nous l’évoquions en début de l’article. Tant que la filtration des données n’avait pas été effectuée, il était illusoire de parcourir le graphe des différentes assertions de tous les acteurs: il y avait trop de données à analyser. A l’inverse, après avoir drastiquement nettoyé l’information il devient maintenant possible de tracer quelque graphes simples centrés autours des acteurs, et ce uniquement sur les données résultants de la filtration … L’analyse de ces graphes facilite alors l’interprétation du praticien, d’autant plus qu’il a alors l’opportunité d’identifier des similitudes entre ces graphes.
Travaux futurs
Il faut maintenant formaliser l’expertise des praticiens lors de l’interprétation de graphes afin de classifier ceux-ci et lui proposer en priorité les graphes sur lesquels l’interprétation est la plus facile.
Pour en savoir plus :
O. Glasse :,Folksonomies: Spontaneous crowd sourcing with online early detection potential? Futures (2011)
H. Laude : http://fr.slideshare.net/ldhnr/apiec-scip-signaux-faibles
Henri Laude - Président de l’APIEC, chapitre français de SCIP