Skip to content

Les mots du moment : la peur et la colère

23 septembre 2013

J’ai négligé ce blog depuis quelques mois, ayant été accaparé par divers projets, notamment par la rédaction d’un petit ouvrage sur le sentiment analysis à paraitre prochainement. Mais je reprend maintenant le fil , avec de nouvelles idées.

Quels sont les mots du moment, dans le contexte de la vie politique française ? C’est une nouvelle rubrique que j’ai envie de démarrer…De temps en temps,  je vais essayer de trouver quels mots, dans un champ sémantique donné, ont été les plus marquants sur Internet par rapport à une sphère politique donnée.   Quel intérêt ? peut être aucun, ou peut-être un façon de regarder l’actualité d’un autre oeil,  et surtout  parce que c’est  un moyen de jouer avec des outils de web mining, text mining et autres outils de TAL  qui sont les sujets qui m’intéressent.

Pour la rédaction de ce billet, j’ai utilisé deux outils : une plateforme de veille d’une part, en l’occurrence Talkwalker que j’avais déjà utilisée pour d’autres posts, et la plateforme NOOJ comme outil d’analyse linguistique.

Émotions et sentiments dans le monde politique

Le « sentiment analysis » est devenu depuis quelques mois un sujet chaud dans le monde du big data, de la veille et de l’eRéputation, avec un intérêt croissant de la part des gens de marketing ou de communication. Mais quand on regarde l’état actuel de l’offre, force est de constater une grande disparité, à la fois dans les approches et dans la qualité des résultats. Le premier flou se constate rapidement dans les terminologies utilisées : sentiments, tonalités, avis, émotions, etc.

Pour tenter d’y voir plus clair, on peut, sans obligatoirement remonter à Descartes, déjà reprendre les distinctions classiques, notamment telles que les décrivent les psychologues, entre émotions et sentiments. On recense généralement quelques émotions « de base » comme la joie, la tristesse, la peur, la colère, le dégoût, la surprise, variant entre 5 et 10 selon les auteurs.   Une caractéristique des émotions est leur relative brièveté, notamment par rapport aux sentiments, parfois vus comme des émotions qui durent : l’amour, l’angoisse, la haine. Par extension, les système de sentiment analysis  considèrent souvent que « le fait d’aimer quelque chose »  ou que « cet objet fonctionne correctement » sont des  « sentiments », ce qui est clairement un abus de langage au moins dans ce deuxième cas.

S’il est un monde où les émotions et sentiments, voire les passions, vues comme des sentiments exacerbés, sont omniprésents, c’est bien celui de la politique. De plus, c’est un domaine que tout le monde comprend, sur lequel circulent des masses de commentaires de toutes sortes et dans des niveaux de langue très variés. Cas intéressant donc, car si on arrive à quelques résultats dans un domaine complexe comme celui-là, on a de bonnes raisons de penser que ce sera a fortiori possible dans des domaines plus simples, et plus solvables, comme l’analyse des avis de consommateurs.

En utilisant la plateforme Talkwalker, il est aisé de recueillir un corpus de taille significative: un sourcing réalisé sur tous les médias disponibles (twitter, news, blogs, etc.) à partir de mots-clés constitués par les noms des principales personnalités politiques ( membres du gouvernement, chefs de parti ) et noms de partis (UMP, PS, etc.) permet de ramasser environ un million de messages sur un mois.

Dans ce premier billet, on reste centré sur les émotions, la liste retenue étant la joie, la peur, la colère, la tristesse et le dégoût, ce qui délimite un corpus d’un peu plus de 20.000 messages:

emotions graphe talkwalker

Les deux émotions qui dominent la période du 20 août au 20 septembre sont nettement la peur et la colère. Un premier zoom sur le pic du 5 septembre sur « peur » montre qu’il est dû à un afflux de messages commentant l’agression à l’hôpital de Marseille pour laquelle les victimes n’ont pas porté plainte « par peur des représailles » :

peur représailles

Pour le deuxième pic, sur colère le 9 septembre, on voit en parcourant les messages que plusieurs événements ont coïncidé : la colère des agriculteurs et éleveurs manifestée au salon de élevage à Rennes, celle d’ EELV à propos du budget,   celle des pharmaciens mécontents d’une possible fin de leur monopole sur la vente des tests de grossesse, colère des militants UMP devant la guerre des chefs à la tête de leur parti, etc.

colère Talkwalker

La plupart des plateformes de veille ou de eRéputation proposent des outils d’analyse thématique, qui visent à présenter, souvent à travers des « tags clouds » les principaux thèmes associés à une recherche. Ces outils sont très utiles pour une première analyse « en grandes mailles ». Mais pour une analyse plus fine, si le besoin s’en fait sentir, il faut passer à une une autre gamme d’outils, basés sur de l’analyse linguistique des contenus. Dans le cas présent, comme d’ailleurs sur la plupart des plateformes, il est facile de faire un export des résultats, en l’occurrence les quelque 20.000 messages retenus après filtrage sur les émotions, vers un fichier externe et d’en faire une analyse plus profonde.

Les quelques exemples suivants illustrent le type d’analyse à réaliser:

Hollande isolement

Hollande Valls

Taubira Valls

La première question qui se pose est d’identifier qui a peur de qui ou de quoi: on sent bien, intuitivement, que sans une analyse syntaxique, on risque de tout mélanger: sur le premier tweet, il faut identifier que c’est Hollande qui a peur, et non Ayrault cité dans le même message, et que l’objet de sa peur est son isolement. Dans le deuxième message, c’est Valls qui est l’objet de la peur, alors que dans le troisième il est celui qui a peur, en l’occurrence de la Droite…alors que ni Estrosi ni Taubira ne sont concernés par cette peur.

L’autre exemple ci-dessous est encore plus évident :

français élites peurs

Faute d’analyse suffisamment fine, tous les contre-sens sont possibles…

Autour du thème de la peur, on peut chercher à identifier: qui a peur , de quoi ou de qui a t-il peur,  quelle est la cause de cette peur ? De même, sur le thème de la colère, on recherche qui est en colère ? contre qui ? pourquoi ?  Dans les deux cas, il pourra être demandé d’identifier le lieu et le moment où se passe l’action.  En fait « the five W and the H » : who, what, why, where, when.

Avec une grammaire développée en utilisant la plateforme NOOJ , on obtient une analyse du tweet précédent:

analyse français elites

On a bien isolé deux parties dans la phrase « Quand les français ont peur des délinquants et du chômage » d’une part avec « français » comme sujet (who) , « peur » comme émotion identifiée, puis « délinquants , chômage » comme les objets de la peur, puis d’autre part « les élites ont peur du Front national » avec « élites » comme sujet, toujours la « peur » comme émotion, et « Front National » comme l’objet de cette peur.

Evidemment, ce type d’approche basée sur le TAL suppose que l’on dispose à la fois de bons dictionnaires et grammaires adaptés au domaine de l’application. L’intérêt d’une plateforme comme NOOJ , accessible en open source sous licence GPL, est qu’elle inclut des dictionnaires généraux très complets, qui sont facilement adaptables au domaine à traiter.    On peut donc développer  rapidement  des grammaires en se concentrant sur le sujet à traiter.

Ces grammaires auront généralement  pour objectif de trouver la même représentation « profonde » pour deux phrases sémantiquement équivalentes, mais ayant des structures sensiblement différentes, comme dans les exemples (rééls) ci dessous:

« Le FN va faire très peur a l’UMP et au PS aux européennes »  à comparer à    « L’UMP craint une forte percée du Front national »

Ayant admis que le verbe « craindre (quelque chose) «  est sémantiquement similaire à « avoir peur (de quelque chose), l’analyse de ces deux phrases donne le même résultat : Sujet = UMP , Emotion = peur , Objet = Front National. Une fois cette représentation construite, il est aisé de la mettre dans une forme plus standard comme une structure XML, ou des triplets RDF, etc

Quelques observations

Une fois ces données extraites par l’analyseur linguistique, leur récupération sous excel permet de faire quelques analyses. Sur le diagramme ci-dessous, on affiche les d’un coté « ceux qui ont peur » et de l’autre « ceux qui font peur » : ce ne sont évidemment pas les mêmes.

diagramme peur

On voit d’ailleurs que peur et colère sont liées: on constate en regardant le diagramme ci dessous qu’on retrouve les écologistes, les éleveurs et les agriculteurs à la fois parmi ceux qui ont peur, et ceux qui sont en colère.

diagramme colère

Un analyseur un peu élaboré permettra également d’identifier les raisons de la colère. Par exemple, ( et en simplifiant) on identifie des structures comme « X verbe-cause émotion de Y »   ou « Y verbe-état émotion de X »   qui permettent d’analyser des phrases comme

(1) « la taxation du diesel provoque la colère des écologistes »

ou  (2) « les écologistes sont en colère contre la taxation du diesel« .

En fait, plus subtilement, on peut faire la différence entre la cause et l’objet de la colère, pour analyser une phrase comme

(3) « la taxation du diesel provoque la colère des écologistes contre le gouvernement » et admettre que si l’analyseur identifie  une cause mais pas d’objet, comme dans la phrase (1) , alors cause et objet sont confondus. C’est cette dernière option que j’ai expérimentée dans mon proto…

A suivre …

About these ads

From → Tous posts

Laisser un commentaire

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 163 autres abonnés

%d blogueurs aiment cette page :