Usage des métadonnées pour l’analyse des réseaux sociaux via Gephi : l’exemple de la Société Générale

Nous l’avons expliqué dans les précédents tutoriels sur le logiciel de cartographie Gephi : celui-ci permet de visualiser des relations entre des entités, matérialisées par une liste excel et deux colonnes – les lignes représentants chaque relation.

01_filtrage

Dans l’exemple ci-dessus, les relations correspondent aux administrateurs du CAC 40 siégeant dans la même entreprise, eux-mêmes étant l’entité. Mais, pour raffiner l’analyse, on peut ajouter à ces deux colonnes – les deux premières représenteront toujours les relations pour Gephi – toutes données collectées. india . Pour des dirigeants d’entreprise, cela pourra être leur école (ENA, HEC …), leur sexe, leur statut (administrateur indépendant, PDG …). Gephi permettra ensuite de se servir de ses informations pour répartir les données affichées par communauté, ou simplement n’afficher que certains noeuds de la cartographie : les énarques, les femmes …

Avec un peu d’astuce, on peut utiliser les exports de mentions de tweets de NodeXL ou Visibrain en y ajoutant les métadonnées twitter : nombre abonnés, abonnements, listes, langue du compte, localisation éventuelle, bio … pour créer de nouveaux filtres.

Prenons l’exemple du buzz médiatique récent suite aux révélations le dimanche 17 mai de Mediapart sur le procès Kerviel / Société Général. Avec une analyse classique, on peut comparer sur Gephi la cartographie entre les comptes les plus mentionnés (à droite) et les comptes au centre des échanges (à gauche) :

02_filtrage

On en déduira dans une analyse (très) succincte :

  • Que Mediapart, source de l’affaire, est le principal vecteur de sa diffusion ;
  • Jérome Kerviel, très mentionné car cité directement dans les tweets de Mediapart et Edwy Plenel, profite de l’occasion pour communiquer de son côté ;
  • Le compte @sg_etvous, même peu mentionné, est visible en dehors des clients de la Société Générale ;
  • Les politiques Jean-Luc Mélenchon et Eva Joly ne touchent que leurs sympathisants (leur propre communauté), contrairement au porte-parole des Verts Julien Bayou ;
  • L’avocat David Koubbi, qui prend à parti la société générale dans ses tweets, est très central dans les échanges.

Pour aller plus loin, on combinera d’autres filtres (la cartographie des comptes centraux reste à gauche, celle des comptes les plus mentionnés à droite) :

A) Affichage des comptes avec plus de 4000 abonnés

03_filtrage

Ce filtrage permet de faire ressortir certains médias et quelques élus, sans enlever de comptes très mentionnés ou centraux en dehors de @Denisjph2, compte central avec 816 followers.

Cela correspond à la logique de diffusion de cette information : ce sont surtout des médias ou des politiques qui relaient l’information, et qui ont donc déjà de nombreux abonnés.

B) Affichage des comptes listés plus de 500 fois

04_filtrage

Le fait pour un compte twitter d’être présent dans un nombre très important de listes permet de confirmer si des twittos considèrent ses tweets intéressants ou non. Ici, on constate que seuls les comptes de médias restent, en dehors de Jean-Luc Mélenchon, seul politique présent.

La plupart des comptes ayant contribué aux discussions sur la société générale ne sont donc pas forcément jugés pertinents par de nombreux membres de twitter.

C) Affichage des 10 % de comptes géolocalisés à Paris

05_filtrage

 

Cela confirme le caractère très « parisien » de la diffusion de cette information, mais aussi que les politiques nationaux basés sur Paris qui interviennent sur le sujet n’assument pas trop d’y être présent.

Bien entendu, selon les thématiques, l’utilisation des filtres sera plus ou moins pertinente. Le buzz sur la “nouvele” affaire étant ici assuré par des médias et des politiques, ce sont principalement des comptes twitter basés à Paris, étant très listés et ayant beaucoup d’abonnés.

Prenons l’exemple de la polémique sur les frais de taxi de l’INA en affichant la cartographie des comptes les plus mentionnés … :

06_Ina_mentions_sans_filtres

 

 

… puis en la filtrant en ne gardant que les comptes ayant le plus d’abonnés :

07_INA_filtre_3000abonnes

On constate que les seuls comptes restants, ceux des médias, ne sont pas du tout les plus mentionnés sur cette affaire, et sont même éloignés du centre du buzz … Forte audience ne signifie pas capacité d’influence automatiquement !

Admin M2 IESC