Introduction à la cartographie de communautés twitter

Outils nécessaires :

–          Un compte twitter

–          NodeXL, template excel, pour « aspirer les tweets » ou Visibrain (outil payant) si vous souhaitez avec l’exhaustivité (passer à la partie 3 du tutoriel)

–          Gephi, outil de cartographie utilisant Java, pour visualiser les communautés twitter

–          Les outils de recherche sur twitter

Premier exemple : Cartographier une communauté autour d’un hashtag

Dans notre exemple, nous allons profiter de la dynamique des élections municipales sur les réseaux sociaux pour cartographier les utilisateurs de twitter qui communiquent sur cette élection. Pour ce faire, nous allons identifier les hashtags en lien avec ce sujet. Pourquoi les hashtags et pas simplement les mots-clés ? Les hashtags sont utilisés pour mettre en avant une information et la rendre plus visible : il sera donc plus simple d’identifier les communautés des utilisateurs les plus engagés, notamment les influenceurs sur ce sujet.

  1. Identifier les hashtags correspondant à la recherche « municipales angers »

On pourrait effectuer une recherche sur twitter, mais le site Topsy permet également de visualiser le volume de données correspondant aux hashtags. En faisant la recherche « municipales angers » sur les tweets via Topsy, on va identifier les hashtags #mun49000 et #angers parmi les plus utilisés. Sur la dernière semaine, il y en a eu 1700 avec cette mention, c’est un bon corpus :

 intro_twitter_1

  1. Aspirer les tweets via NodeXL

Une fois le template excel installé, le lancer via le lien « NodeXL Template ». NodeXL ne modifie pas excel, il n’est donc accessible qu’en utilisant son lien. Une fois lancé, sélectionner la boite à outil « NodeXL » et aller sur l’onglet « import » pour importer les données.

 intro_twitter_2

Nous cherchons à importer les tweets correspondant à la recherche twitter « #angers #mun49000 ». Nous allons donc choisir l’option « From Twitter Search Network ».

 intro_twitter_3

NodeXL étant un outil gratuit, il n’a pas accès à tous les tweets. Il est limité à 18 000 tweets, sur une recherche de 7 jours. Par ailleurs, twitter a introduit une limitation de l’aspiration des tweets. Si un certain quota est dépassé, il faut attendre 15 minutes avant la poursuite de la requête. Cela signifie que pour des recherches incluant la cartographie des liens entre les utilisateurs d’un hashtag, il faut prendre son mal en patience. Comptez 5 heures pour 1000 tweets. Sinon, cela prend seulement quelques minutes. Cette recherche a pris environ 6 heures.

Une fois les tweets collectés, demander leur export au format GraphML

 intro_twitter_4

Mise en garde : twitter ne donne pas accès à toutes ses données aux outils gratuits. La limite de récupération des données varie entre 6 et 9 jours, et dépend du volume total demandé. Pour des demandes correspondant à moins de 1000 tweets, l’exhaustivité ne pose pas de problèmes. Par contre, pour les « trending topics », twitter ne donne accès qu’à une présélection de tweets.

  1. Cartographier les communautés via gephi

Si vous utilisez Visibrain, pour faire votre export de données, il faut aller dans le menu “Data”, puis sélectionner “Users” et enfin “Mention Graph”. Attention, si vous avez beaucoup de mentions, le fichier va prendre du temps à se télécharger. Au delà de 50 000 mentions, il faut demander à Visibrain une extraction spécifique (en indiquant l’URL de votre requête et la période de temps voulue). Le fichier obtenu sera au format DOT.

2015-02-14_1144

Une fois Gephi lancé, aller dans « Fichier » puis « Ouvrir », et sélectionner votre export des données NodeXL ou Visibrain.

 intro_twitter_5

Les 229 nœuds correspondent au nombre de comptes twitter identifiés dans les tweets. Les 7762, aux interactions entre eux et autour des hashtags « #angers #mun49000 ». On obtient ensuite un amas de nœuds, qu’il convient de démêler. Pour ce faire, le menu « Spacialisation », au milieu à gauche, propose différentes options. Je vous invite à toutes les tester, nous allons cette fois-ci utiliser « Force Atlas », avec les réglages suivants :

 intro_twitter_6

La valeur de la force de répulsion dépend de la densité des nœuds et de leurs relations, l’important étant de bien distinguer les nœuds et de pouvoir lire chaque label (qui s’affiche via le « T » en bas de l’écran). La variable d’ajustement par taille permet d’éviter les chevauchements.

On obtient donc une cartographie des relations entre les comptes twitter, lisible et détaillée. Néanmoins, deux informations importantes manquent : d’abord, visualiser les comptes les plus importants, ceux qui sont au cœur de la diffusion des informations sur #angers #mun49000. Ensuite, pouvoir identifier les communautés d’utilisateurs de ces hashtags.

 intro_twitter_7

Les nœuds permettent donc de visualiser l’importance des comptes twitter dans le réseau #angers #mun49000 : plus un nœud est gros, plus le compte twitter associé est influent sur ce sujet. Par ailleurs, plus les traits sont visibles entre un nœud et ceux qui l’entourent, plus le compte associé est influent par rapport à ceux qui l’entourent.

 intro_twitter_8

Pour détecter et mettre en évidence les communautés, il faut utiliser l’algorithme de modularité, disponible sur le panneau au milieu à droite de l’écran. Le paramètre par défaut permet d’identifier 4 communautés, c’est un chiffre raisonnable. Si vous le trouvez trop grand ou trop petit, vous pouvez jouer sur la « résolution » pour changer le nombre de communautés. Le calcul est basé sur les relations entre les nœuds.

 intro_twitter_9

On obtient ensuite via le choix « Modularity Class » dans « Partition » et « Nœuds » l’affichage des communautés. Les quatre couleurs sont choisies par défaut, il est possible de les changer. En exécutant, elles s’affichent sur les nœuds. Il ne reste plus qu’à visualiser et à exporter la cartographie.

 intro_twitter_10

On obtient ainsi la carte suivante en cliquant sur « Rafraichir », puis en allant dans « Aperçu » :

 intro_twitter_11

Seules deux communautés de militants sont assez actives pour être identifiées : les supporteurs du maire Frédéric Béatse, en vert ; les soutiens de son challengeur Christophe Béchu, en rouge.

Pour la carte complète : http://www.flickr.com/photos/110207842@N02/12986442103/

Merci pour votre intérêt ! Nous reviendrons sur le sujet plus tard, tant les applications sont nombreuses : identifier les communautés autour d’une marque, visualiser les influenceurs en temps réel lors d’une campagne sur les réseaux sociaux, savoir qui propage des informations négatives / positives.

Pour aller plus loin sur gephi, vous pouvez consulter les tutoriaux en ligne (en anglais) : http://gephi.org/users/quick-start/

 Auteur : Guillaume Sylvestre, consultant à l’ADIT

Etudiant