Tutoriel d’analyse des fonctionnalités avancées de Gephi, via #ADP2014

Le hashtag #ADP2014 correspond aux échanges qui ont eu lieu entre le 10 mars 2014 et le 14 mars 2014 durant les intercessions de Bonn de la Conférence pour le Climat. Nous avons collecté 3573 tweets envoyés par 1400 comptes twitter, de personnes du monde entier. C’est un réseau très interconnecté : 32 communautés ont été identifiées via l’algorithme Louvain de Gephi.

Nous allons voir ici comment calculer quatre éléments importants de l’analyse des réseaux sociaux. Vous pouvez utiliser le fichier graphml des tweets pour vous entrainer également :

–          Le degré, en précisant les degrés sortants et entrants, qui correspond aux nombres de mentions et tweets d’un compte. Plus la valeur du degré est haute, plus le compte a été visible sur les réseaux sociaux ;

–          L’intermédiarité, qui correspond à la recherche des connecteurs entre les communautés. Les comptes correspondant ne sont pas forcément les plus influents, mais ils sont indispensables pour faire circuler une information ;

–          La centralité Eigenvector, qui détermine les comptes les plus influents, c’est-à-dire dont les messages vont atteindre le plus de personnes ;

–          Le PageRank, qui détermine l’importance d’un compte au sein du réseau.

Gephi permet d’une part d’obtenir un classement pour chacune de ces valeurs, mais également de visualiser les résultats par une cartographie.

Le calcul du degré

Pour obtenir le résultat et le classement, il faut suivre la démarche suivante (une fois suivies les étapes du premier tutoriel) :

cal_gephi_1A noter que pour les autres analyses, on utilisera toujours la même boite de dialogue, en choisissant le type de calcul via le chemin de la flèche 2, et en affichant le classement complet via le chemin indiqué par la flèche 3.

On obtient donc le classement suivant : @un_climatetalks (928 mentions et tweets), @irena_org (185), @duycks (133), @cfigueres (130), @rtcc_sophie (117), @earthinbrackets (112), @yebsano (111), @marinabodescu (98). On peut ensuite visualiser via la prévisualisation le résultat (en choisissant ici une taille des labels proportionnelle au degré, police arial 8).

01_ADP2014_degre_totalOn peut ensuite comparer les degrés entrants (mentions) et sortants (tweets envoyés) :

Classement degrés sortants :

cal_gephi_2Classement degrés entrants :

cal_gephi_3On constate donc un changement selon que l’on parle des mentions ou des tweets envoyés (carte extraite ici) :

02_ADP2014_degres_sortantsLe calcul de l’intermédiarité

Le calcul de l’intermédiarité nous permet d’afficher les nœuds qui sont au cœur des flux d’informations. En l’occurrence, cela signifie que c’est par eux que transitent les tweets. Ils sont indispensables pour diffuser l’information au sein du réseau.

cal_gephi_4Pour afficher les résultats de ce calcul, on utilise l’option « Plus courts chemins » dans la fenêtre « Statistiques » à droite de l’écran. A noter que cette option calcule également la proximité des comptes twitter. On obtient ensuite un résultat affiché près de l’onglet « Plus courts chemins » de 3,318 qui correspond à la distance moyenne entre les comptes twitter – ce qui confirme l’hypothèse de début que les utilisateurs du hashtag #ADP2014 forment une petite communauté.

cal_gephi_5Les comptes « connecteurs » sont donc dans l’ordre @un_climatetalks, @marinabodescu, @earthinbrackets, @rtcc_sophie, @cansouthasia, @mattias_s, @climatejustinfo, @duycks

Ce qui nous donne cette représentation graphique :

03_ADP2014_intermediarite Le calcul de la centralité Eigenvector

Une autre mesure intéressante des réseaux twitter est la connexion des comptes twitter influents à d’autres comptes twitter influents. Le résultat permet d’identifier les leaders du réseau, ceux qui donnent le plus de “portée” à leurs messages, à travers leur réseau et les réseaux de leurs réseaux.

cal_gephi_6cal_gephi_7Les influenceurs identifiés pour #ADP2014 sont donc dans l’ordre @un_climatetalks, @cfigueres, @yebsano, @rtcc_sophie, @irena_org, @rtccnewswire, @marinabodescu, @climatejustinfo, @duycks.

04_ADP2014_influenceursNb : Pour le calcul du PageRank, il faut installer le module complémentaire « SNAMetrics Plugin »

cal_gephi_8 Calcul du PageRank

Le PageRank est une mesure de l’influence d’un compte dans le réseau. Il permet de classer les comptes en fonction de la probabilité d’arriver dessus en suivant les tweets #ADP2014.

cal_gephi_9On va ainsi obtenir un classement légèrement différent des précédents qui se recoupaient plus ou moins :

cal_gephi_10Avec @un_climatetalks, @cfigueres, @halldorth, @marchildonsarah, @irena_org, @un, @yebsano, @rtcc_sophie, @rtccnewswire

Et une carte dont les équilibres ont changé :

05_ADP2014_pagerankAuteur : Guillaume Sylvestre, consultant à l’ADIT

Etudiant