gephi Archives - Master Intelligence Economique et Stratégies Compétitives Le Master Intelligence Economique qui combine analyse économique, outils de veille, e-réputation, gestion de crise et big data via une formation sur deux ans. Fri, 26 Feb 2016 13:20:59 +0000 fr-FR hourly 1 Utilisation du logiciel Gephi pour l’analyse cartographique https://master-iesc-angers.com/utilisation-du-logiciel-gephi-pour-lanalyse-cartographique/ Tue, 02 Jun 2015 11:03:15 +0000 http://master-iesc-angers.com/?p=1015 1/ Introduction : Pourquoi cartographier ? 1/A Les outils de collecte des données sur le web et les réseaux sociaux  1/B Les outils de représentation  1/C Introduction à la représentation cartographique : notions de base et vocabulaire 1/D L’interface de Gephi 2/ Quel(s)… Continuer la lecture

L’article Utilisation du logiciel Gephi pour l’analyse cartographique est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
1/ Introduction : Pourquoi cartographier ?

  • 1/A Les outils de collecte des données sur le web et les réseaux sociaux 
  • 1/B Les outils de représentation 
  • 1/C Introduction à la représentation cartographique : notions de base et vocabulaire
  • 1/D L’interface de Gephi

2/ Quel(s) algorithme(s) pour quel(s) objectif(s) de représentation ?

  • 2/A Mettre en avant des divisions entre différentes composantes de la cartographie
  • 2/B Mettre en avant des complémentarités entre les différents éléments de la cartographie
  • 2/C Mettre en avant une logique de classification des éléments du graphique
  • 2/D Autres algorithmes 

3/ Représenter les nœuds en fonction des différents degrés de centralité

  • 3/A Degree centrality = A combien de personnes un compte peut accéder directement ?
  • 3/B Closeness centrality = En combien de temps un compte peut-il toucher l’ensemble du réseau ?
  • 3/C Betweenness centrality (Entremise ?) = Quelle est la probabilité que cette personne soit l’itinéraire le plus direct entre deux personnes dans le réseau ?
  • 3/D « Centralité Eigenvector » = A combien de personnes bien connectées ce compte est-il connecté ?
  • 3/E Modularity class = Identifier les relations entre les nœuds et mettre en avant des communautés
  • 3/F Aller plus loin dans l’analyse en combinant des filtres

4/ SIGMA : L’export analytique et esthétique

1/ Introduction : Pourquoi cartographier ?

La cartographie du web ou des réseaux sociaux s’appuie sur l’idée que les liens créés sur le web entre différents acteurs (sites web, comptes twitter…) peuvent être perçus comme des liens sociaux. D’un point de vue pratique, il s’agit de retracer dans un graphe le réseau créé par les liens hypertextes pour les sites web ou les liens entre les internautes lors d’une discussion sur les réseaux sociaux. La cartographie fait alors apparaître les différentes relations entre les comptes ou sites, le degré d’interaction, d’occurrence, le poids de chacune d’entre elles. La cartographie permet de faire émerger des territoires communautaires en ligne et d’en observer les dynamiques.

Objectifs et enjeux de la cartographie :

  • Explorer les liens sociaux virtuels,
  • Définir le rôle et l’importance de chaque acteur lors d’une discussion sur le web et les réseaux sociaux, au sein d’une ou plusieurs communautés,
  • Détecter les acteurs et comptes influents,
  • Appréhender les comportements d’une communauté en ligne,
  • Anticiper les risques en fonction de l’agenda et des thématiques pouvant mobiliser,
  • Gérer les risques et les attaques sur la réputation en ligne.

1/A Les outils de collecte des données sur le web et les réseaux sociaux 

Pour les cartographies web :

  • l’exploration, les outils les plus employés sont les crawlers. Un crawler est un logiciel qui permet de naviguer dans une série de pages web et de tracer tous leurs liens hypertexte. Les crawlers peuvent être automatiques ou, plus rarement, manuels. En outre, de nouvelles méthodologies ont été récemment développées pour explorer les données des réseaux sociaux en ligne. ➔

Extraction de données pour les réseaux sociaux :

  • le modèle NodelX pour Microsoft Excel 2007, 2010 et 2013, permet la collecte rapide des données de médias sociaux via un ensemble d’outils d’importation qui peuvent recueillir des données sur le réseau de l’e-mail, Twitter, YouTube, Flickr.

Pour Twitter, NodeXL est limité à 18 000 tweets, sur une recherche de 7 jours (maximum théorique, il est rare de dépasser quelques milliers de tweets en pratique). Il faut utiliser la syntaxe de recherche Twitter pour extraire des données via NodeXl, sachant que des variations de requête peuvent donner plus de tweets (par exemple, ajouter lang :fr si la requête est en français) NodeXL permet également d’extraire les données des abonnés / abonnements d’un compte twitter sur plusieurs niveaux (cela prend néanmoins beaucoup de temps).

  • Visibrain, outil payant de monitoring sur Twitter, nous permet d’extraire l’ensemble des comptes ayant participé à une conversation sur une thématique choisie et paramétrée. Extraction au format .dot

01

  • Netvizz est une application Facebook qui permet d’extraire en GDF pour Gephi :
    • Les comptes amis et leurs interactions dans un groupe
    • Un réseau de pages connectées entre elles
    • L’activité de publication et de commentaire sur une page

Analyse de texte ou d’un corpus : outil de traitement du corpus Automap, gratuit, accessible en ligne.

  • Cartographie des corrélations, des relations, des redondances entre les différents termes d’un corpus

1/B Les outils de représentation 

Gephi est un logiciel pour visualiser, analyser et explorer en temps réel les graphes (aussi appelés réseaux ou données relationnelles) de tout type. L’outil permet de représenter, ordonner, agencer les structures, formes et couleurs pour révéler les propriétés cachées d’un réseau via des saillances visuelles.

Les travaux produits sont exportables dans plusieurs formats, notamment le PDF qui permet ainsi d’être visionné par un ensemble large de destinataires. Gephi peut également exporter au format .csv les données importées.

Les formats supportés par Gephi :   GEXF14; GDF; DOT (language); GraphML; Graph Modelling Language

Que représenter avec Gephi ?

Sur les réseaux sociaux :

  • Les conversations autour d’une thématique (#hashtag ; combinaison de requêtes)
  • L’écosystème d’un compte Twitter
  • L’activité et l’écosystème d’une page Facebook

Sur le web :

  • Dynamique de diffusion et de relations entre des sites web et blogs

Autres possibilités :

  • Cartographie textuelle d’un corps de texte (nécessite un travail de filtre avec Automap)

02

1/C Introduction à la représentation cartographique : notions de base et vocabulaire

Pour produire un réseau, deux informations sont nécessaires: une liste des acteurs composant le réseau et une liste des relations entre ces acteurs. On appellera les acteurs « nœuds » ou « node » et les relations « arêtes » ou « arc ». Le label correspond au nom du nœud donc de l’acteur.

03

L’arc est orienté, cela veut dire que la relation va du compte 1, au compte 2. Ce type de relation est par exemple utilisé pour montrer que le compte 1 a envoyé un tweet ou suit le compte 2 en fonction des données collectées.

Dans le cas de Twitter, on obtient par exemple deux types de liens si on se centre sur un Node :

  • Les liens entrants : Le compte Twitter est suivi / mentionné par une personne identifiée
  • Les liens sortants : Le compte Twitter suit / mentionne une personne identifiée

Dans un graphe, un cycle est une chaîne simple dont les extrémités coïncident. On ne rencontre pas deux fois le même sommet, sauf celui choisi comme sommet de départ et d’arrivée.

On parle de « graphe connexe » si chaque node du graph possède au moins un lien de liaison avec tous les autres points. Deux sommets sont adjacents s’ils sont reliés par une arête. Un arbre constitue un graphe connexe ne présentant aucun cycle.

Un graphe est dit complet si toutes les paires de sommets sont adjacentes.

1/D L’interface de Gephi

L’interface se structure autour de 3 onglets pour répondre à ces différents besoins :

  • Une vue d’ensemble pour analyser l’information

 

04

  • Un laboratoire des données pour voir vos données : Se présentant sous la forme d’un simple tableau, vous pourrez manipuler vos informations comme vous l’auriez fait sous Excel. Une particularité, le laboratoire de données possède deux onglets en haut à gauche, un onglet Nœuds, et un onglet lien. Vous pourrez donc passer des données concernant les acteurs de votre réseau (les comptes Twitter par exemple), aux données reliant ses acteurs (qui suit /mentionne qui)
  • La zone de classement et de partition :dans cette zone, vous allez pouvoir colorier les données en fonction des paramètres obtenus par l’analyse statistique, ou séparer vos données pour leur appliquer des couleurs différentes. Vous pourrez par exemple séparer deux groupes sur le schéma pour les classer en fonction de différentes informations.

05

  • La zone de spatialisation : cet onglet va vous permettre de choisir un algorithme pour replacer les nœuds (comptes Twitter), au mieux et vous permettre de visualiser leurs interactions.
  • Un onglet de filtres et de statistiques: avec cet outil, vous allez pouvoir retirer certains nœuds (comptes Twitter) de votre réseau, filtrer l’information en fonction de certains paramètres, mais aussi effectuer des analyses statistiques.
  • L’affichage des données :Cet onglet permet de faire varier la taille des nœuds, des liens entre les nœuds, et d’afficher le nom des nœuds.

2/ Quel(s) algorithme(s) pour quel(s) objectif(s) de représentation ?

La logique des layouts “force based”

Les nœuds se repoussent comme des aimants, tandis que les liens attirent les nœuds qu’ils connectent, tels des ressorts.

Ces forces mettent les nœuds en mouvement, jusqu’à ce qu’un point d’équilibre soit atteint (les nœuds ne bougent plus).

2/A Mettre en avant des divisions entre différents composantes de la cartographie

OpenOrd a pour objectif de mettre en avant des divisions entre les différentes parties de la cartographie.

2/B Mettre en avant des complémentarités entre les différents éléments de la cartographie

Force Atlas permet de spatialiser des réseaux small-world / sans échelle. Il est axé sur la qualité, pour explorer « des données réelles » et permettre une interprétation rigoureuse du graphique avec le moins de biais possibles, et une bonne lisibilité.

La valeur de la force de répulsion dépend de la densité des nœuds et de leurs relations, l’important étant de bien distinguer les nœuds et de pouvoir lire chaque label (qui s’affiche via le « T » en bas de l’écran). La variable d’ajustement par taille permet d’éviter les chevauchements.

  • de 1 à 10 000 noeuds. Opportunité de mettre en exergue le poids des noeuds.

06

A noter la possibilité d’utiliser « Force Atlas 2 », une version de cet algorithme adaptée pour traiter des réseaux de plusieurs centaines de milliers de noeuds :

07

Ce qui nous donnera par exemple :

08

Fruchterman-Rheingold, le layout classique. Les forces s’exercent entre noeuds voisins. Il simule le graphique comme un système de particules de masse. Les noeuds sont les particules de masse et les bords sont des ressorts entre les particules.

  • De 1 à 1 000 noeuds. Pas de poids pour les noeuds.

09

Kamada and Kawai utilise une force d’attraction entre deux noeuds proportionnelle à la taille du chemin le plus court les séparant.

Yifan Hu rassemble les noeuds en groupe, et applique une logique force-based à ces groupes. Il s’agit d’un algorithme très rapide avec une bonne qualité sur les grands graphes. Il combine un modèle de force dirigée par une technique graphique de grossissement (algorithme à plusieurs niveaux) pour réduire la complexité. Les forces de répulsion sur un nœud d’un cluster de nœuds distants sont approchées par un calcul Barnes-Hut, qui les traite comme un super-nœud.

  • De 100 à 100 000 noeuds. Pas de poids sur les noeuds.

10

2/C Mettre en avant une logique de classification des éléments du graphique

Circular Axis Il attire les nœuds dans un cercle ordonné par ID, une métrique (degré, betweenness centralité …) ou par un attribut. A utiliser pour montrer une distribution de nœuds avec leurs liens.

  • De 1 à 1 000 000 noeuds

Radial Axis Layout regroupe les nœuds et attire les groupes axes rayonnant vers l’extérieur à partir d’un cercle central. Les groupes sont générés à l’aide d’une métrique (degré, betweenness centralité …) ou un attribut. A utiliser pour étudier les rapprochements en montrant les distributions de nœuds à l’intérieur des groupes avec leurs liens.

  • De 1 à 1 000 000 de noeuds.

GeoLayout permet d’obtenir une répartition géographique sur un support de carte. Il utilise des coordonnées latitude / longitude pour définir la position des noeuds sur le réseau. Plusieurs projections sont disponibles, y compris Mercator qui est utilisé par Google Maps et d’autres services en ligne. Les deux colonnes d’attributs de nœud pour les coordonnées doivent être au format numérique.

2/D Autres algorithmes 

  • Ajustement des labels/noverlap: Éviter que les noms se chevauchent sur votre réseau
  • Contraction/expansion: Augmente ou diminue l’espace entre les nœuds

3/ Représenter les nœuds en fonction des différents degrés de centralité

Une caractéristique importante des réseaux est la centralité relative des individus entre eux. La centralité est une caractéristique structurelle des personnes dans le réseau, ce qui signifie que la centralité vous dit quelque chose sur la façon dont cette personne s’inscrit dans l’ensemble du réseau. Les personnes ayant des scores de centralité élevés sont souvent plus susceptibles d’être des leaders, des conduits d’information clés, et d’être les premiers à adopter tout ce qui se répand dans un réseau.

11

3/A Degree centrality = A combien de personnes un compte peut accéder directement ?

  • connectivité locale => les noeuds avec beaucoup de voisins sont centraux / Il s’agit du nombre de liens qui mènent vers ou en dehors du nœud. Il est utile pour évaluer les nœuds qui sont centraux par rapport à la diffusion de l’information et influencer leurs communautés.

Il faut noter que par défaut, le calcul de degré ne prend pas en compte le nombre de liens entre une entité A et une entité B : 15 liens (mentions, RT sur twitter) tout comme 1 seul lien indiqueront un degré de relation. Il faut prendre en compte le poids, ou la pondération, via le calcul du “degré pondéré “sur Gephi (menu statistiques).

Le calcul de la centralité entrante pondérée (weighted in degree) donne un classement des comptes twitter avec le plus de mentions. Le calcul de la centralité sortante pondérée (weighted out degree) classe les comptes twitter en fonction du nombre de tweets où ils ont mentionnés d’autres comptes (typiquement des spammeurs ou des comptes très actifs sur une thématique qui mentionnent des alliés ou des personnes influentes).

12

3/B Closeness centrality = En combien de temps un compte peut-il toucher l’ensemble du réseau ?

  • Cette mesure traduit la distance sociale moyenne de chaque individu à tout autre individu dans le réseau. Elle calcule la longueur moyenne de tous les chemins les plus courts à partir d’un nœud à tous les autres nœuds dans le réseau.
  • C’est une mesure de portée, c’est à dire la vitesse à laquelle l’information peut atteindre d’autres nœuds à partir d’un nœud de départ donné.
  • En divisant 1 par le chemin du plus court moyen d’un individu à toutes les autres personnes dans le réseau, nous calculons leur centralité de proximité. De cette façon, une personne ayant un lien direct avec tout le monde finit avec un score de proximité de 1. Les personnes qui se connectent à la plupart des autres par de nombreux intermédiaires vont obtenir des scores proximité qui sont de plus en plus proche de zéro.
  • La proximité de centralité tend à donner des scores élevés aux personnes qui sont près du centre de grappes locales (aka communautés de réseau) dans un réseau global plus important.

Applications : Les comptes à haute proximité de centralité ont tendance à être des influenceurs importants au sein de leur communauté de réseau local. Ils sont souvent des personnalités publiques au sein d’une communauté, d’une profession. Ils sont souvent respectés localement et ils occupent les chemins courts pour diffuser les informations au sein de leur communauté en réseau

13

Mesure proche : le « Weighted clustering cofficient ». Cette mesure permet de calculer, en modérant en fonction de l’intensité des liens entre les nœuds (donc du nombre de mentions entrantes et sortantes) si les relations des nœuds proches d’un nœud A donné sont toutes connectées entres elles.

14

Cette mesure peut donc servir à préciser la closeness centrality en identifiant les nœuds et morceaux des réseaux les mieux connectés par communautés (et donc pour l’analyse twitter savoir si certaines communautés s’appuient sur quelques comptes qui se mentionnent les uns les autres ou alors des ensembles de comptes connectés uniquement via des relations distantes). On parle d’un effet « small world », c’est-à-dire que les membres d’une communauté donnée vont être reliés par un ensemble de petits réseaux locaux interconnectés entre eux.

Exemples :

15

A comparer avec :

16

La cartographie numéro 2 (closeness centrality) montre une prédominance des leaders locaux de réseaux dans les communautés vertes (@lemondefr), orange (@lemondelive) et bleu clair (@gadelmaleh), et une dispersion des leaders violets (critique politique du swissleaks).

La première cartographie permet de pondérer les résultats et de mieux expliquer la répartition de l’influence des différents groupes (voir calculs suivants). Bien que moins importantes en terme de comptes twitter et de total de mentions, les communautés violettes et oranges obtiennent une certaine influence parce que leurs leaders locaux sont très fortement connectés.

3/C Betweenness centrality (Centralité) = Quelle est la probabilité que cette personne soit l’itinéraire le plus direct entre deux personnes dans le réseau ?

  • connectivité => noeuds sur des lieux de passage sont centraux / Et donc de détecter les nœuds les plus susceptibles d’être dans des voies de communication entre les autres nœuds. Également utile pour déterminer les points où le réseau se briserait.

17

Il s’agit d’une mesure dérivée de la notion de décompte des chemins les plus courts entre les individus dans un réseau. Pour calculer la centralité intermédiaire, on commence par trouver tous les chemins les plus courts entre deux individus dans le réseau. Vous comptez alors le nombre de ces plus courts chemins qui passent par chaque individu. Ce nombre correspond à la centralité intermédiaire.

Ce calcul permet d’identifier les individus qui sont des conduits nécessaires à l’information qui doit traverser des éléments disparates de réseau. Ce sont généralement des personnes très différentes de celles avec une grande proximité. Les individus à forte Betweenness centrality (ou centralité) ne sont souvent pas le chemin le plus court pour joindre tout le monde, mais ils ont le plus grand nombre de chemins les plus courts qui vont nécessairement passer par eux.

Dans un réseau social, les individus avec un score élevé de centralité se trouvent souvent aux intersections des communautés de réseau plus densément connectés.

Applications : En raison de leurs emplacements entre les communautés de réseau, ces comptes à forte Betweenness centrality sont naturellement des courtiers d’information.

18

La mesure de la Betweeness centrality permet d’identifier plus facilement des réseaux activistes, utiles pour faire passer un message mais pas toujours visibles en termes de mentions.

3/D « Centralité Eigenvector » = A combien de personnes bien connectées ce compte est-il relié ?

Cette analyse statistique permet de déterminer l’importance d’une personne au sein d’un réseau, et donc d’attribuer des valeurs à chaque personne de votre réseau. Une fois cette statistique calculée, vous pouvez aller sur le panneau de classement en haut à droite, et affecter une taille en fonction du paramètre « eigencentrality ». Vos données doivent être entre une taille minimum de 10 et maximum de 50. Utile pour déterminer qui est connecté aux nœuds les plus connectés.

19

Cette mesure désigne essentiellement le fait qu’un individu est un compte autoritaire connecté à d’autres comptes autoritaires au sein d’un vaste réseau. Eigenvector centralité est calculée en évaluant la façon dont un individu est relié aux parties du réseau avec la plus grande connectivité. Les personnes ayant des scores élevés de vecteurs propres ont de nombreuses connexions, et leurs connexions ont de nombreuses connexions, et leurs connexions ont de nombreuses connexions … jusqu’au bout du réseau.

Applications: Les individus possédant un vecteur propre de centralité élevé sont considérés comme les leaders du réseau. Ce sont souvent des personnalités publiques avec de nombreux liens avec d’autres personnes à haut profil. Ainsi, ils jouent souvent des rôles de leaders d’opinion clés et façonnent la perception du public. Un exemple de cela est l’algorithme page rank de Google, qui est étroitement liée au vecteur propre de centralité calculé sur des sites Internet basés sur les liens pointant vers eux.

Ces comptes ne peuvent cependant pas effectuer nécessairement les rôles de haute proximité et intermédiarité. Ils n’ont pas toujours la plus grande influence locale et peuvent avoir un potentiel de courtage limitée. Comme un roi à l’écart dans sa cour ou le directeur général dans sa salle de réunion , ils peuvent parfois être isolés des individus et des communautés périphériques de réseau de petite taille qui ont une connectivité limitée avec les parties les plus densément connectés du réseau .

Les Hubs concentrent les liens sortants. Ils correspondent à des comptes chargés de redistribuer l’information à une communauté. Les Autorités centralisent les liens entrants. Ces liens se traduisent par des mentions, des sollicitations ou des références à un compte source.

3/E Modularity class = Identifier les relations entre les nœuds et mettre en avant des communautés

Le filtre statistique Modularity Class est disponible dans l’onglet statistique à droite, qui s’appelle plus communément modularité. Il va détecter automatiquement si des personnes de votre réseau semblent liées entre elles. Ce calcul est pertinent à partir de plusieurs milliers de relations. Ce filtre va déterminer les communautés à l’intérieur du graphe, c’est à dire des ensembles de sommets fortement reliés entre eux, ce qui revient, dans la majeure partie des cas, à déterminer des groupes d’individus qui ont tendance à se retweeter, à s’interpeller ou à se mentionner.

Modularité (Newman 2004) :Nombre de liens dans chaque groupe moins le nombre de liens dans les mêmes groupes, dans un graph ou les liens auraient été redistribués de façon aléatoire.Trouver les communautés dans un graph = définir des groupes de façon à ce que le score de modularité soit le plus élevé.

Pour afficher cette information sur la carte, vous devez vous rendre par la suite dans l’onglet partition en haut à gauche, et sélectionner la statistique que vous avez créée, « modularity class ». En appliquant cette partition, les couleurs de votre réseau vont se modifier, et mettre en avant les relations entre les personnes. question game Il peut être utile de modifier les couleurs par défaut, Gephi ayant tendance à choisir des couleurs sombres assez semblables pour les principales communautés, ce qui peut engendrer des confusions.

Comme le présente la cartographie ci-dessous correspondant au buzz contre la RATP après le retrait d’affiches de publicité soutenant les chrétiens d’orient, après calcul et utilisation du filtre, la modularité met en évidence 4 espaces de conversation distincts :

vert : sphère “institutionnelle” : responsables politiques et religieux et leurs correspondants ;

bleu : leaders d’opinion ancrés à droite et leurs correspondants ;

bleu clair : militants catholiques radicaux et leurs correspondants ;

jaune : abbés Grosjean et Amar et leurs correspondants ;

rose : leaders d’opinion d’extrême-droite et leurs correspondants.

20

3/F Aller plus loin dans l’analyse en combinant des filtres

 

Faible nombre de mentions Faible score de proximité Faible centralité dans le réseau
Fort nombre de mentions Compte twitter membre d’un cluster éloigné du réseau Connections du compte twitter redondantes et ne passant pas par lui
Fort score de proximité Compte twitter relié à des comptes très actifs ou influents Compte twitter relié à plusieurs autres comptes mais pas central
Forte centralité dans le réseau Compte twitter essentiel pour la diffusion à certaines communautés Compte twitter sert de lien exclusif entre le reste du réseau et un cluster

 

Il est également possible via les filtres de Gephi de combiner des calculs statistiques, pour raffiner les résultats obtenus et identifier des comptes twitter aux propriétés spécifiques :

Exemple : Croisement entre le filtrage des comptes twitter les plus mentionnés et la variation de leur taille par valeur de betweeness centrality sur les tweets français de SwissLeaks

21

On voit sur la cartographie des comptes les plus mentionnés que le compte @gadelmaleh est très mentionné, tout comme celui du @mondefr. Mais est-il central dans les discussions, et surtout est-il à l’origine lui-même de ces mentions ?

22

La cartographie du croisement des informations « mentions / degré » et « centralité / betweeness » nous indique que si @gadelmaleh a beaucoup de mentions, il a une faible centralité dans le réseau : les connections ne passent pas par lui, et c’est bien normal, puisque l’acteur est mentionné à l’insu de son plein gré !

A l’inverse, on constate que le compte @gracchusX, qui est très visible sur la deuxième cartographie, a donc un fort score de betweeness centrality, sans être énormément mentionné : il sert de passerelle avec une communauté spécifique.

On peut également, sous réserve de disposer d’un fichier enrichi, ajouter autant de filtres qu’il y a de données à comparer. Par exemple, NodeXL propose, en récupérant les mentions entre comptes twitter sur une recherche donnée, d’ajouter les données suivantes au fichier excel exportable – Visibrain proposera prochainement des exports enrichis également :

  • Pour les liens : type de tweet (mention, réponse, RT) ; date du tweet ; nom de domaine d’une éventuelle URL présente ; hashtags utilisés : coordonnées du tweet (si géolocalisés – latitude et longitude)
  • Pour les noeuds (comptes twitter ici) : nombre d’abonnés, nombre d’abonnements, total de tweets, total de favoris, location, zone horaire, date de création du compte …

A noter que pour tirer profit de ces informations supplémentaires, il faut préciser en les important leur type : texte, nombre, données temporelles … et les filtres de Gephi s’adapteront en conséquence.

Cela permet d’effectuer des analyses très précises en intégrant à la fois les calculs de statistiques propres à Gephi et des filtrages liés à la nature des données importées dans Gephi.

BONNE NOUVELLE, VISIBRAIN INTÈGRE MAINTENANT CES DONNÉES AUX EXPORTS (format GEXF). Le gros avantage par rapport à NodeXL est qu’il n’y a pas de manipulation à effectuer pour utiliser ces filtres additionnels, notamment le filtre temporel.

Un exemple concret avec la cartographie des tweets concernant le scandale des frais de taxis de l’ex directrice de l’INA :

23

On a ci-dessus la carte des comptes les plus mentionnés. On peut maintenant l’affiner en affichant uniquement les comptes parmi cette cartographie qui ont un nombre important d’abonnés, pour voir si ce sont bien ces comptes qui sont à l’origine du buzz :

24

On voit bien que les comptes avec le plus d’abonnés ont très peu contribué à la propagation du buzz. Ce sont principalement des médias qui ont repris l’information sans en être à l’origine.

Il est également possible de filtrer les labels des noeufs affichés dans l’export d’une cartographie, afin de la rendre plus lisible :

Clipboard

La procédure est assez simple à mettre en place. Après avoir choisi un filtre sur Gephi et validé l’affichage des labels sur l’espace de travail, il suffit de sélectionner une plage de valeurs (et non de la “filtrer”) puis de cliquer sur le masquage des labels hors de la sélection :

2015-07-25_1212

4/ SIGMA : L’export analytique et esthétique

Sigma (http://sigmajs.org/) est une fonction d’export très aisée à installer puis à utiliser pour faciliter l’analyse de la cartographie ainsi qu’améliorer son esthétique et sa compréhension.

Installation :

Rendez-vous sur https://marketplace.gephi.org/plugin/sigmajs-exporter/ pour télécharger le template puis l’installer dans Gephi. Seconde solution, plus simple, vous pouvez également vous rendre directement dans Gephi puis dans OutilsModules d’extension puis rechercher Sigma.js dans les modules d’extension disponibles.

25

26

Export :

Une fois votre travail de représentation des données sur Gephi, rendez-vous dans Fichier puis Exporter, choisissez enfin le format sigma.js

27

A savoir, l’export Sigma.js créé un dossier de fichier appelé par défaut « network », qu’il est obligatoire de garder ou de déplacer dans sa totalité. Afin de lire votre cartographie, il vous faudra ouvrir le fichier « index.html» avec Mozilla Firefox et uniquement Mozilla.

Esthétique et analyse de la représentation

28

L’esthétique est bien plus harmonieuse qu’avec Gephi, en mode Flat Design. Sigma.js vous permet :

  • cliquer sur un nœud et isoler son réseau de relations au sein du réseau gobal
  • rechercher un nœud grâce à son username
  • obtenir un large éventail d’informations sur chacun des nœuds (Betweenness centrality, Eigenvector centrality, degré entrant et sortant, la modularité, l’ensemble des comptes en relations) ➔ Ces informations émanent de la qualité des méta-données avant le travail dans Gephi mais aussi en fonction des statistiques et filtres utilisés pour réaliser la cartographie.

29

Jérémy Cauden

Chargé de veille et d’études à La Netscouade

Guillaume Sylvestre

Consultant en veille et e-réputation à l’ADIT

L’article Utilisation du logiciel Gephi pour l’analyse cartographique est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Trucs et astuces pour étudier les réseaux sociaux avec Gephi https://master-iesc-angers.com/trucs-et-astuces-pour-etudier-les-reseaux-sociaux-avec-gephi/ https://master-iesc-angers.com/trucs-et-astuces-pour-etudier-les-reseaux-sociaux-avec-gephi/#comments Wed, 18 Jun 2014 08:19:02 +0000 http://master-iesc-angers.com/?p=690 Les trois tutoriaux que nous avons réalisés avaient pour but de vous permettre de prendre en main Gephi pour analyser les réseaux sociaux, et de vous y retrouver dans ses nombreux paramétrages. Il existe néanmoins certaines subtilités que l’on ne… Continuer la lecture

L’article Trucs et astuces pour étudier les réseaux sociaux avec Gephi est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Les trois tutoriaux que nous avons réalisés avaient pour but de vous permettre de prendre en main Gephi pour analyser les réseaux sociaux, et de vous y retrouver dans ses nombreux paramétrages. Il existe néanmoins certaines subtilités que l’on ne va pas forcément prendre en compte, mais qui ont leur importance.

Voici donc quelques trucs et astuces que nous vous proposons pour améliorer vos cartes et vos analyses. N’hésitez pas à proposer les vôtres !

L’exemple prit ici est celui de l’analyse de 3266 tweets correspondant à des mentions ou des retweets contenant le hashtag #PDFFrance – utilisé durant la conférence Personal democracy France qui a eu lieu le 14 juin 2014 au CNAM.

Les variations possibles de l’analyse de modularité

Par défaut, on a tendance à analyser un corpus de tweets en utilisant le paramètre de « degrés » pour classer les nœuds (les comptes twitter). C’est en effet le paramètre proposé dans le tutoriel de Gephi qui prend l’exemple des relations entre les personnages du roman Les Misérables. Le degré matérialise l’existence ou non d’un lien entre un nœud et un autre. Dans l’analyse des réseaux sociaux, il est décomposé en degré « sortant » pour indiquer les mentions effectuées par un compte, et degré « entrant » pour indiquer quand un compte est mentionné par un autre. Cela nous donne cette carto en choisissant dans le filtre les 50 comptes ayant la valeur de degré la plus importante :

01_pdffrance_carte_degresLes couleurs correspondent au classement par modularité vu dans les précédents tutoriels, qui donne une valeur de 0,335 pour 22 communautés. Néanmoins, il peut être intéressant d’effectuer plusieurs fois le calcul de modularité. En dehors du fait qu’en choisissant une valeur inférieure ou supérieure à 1 pour la résolution, le nombre de communautés va changer, sans changer cette valeur il peut y avoir des changements minimes.

Cela est dû au fait que l’algorithme de détection des communautés n’est pas parfait : il se base sur un calcul de proximités entre les nœuds, donc le classement peut varier légèrement. En faisant trois tests, la valeur de modularité passe à 0,331, détectant 24 communautés. Les résultats changent donc légèrement :

02_pdffrance_carte_degres_modularitee-changeePrendre en compte ou non le « poids » des liens (mentions et RT)

Mais le paramètre de « degré » ne prend pas en compte les mentions multiples d’un compte par un autre. Si le compte @atuche mentionne 12 fois le compte @axellelemaire, le paramètre degré le comptabilisera comme un seul lien.

On peut ainsi utiliser le paramètre statistique « degré pondéré » pour prendre en compte les mentions et RT multiples :

03__pdffrance_Parametres_degres_pondereUne fois le calcul effectué, on pourra sélectionner la valeur « Weighted Degree » pour classer les nœuds, et effectuer un filtrage de la carte en fonction de ce résultat. Il ne faut pas oublier également pour éviter de devoir séparer à la main les nœuds de modifier l’échelle de spatialisation dans l’algorithme Force Atlas 2.

04__pdffrance_Parametres_degresOn obtient ainsi une nouvelle carte :

05_pdffrance_carte_poids

Faire le choix entre « Weighted Degree », « Weighted In-Degree » and « Weighted Out-Degree »

Ici, nous avons fait le choix de calculer le poids global des mentions. Gephi permet néanmoins de faire une analyse plus fine, et de montrer soit :

– Le poids des mentions et RT faits par un compte, c’est-à-dire le « Weighted Out-Degree » dans le classement des nœuds :

06_pdffrance_carte_poids_sortant

–          Le poids des mentions et RT qui citent un compte, c’est-à-dire le « Weighted In-Degree » dans le classement des nœuds :

07_pdffrance_carte_poids_entrants

Moduler les paramètres d’aperçu

Il est important également de faire attention aux paramètres choisis pour visualiser la cartographie. La taille de police des labels de nœuds définie clairement la visibilité ou non des résultats finaux :

08_pdffrance_parametres_apercuOn constatera que sur les grosses cartographies, choisir une taille des labels proportionnelle est rarement une bonne idée.

09_pdffrance_parametres_apercu_labelsAuteur : Guillaume Sylvestre, consultant à l’ADIT

L’article Trucs et astuces pour étudier les réseaux sociaux avec Gephi est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
https://master-iesc-angers.com/trucs-et-astuces-pour-etudier-les-reseaux-sociaux-avec-gephi/feed/ 78
Tutoriel sur les fonctionnalités avancées de Gephi : usage des filtres pour obtenir des cartographies plus lisibles https://master-iesc-angers.com/tutoriel-sur-les-fonctionnalites-avancees-de-gephi-usage-des-filtres-pour-obtenir-des-cartographies-plus-lisibles/ Wed, 14 May 2014 16:36:52 +0000 http://master-iesc-angers.com/?p=685 Nous avons vu dans le précédent tutoriel comment effectuer des calculs d’influence et les visualiser via Gephi, dans le cadre d’un ensemble de tweets dont on étudie les mentions et RT. Néanmoins, ce genre de calcul ne suffit pas forcément… Continuer la lecture

L’article Tutoriel sur les fonctionnalités avancées de Gephi : usage des filtres pour obtenir des cartographies plus lisibles est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Nous avons vu dans le précédent tutoriel comment effectuer des calculs d’influence et les visualiser via Gephi, dans le cadre d’un ensemble de tweets dont on étudie les mentions et RT. Néanmoins, ce genre de calcul ne suffit pas forcément pour aider à visualiser les informations pertinentes. Dès lors que l’on étudie plusieurs milliers de tweets, l’information peu vite devenir brouillonne. Nous allons ici prendre l’exemple de l’analyse des 205 418 tweets envoyés avec le hashtag #EP2014 en avril : sans filtrage, une telle analyse est impossible à réaliser.

Nous allons voir ici :

–          Comment jouer sur la taille des nœuds (comptes twitter) pour les rendre plus visibles ;

–          Comment mettre en place des filtres mettant en valeur les résultats les plus pertinents selon la variable étudiée ;

–          Comment effectuer des filtrages par communautés

Jouer sur la taille des nœuds

Une première possibilité pour clarifier les cartographies obtenues pourra être de jouer sur la taille des « nœuds » représentés à l’écran – la taille choisie se reflète quel que soit ensuite le classement choisi (par degré, connectivité, centralité eigenvector). Les nœuds correspondent aux comptes twitter, les liens aux tweets du corpus.

La taille minimale correspond à celle des nœuds les plus petits : en l’augmentant, ceux-ci sont plus grands. Le résultat sera un graphique avec beaucoup de nœuds de taille moyenne plutôt que de petite taille.

La taille maximum correspond aux nœuds les plus importants : si on l’augmente, les quelques nœuds les plus importants seront énormes et seront les seuls visibles.

taille

Dans notre exemple, avec le réglage min = 10 et max = 100, on obtient ce graphique, très dense, avec très peu de nœuds visibles, et plutôt illisible (avec une police Ariel 12 pour les labels, de taille proportionnelle à la valeur du degré) :

taille_10_100Si on augmente la valeur maximum à 1000, les mêmes nœuds déjà identifiés deviennent plus visibles – il suffirait d’augmenter l’espace entre les nœuds pour avoir une bonne lisibilité de ceux avec les valeurs les plus élevées :

taille_10_1000Utiliser les filtres

Le filtrage par plage de degrés

Ce filtre correspond à l’affichage des nœuds en fonction du nombre de RT / mentions qu’ils ont obtenu. Plutôt que d’afficher avec Gephi les 200 000 tweets du corpus, on va donc ne retenir que ceux qui ont obtenu au moins 99 RT ou mentions.

Pour ce faire, on cherchera à afficher les degrés sortants. Les degrés entrants correspondent aux tweets envoyés par chaque nœud, et le total des degrés à la somme des tweets avec les mentions et RT. Cela nous permet de changer la taille des nœuds en prenant en compte le classement des degrés sortants (on garde ici une échelle de taille entre 10 et 100). Pour commencer, il faut aller dans la section classement, à gauche de l’écran, dans la section « Vue d’ensemble ».

degres_entrants_rankEnsuite, à droite de l’écran, il faut aller choisir un filtre. Une fois que celui-ci est sélectionné, une barre apparait en bas à droite de l’écran, allant de 1 jusqu’à la valeur de degré maximale. Il suffit de déplacer le curseur pour filtrer les degrés en fonction de leur valeur de degrés entrants.

degres_entrants_filtrage_99Vous noterez qu’en haut à droite de l’écran, le nombre de nœuds et de liens obtenus après le filtrage est indiqué. Cela permet de régler le filtre en fonction du nombre de nœuds désirés.

Nb : Comment ré agencer au mieux les nœuds restants ?

Une fois le filtrage effectué, on obtient en général, surtout sur un grand corpus de tweets, des nœuds très éclatés. Pour les réassembler, il faut utiliser l’algorithme « Force Atlas 2 » dans les paramètres de spatialisation en bas à gauche de l’écran :

degres_entrants_configurationOn obtient ainsi le résultat suivant, nettement plus lisible :

degres_entrants_resultatLes filtrages avancés (influence, connecteurs, PageRank)

Tout d’abord, après chaque filtrage terminé, il faut désélectionner le filtre en validant « filtrer » à nouveau en dessous de la sélection de la plage. On vérifiera bien que tous les nœuds et tous les liens sont à nouveau indiqués sur l’écran en haut à gauche.

filtres_SNAIci, on choisit comme filtre « Betweeness Centrality », qui correspond aux connecteurs. On sélectionne à nouveau une plage et on lance le filtrage :

filtres_connecteurs_mapA nouveau, il faut utiliser l’algorithme « Force Atlas 2 » pour repositionner les nœuds. On obtient un résultat très clair, avec 120 nœuds gardés par le filtre :

EP2014_avril_connecteurs_mapLes filtrages par communautés

Il peut également être intéressant de faire apparaitre certaines communautés, détectées par l’algorithme de Louvain, via un filtrage. On utilise pour ce faire le filtre « Modularity Class ».

Modularity_classOn obtient ensuite une liste des communautés, classées en fonction du pourcentage de nœuds compris dans chacune d’entre-elles. Il suffit de les cocher pour les filtrer ensuite.

Modularity_class_filtrage

Effectuer deux niveaux de filtrages

Dans le cas de l’étude d’un grand corpus, le filtrage des tweets est nécessaire également pour les grandes communautés : 10 % des 200 000 tweets font toujours 20 000 tweets, ce qui rend la cartographie illisible. Il est donc possible de choisir des sous-filtres.

Par exemple, si l’on veut uniquement afficher les nœuds avec plus de 200 mentions/ RT ou tweets, on ajoutera un filtre par plage de degrés, qu’on fera glisser sur l’option « Glissez le sous-filtre ici »:

Modularity_class_double_filtrageCe qui nous donne comme résultat une fois les étapes de « Force Atlas 2 » et de l’affichage passées :

EP2014_avril_0830_0948Auteur : Guillaume Sylvestre, consultant à l’ADIT

L’article Tutoriel sur les fonctionnalités avancées de Gephi : usage des filtres pour obtenir des cartographies plus lisibles est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Tutoriel d’analyse des fonctionnalités avancées de Gephi, via #ADP2014 https://master-iesc-angers.com/tutoriel-danalyse-des-fonctionnalites-avancees-de-gephi-via-adp2014/ Tue, 15 Apr 2014 07:24:03 +0000 http://master-iesc-angers.com/?p=635 Le hashtag #ADP2014 correspond aux échanges qui ont eu lieu entre le 10 mars 2014 et le 14 mars 2014 durant les intercessions de Bonn de la Conférence pour le Climat. Nous avons collecté 3573 tweets envoyés par 1400 comptes… Continuer la lecture

L’article Tutoriel d’analyse des fonctionnalités avancées de Gephi, via #ADP2014 est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Le hashtag #ADP2014 correspond aux échanges qui ont eu lieu entre le 10 mars 2014 et le 14 mars 2014 durant les intercessions de Bonn de la Conférence pour le Climat. Nous avons collecté 3573 tweets envoyés par 1400 comptes twitter, de personnes du monde entier. C’est un réseau très interconnecté : 32 communautés ont été identifiées via l’algorithme Louvain de Gephi.

Nous allons voir ici comment calculer quatre éléments importants de l’analyse des réseaux sociaux. Vous pouvez utiliser le fichier graphml des tweets pour vous entrainer également :

–          Le degré, en précisant les degrés sortants et entrants, qui correspond aux nombres de mentions et tweets d’un compte. Plus la valeur du degré est haute, plus le compte a été visible sur les réseaux sociaux ;

–          L’intermédiarité, qui correspond à la recherche des connecteurs entre les communautés. Les comptes correspondant ne sont pas forcément les plus influents, mais ils sont indispensables pour faire circuler une information ;

–          La centralité Eigenvector, qui détermine les comptes les plus influents, c’est-à-dire dont les messages vont atteindre le plus de personnes ;

–          Le PageRank, qui détermine l’importance d’un compte au sein du réseau.

Gephi permet d’une part d’obtenir un classement pour chacune de ces valeurs, mais également de visualiser les résultats par une cartographie.

Le calcul du degré

Pour obtenir le résultat et le classement, il faut suivre la démarche suivante (une fois suivies les étapes du premier tutoriel) :

cal_gephi_1A noter que pour les autres analyses, on utilisera toujours la même boite de dialogue, en choisissant le type de calcul via le chemin de la flèche 2, et en affichant le classement complet via le chemin indiqué par la flèche 3.

On obtient donc le classement suivant : @un_climatetalks (928 mentions et tweets), @irena_org (185), @duycks (133), @cfigueres (130), @rtcc_sophie (117), @earthinbrackets (112), @yebsano (111), @marinabodescu (98). On peut ensuite visualiser via la prévisualisation le résultat (en choisissant ici une taille des labels proportionnelle au degré, police arial 8).

01_ADP2014_degre_totalOn peut ensuite comparer les degrés entrants (mentions) et sortants (tweets envoyés) :

Classement degrés sortants :

cal_gephi_2Classement degrés entrants :

cal_gephi_3On constate donc un changement selon que l’on parle des mentions ou des tweets envoyés (carte extraite ici) :

02_ADP2014_degres_sortantsLe calcul de l’intermédiarité

Le calcul de l’intermédiarité nous permet d’afficher les nœuds qui sont au cœur des flux d’informations. En l’occurrence, cela signifie que c’est par eux que transitent les tweets. Ils sont indispensables pour diffuser l’information au sein du réseau.

cal_gephi_4Pour afficher les résultats de ce calcul, on utilise l’option « Plus courts chemins » dans la fenêtre « Statistiques » à droite de l’écran. A noter que cette option calcule également la proximité des comptes twitter. On obtient ensuite un résultat affiché près de l’onglet « Plus courts chemins » de 3,318 qui correspond à la distance moyenne entre les comptes twitter – ce qui confirme l’hypothèse de début que les utilisateurs du hashtag #ADP2014 forment une petite communauté.

cal_gephi_5Les comptes « connecteurs » sont donc dans l’ordre @un_climatetalks, @marinabodescu, @earthinbrackets, @rtcc_sophie, @cansouthasia, @mattias_s, @climatejustinfo, @duycks

Ce qui nous donne cette représentation graphique :

03_ADP2014_intermediarite Le calcul de la centralité Eigenvector

Une autre mesure intéressante des réseaux twitter est la connexion des comptes twitter influents à d’autres comptes twitter influents. Le résultat permet d’identifier les leaders du réseau, ceux qui donnent le plus de “portée” à leurs messages, à travers leur réseau et les réseaux de leurs réseaux.

cal_gephi_6cal_gephi_7Les influenceurs identifiés pour #ADP2014 sont donc dans l’ordre @un_climatetalks, @cfigueres, @yebsano, @rtcc_sophie, @irena_org, @rtccnewswire, @marinabodescu, @climatejustinfo, @duycks.

04_ADP2014_influenceursNb : Pour le calcul du PageRank, il faut installer le module complémentaire « SNAMetrics Plugin »

cal_gephi_8 Calcul du PageRank

Le PageRank est une mesure de l’influence d’un compte dans le réseau. Il permet de classer les comptes en fonction de la probabilité d’arriver dessus en suivant les tweets #ADP2014.

cal_gephi_9On va ainsi obtenir un classement légèrement différent des précédents qui se recoupaient plus ou moins :

cal_gephi_10Avec @un_climatetalks, @cfigueres, @halldorth, @marchildonsarah, @irena_org, @un, @yebsano, @rtcc_sophie, @rtccnewswire

Et une carte dont les équilibres ont changé :

05_ADP2014_pagerankAuteur : Guillaume Sylvestre, consultant à l’ADIT

L’article Tutoriel d’analyse des fonctionnalités avancées de Gephi, via #ADP2014 est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Introduction à la cartographie de communautés twitter https://master-iesc-angers.com/introduction-a-la-cartographie-de-communautes-twitter/ Tue, 11 Mar 2014 17:56:15 +0000 http://master-iesc-angers.com/?p=605 Outils nécessaires : –          Un compte twitter –          NodeXL, template excel, pour « aspirer les tweets » ou Visibrain (outil payant) si vous souhaitez avec l’exhaustivité (passer à la partie 3 du tutoriel) –          Gephi, outil de cartographie utilisant Java, pour visualiser les… Continuer la lecture

L’article Introduction à la cartographie de communautés twitter est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Outils nécessaires :

–          Un compte twitter

–          NodeXL, template excel, pour « aspirer les tweets » ou Visibrain (outil payant) si vous souhaitez avec l’exhaustivité (passer à la partie 3 du tutoriel)

–          Gephi, outil de cartographie utilisant Java, pour visualiser les communautés twitter

–          Les outils de recherche sur twitter

Premier exemple : Cartographier une communauté autour d’un hashtag

Dans notre exemple, nous allons profiter de la dynamique des élections municipales sur les réseaux sociaux pour cartographier les utilisateurs de twitter qui communiquent sur cette élection. Pour ce faire, nous allons identifier les hashtags en lien avec ce sujet. Pourquoi les hashtags et pas simplement les mots-clés ? Les hashtags sont utilisés pour mettre en avant une information et la rendre plus visible : il sera donc plus simple d’identifier les communautés des utilisateurs les plus engagés, notamment les influenceurs sur ce sujet.

  1. Identifier les hashtags correspondant à la recherche « municipales angers »

On pourrait effectuer une recherche sur twitter, mais le site Topsy permet également de visualiser le volume de données correspondant aux hashtags. En faisant la recherche « municipales angers » sur les tweets via Topsy, on va identifier les hashtags #mun49000 et #angers parmi les plus utilisés. Sur la dernière semaine, il y en a eu 1700 avec cette mention, c’est un bon corpus :

 intro_twitter_1

  1. Aspirer les tweets via NodeXL

Une fois le template excel installé, le lancer via le lien « NodeXL Template ». NodeXL ne modifie pas excel, il n’est donc accessible qu’en utilisant son lien. Une fois lancé, sélectionner la boite à outil « NodeXL » et aller sur l’onglet « import » pour importer les données.

 intro_twitter_2

Nous cherchons à importer les tweets correspondant à la recherche twitter « #angers #mun49000 ». Nous allons donc choisir l’option « From Twitter Search Network ».

 intro_twitter_3

NodeXL étant un outil gratuit, il n’a pas accès à tous les tweets. Il est limité à 18 000 tweets, sur une recherche de 7 jours. Par ailleurs, twitter a introduit une limitation de l’aspiration des tweets. Si un certain quota est dépassé, il faut attendre 15 minutes avant la poursuite de la requête. Cela signifie que pour des recherches incluant la cartographie des liens entre les utilisateurs d’un hashtag, il faut prendre son mal en patience. Comptez 5 heures pour 1000 tweets. Sinon, cela prend seulement quelques minutes. Cette recherche a pris environ 6 heures.

Une fois les tweets collectés, demander leur export au format GraphML

 intro_twitter_4

Mise en garde : twitter ne donne pas accès à toutes ses données aux outils gratuits. La limite de récupération des données varie entre 6 et 9 jours, et dépend du volume total demandé. Pour des demandes correspondant à moins de 1000 tweets, l’exhaustivité ne pose pas de problèmes. Par contre, pour les « trending topics », twitter ne donne accès qu’à une présélection de tweets.

  1. Cartographier les communautés via gephi

Si vous utilisez Visibrain, pour faire votre export de données, il faut aller dans le menu “Data”, puis sélectionner “Users” et enfin “Mention Graph”. Attention, si vous avez beaucoup de mentions, le fichier va prendre du temps à se télécharger. Au delà de 50 000 mentions, il faut demander à Visibrain une extraction spécifique (en indiquant l’URL de votre requête et la période de temps voulue). Le fichier obtenu sera au format DOT.

2015-02-14_1144

Une fois Gephi lancé, aller dans « Fichier » puis « Ouvrir », et sélectionner votre export des données NodeXL ou Visibrain.

 intro_twitter_5

Les 229 nœuds correspondent au nombre de comptes twitter identifiés dans les tweets. Les 7762, aux interactions entre eux et autour des hashtags « #angers #mun49000 ». On obtient ensuite un amas de nœuds, qu’il convient de démêler. Pour ce faire, le menu « Spacialisation », au milieu à gauche, propose différentes options. Je vous invite à toutes les tester, nous allons cette fois-ci utiliser « Force Atlas », avec les réglages suivants :

 intro_twitter_6

La valeur de la force de répulsion dépend de la densité des nœuds et de leurs relations, l’important étant de bien distinguer les nœuds et de pouvoir lire chaque label (qui s’affiche via le « T » en bas de l’écran). La variable d’ajustement par taille permet d’éviter les chevauchements.

On obtient donc une cartographie des relations entre les comptes twitter, lisible et détaillée. Néanmoins, deux informations importantes manquent : d’abord, visualiser les comptes les plus importants, ceux qui sont au cœur de la diffusion des informations sur #angers #mun49000. Ensuite, pouvoir identifier les communautés d’utilisateurs de ces hashtags.

 intro_twitter_7

Les nœuds permettent donc de visualiser l’importance des comptes twitter dans le réseau #angers #mun49000 : plus un nœud est gros, plus le compte twitter associé est influent sur ce sujet. Par ailleurs, plus les traits sont visibles entre un nœud et ceux qui l’entourent, plus le compte associé est influent par rapport à ceux qui l’entourent.

 intro_twitter_8

Pour détecter et mettre en évidence les communautés, il faut utiliser l’algorithme de modularité, disponible sur le panneau au milieu à droite de l’écran. Le paramètre par défaut permet d’identifier 4 communautés, c’est un chiffre raisonnable. Si vous le trouvez trop grand ou trop petit, vous pouvez jouer sur la « résolution » pour changer le nombre de communautés. Le calcul est basé sur les relations entre les nœuds.

 intro_twitter_9

On obtient ensuite via le choix « Modularity Class » dans « Partition » et « Nœuds » l’affichage des communautés. Les quatre couleurs sont choisies par défaut, il est possible de les changer. En exécutant, elles s’affichent sur les nœuds. Il ne reste plus qu’à visualiser et à exporter la cartographie.

 intro_twitter_10

On obtient ainsi la carte suivante en cliquant sur « Rafraichir », puis en allant dans « Aperçu » :

 intro_twitter_11

Seules deux communautés de militants sont assez actives pour être identifiées : les supporteurs du maire Frédéric Béatse, en vert ; les soutiens de son challengeur Christophe Béchu, en rouge.

Pour la carte complète : http://www.flickr.com/photos/110207842@N02/12986442103/

Merci pour votre intérêt ! Nous reviendrons sur le sujet plus tard, tant les applications sont nombreuses : identifier les communautés autour d’une marque, visualiser les influenceurs en temps réel lors d’une campagne sur les réseaux sociaux, savoir qui propage des informations négatives / positives.

Pour aller plus loin sur gephi, vous pouvez consulter les tutoriaux en ligne (en anglais) : http://gephi.org/users/quick-start/

 Auteur : Guillaume Sylvestre, consultant à l’ADIT

L’article Introduction à la cartographie de communautés twitter est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Tutoriel Gephi : construction d’un graphe “Les patrons du CAC40 et leurs formations” https://master-iesc-angers.com/tutoriel-gephi-construction-dun-graphe-les-patrons-du-cac40-et-leurs-formations/ Tue, 10 Dec 2013 15:08:19 +0000 http://master-iesc-angers.com/?p=453 Qu’est-ce qu’un Graphe ? Les graphes sont utilisés dans de nombreuses disciplines (mathématiques, médecine, géographie, sociologie…) permettant ainsi l’étude de réseaux de différentes natures (transports, entreprises, individus). Sa conception “relativement simple” repose sur deux éléments : – nœuds ou sommets… Continuer la lecture

L’article Tutoriel Gephi : construction d’un graphe “Les patrons du CAC40 et leurs formations” est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Qu’est-ce qu’un Graphe ?

Les graphes sont utilisés dans de nombreuses disciplines (mathématiques, médecine, géographie, sociologie…) permettant ainsi l’étude de réseaux de différentes natures (transports, entreprises, individus). Sa conception “relativement simple” repose sur deux éléments :

nœuds ou sommets peuvent représenter du matériel, de l’immatériel, des entreprises, individus…

liens ou arêtes représentent les interactions ou les connexions entre les nœuds (collaboration, transmission de virus, hyperliens, onde radio…).

Définition du périmètre du réseau :

La construction du graphe se limitera aux liens entre les patrons du CAC40, leurs formations ainsi que leur entreprise. Les informations seront recueillies à partir du dossier “Les dirigeants des entreprises du CAC40” sur le site Journal du Net.

Construction du graphe à l’aide du logiciel gratuit Gephi

Télécharger le logiciel ici

Le logiciel a permis sur ce cas pratique de mettre en évidence l’importance d’écoles comme l’ENA, Polytechnique et HEC dans le réseau des dirigeants du CAC40.

Auteur : Elie Terrien

 

L’article Tutoriel Gephi : construction d’un graphe “Les patrons du CAC40 et leurs formations” est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>