twitter Archives - Master Intelligence Economique et Stratégies Compétitives Le Master Intelligence Economique qui combine analyse économique, outils de veille, e-réputation, gestion de crise et big data via une formation sur deux ans. Sat, 14 Feb 2015 10:46:36 +0000 fr-FR hourly 1 Tutoriel sur les fonctionnalités avancées de Gephi : usage des filtres pour obtenir des cartographies plus lisibles https://master-iesc-angers.com/tutoriel-sur-les-fonctionnalites-avancees-de-gephi-usage-des-filtres-pour-obtenir-des-cartographies-plus-lisibles/ Wed, 14 May 2014 16:36:52 +0000 http://master-iesc-angers.com/?p=685 Nous avons vu dans le précédent tutoriel comment effectuer des calculs d’influence et les visualiser via Gephi, dans le cadre d’un ensemble de tweets dont on étudie les mentions et RT. Néanmoins, ce genre de calcul ne suffit pas forcément… Continuer la lecture

L’article Tutoriel sur les fonctionnalités avancées de Gephi : usage des filtres pour obtenir des cartographies plus lisibles est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Nous avons vu dans le précédent tutoriel comment effectuer des calculs d’influence et les visualiser via Gephi, dans le cadre d’un ensemble de tweets dont on étudie les mentions et RT. Néanmoins, ce genre de calcul ne suffit pas forcément pour aider à visualiser les informations pertinentes. Dès lors que l’on étudie plusieurs milliers de tweets, l’information peu vite devenir brouillonne. Nous allons ici prendre l’exemple de l’analyse des 205 418 tweets envoyés avec le hashtag #EP2014 en avril : sans filtrage, une telle analyse est impossible à réaliser.

Nous allons voir ici :

–          Comment jouer sur la taille des nœuds (comptes twitter) pour les rendre plus visibles ;

–          Comment mettre en place des filtres mettant en valeur les résultats les plus pertinents selon la variable étudiée ;

–          Comment effectuer des filtrages par communautés

Jouer sur la taille des nœuds

Une première possibilité pour clarifier les cartographies obtenues pourra être de jouer sur la taille des « nœuds » représentés à l’écran – la taille choisie se reflète quel que soit ensuite le classement choisi (par degré, connectivité, centralité eigenvector). Les nœuds correspondent aux comptes twitter, les liens aux tweets du corpus.

La taille minimale correspond à celle des nœuds les plus petits : en l’augmentant, ceux-ci sont plus grands. Le résultat sera un graphique avec beaucoup de nœuds de taille moyenne plutôt que de petite taille.

La taille maximum correspond aux nœuds les plus importants : si on l’augmente, les quelques nœuds les plus importants seront énormes et seront les seuls visibles.

taille

Dans notre exemple, avec le réglage min = 10 et max = 100, on obtient ce graphique, très dense, avec très peu de nœuds visibles, et plutôt illisible (avec une police Ariel 12 pour les labels, de taille proportionnelle à la valeur du degré) :

taille_10_100Si on augmente la valeur maximum à 1000, les mêmes nœuds déjà identifiés deviennent plus visibles – il suffirait d’augmenter l’espace entre les nœuds pour avoir une bonne lisibilité de ceux avec les valeurs les plus élevées :

taille_10_1000Utiliser les filtres

Le filtrage par plage de degrés

Ce filtre correspond à l’affichage des nœuds en fonction du nombre de RT / mentions qu’ils ont obtenu. Plutôt que d’afficher avec Gephi les 200 000 tweets du corpus, on va donc ne retenir que ceux qui ont obtenu au moins 99 RT ou mentions.

Pour ce faire, on cherchera à afficher les degrés sortants. Les degrés entrants correspondent aux tweets envoyés par chaque nœud, et le total des degrés à la somme des tweets avec les mentions et RT. Cela nous permet de changer la taille des nœuds en prenant en compte le classement des degrés sortants (on garde ici une échelle de taille entre 10 et 100). Pour commencer, il faut aller dans la section classement, à gauche de l’écran, dans la section « Vue d’ensemble ».

degres_entrants_rankEnsuite, à droite de l’écran, il faut aller choisir un filtre. Une fois que celui-ci est sélectionné, une barre apparait en bas à droite de l’écran, allant de 1 jusqu’à la valeur de degré maximale. Il suffit de déplacer le curseur pour filtrer les degrés en fonction de leur valeur de degrés entrants.

degres_entrants_filtrage_99Vous noterez qu’en haut à droite de l’écran, le nombre de nœuds et de liens obtenus après le filtrage est indiqué. Cela permet de régler le filtre en fonction du nombre de nœuds désirés.

Nb : Comment ré agencer au mieux les nœuds restants ?

Une fois le filtrage effectué, on obtient en général, surtout sur un grand corpus de tweets, des nœuds très éclatés. Pour les réassembler, il faut utiliser l’algorithme « Force Atlas 2 » dans les paramètres de spatialisation en bas à gauche de l’écran :

degres_entrants_configurationOn obtient ainsi le résultat suivant, nettement plus lisible :

degres_entrants_resultatLes filtrages avancés (influence, connecteurs, PageRank)

Tout d’abord, après chaque filtrage terminé, il faut désélectionner le filtre en validant « filtrer » à nouveau en dessous de la sélection de la plage. On vérifiera bien que tous les nœuds et tous les liens sont à nouveau indiqués sur l’écran en haut à gauche.

filtres_SNAIci, on choisit comme filtre « Betweeness Centrality », qui correspond aux connecteurs. On sélectionne à nouveau une plage et on lance le filtrage :

filtres_connecteurs_mapA nouveau, il faut utiliser l’algorithme « Force Atlas 2 » pour repositionner les nœuds. On obtient un résultat très clair, avec 120 nœuds gardés par le filtre :

EP2014_avril_connecteurs_mapLes filtrages par communautés

Il peut également être intéressant de faire apparaitre certaines communautés, détectées par l’algorithme de Louvain, via un filtrage. On utilise pour ce faire le filtre « Modularity Class ».

Modularity_classOn obtient ensuite une liste des communautés, classées en fonction du pourcentage de nœuds compris dans chacune d’entre-elles. Il suffit de les cocher pour les filtrer ensuite.

Modularity_class_filtrage

Effectuer deux niveaux de filtrages

Dans le cas de l’étude d’un grand corpus, le filtrage des tweets est nécessaire également pour les grandes communautés : 10 % des 200 000 tweets font toujours 20 000 tweets, ce qui rend la cartographie illisible. Il est donc possible de choisir des sous-filtres.

Par exemple, si l’on veut uniquement afficher les nœuds avec plus de 200 mentions/ RT ou tweets, on ajoutera un filtre par plage de degrés, qu’on fera glisser sur l’option « Glissez le sous-filtre ici »:

Modularity_class_double_filtrageCe qui nous donne comme résultat une fois les étapes de « Force Atlas 2 » et de l’affichage passées :

EP2014_avril_0830_0948Auteur : Guillaume Sylvestre, consultant à l’ADIT

L’article Tutoriel sur les fonctionnalités avancées de Gephi : usage des filtres pour obtenir des cartographies plus lisibles est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Tutoriel d’analyse des fonctionnalités avancées de Gephi, via #ADP2014 https://master-iesc-angers.com/tutoriel-danalyse-des-fonctionnalites-avancees-de-gephi-via-adp2014/ Tue, 15 Apr 2014 07:24:03 +0000 http://master-iesc-angers.com/?p=635 Le hashtag #ADP2014 correspond aux échanges qui ont eu lieu entre le 10 mars 2014 et le 14 mars 2014 durant les intercessions de Bonn de la Conférence pour le Climat. Nous avons collecté 3573 tweets envoyés par 1400 comptes… Continuer la lecture

L’article Tutoriel d’analyse des fonctionnalités avancées de Gephi, via #ADP2014 est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Le hashtag #ADP2014 correspond aux échanges qui ont eu lieu entre le 10 mars 2014 et le 14 mars 2014 durant les intercessions de Bonn de la Conférence pour le Climat. Nous avons collecté 3573 tweets envoyés par 1400 comptes twitter, de personnes du monde entier. C’est un réseau très interconnecté : 32 communautés ont été identifiées via l’algorithme Louvain de Gephi.

Nous allons voir ici comment calculer quatre éléments importants de l’analyse des réseaux sociaux. Vous pouvez utiliser le fichier graphml des tweets pour vous entrainer également :

–          Le degré, en précisant les degrés sortants et entrants, qui correspond aux nombres de mentions et tweets d’un compte. Plus la valeur du degré est haute, plus le compte a été visible sur les réseaux sociaux ;

–          L’intermédiarité, qui correspond à la recherche des connecteurs entre les communautés. Les comptes correspondant ne sont pas forcément les plus influents, mais ils sont indispensables pour faire circuler une information ;

–          La centralité Eigenvector, qui détermine les comptes les plus influents, c’est-à-dire dont les messages vont atteindre le plus de personnes ;

–          Le PageRank, qui détermine l’importance d’un compte au sein du réseau.

Gephi permet d’une part d’obtenir un classement pour chacune de ces valeurs, mais également de visualiser les résultats par une cartographie.

Le calcul du degré

Pour obtenir le résultat et le classement, il faut suivre la démarche suivante (une fois suivies les étapes du premier tutoriel) :

cal_gephi_1A noter que pour les autres analyses, on utilisera toujours la même boite de dialogue, en choisissant le type de calcul via le chemin de la flèche 2, et en affichant le classement complet via le chemin indiqué par la flèche 3.

On obtient donc le classement suivant : @un_climatetalks (928 mentions et tweets), @irena_org (185), @duycks (133), @cfigueres (130), @rtcc_sophie (117), @earthinbrackets (112), @yebsano (111), @marinabodescu (98). On peut ensuite visualiser via la prévisualisation le résultat (en choisissant ici une taille des labels proportionnelle au degré, police arial 8).

01_ADP2014_degre_totalOn peut ensuite comparer les degrés entrants (mentions) et sortants (tweets envoyés) :

Classement degrés sortants :

cal_gephi_2Classement degrés entrants :

cal_gephi_3On constate donc un changement selon que l’on parle des mentions ou des tweets envoyés (carte extraite ici) :

02_ADP2014_degres_sortantsLe calcul de l’intermédiarité

Le calcul de l’intermédiarité nous permet d’afficher les nœuds qui sont au cœur des flux d’informations. En l’occurrence, cela signifie que c’est par eux que transitent les tweets. Ils sont indispensables pour diffuser l’information au sein du réseau.

cal_gephi_4Pour afficher les résultats de ce calcul, on utilise l’option « Plus courts chemins » dans la fenêtre « Statistiques » à droite de l’écran. A noter que cette option calcule également la proximité des comptes twitter. On obtient ensuite un résultat affiché près de l’onglet « Plus courts chemins » de 3,318 qui correspond à la distance moyenne entre les comptes twitter – ce qui confirme l’hypothèse de début que les utilisateurs du hashtag #ADP2014 forment une petite communauté.

cal_gephi_5Les comptes « connecteurs » sont donc dans l’ordre @un_climatetalks, @marinabodescu, @earthinbrackets, @rtcc_sophie, @cansouthasia, @mattias_s, @climatejustinfo, @duycks

Ce qui nous donne cette représentation graphique :

03_ADP2014_intermediarite Le calcul de la centralité Eigenvector

Une autre mesure intéressante des réseaux twitter est la connexion des comptes twitter influents à d’autres comptes twitter influents. Le résultat permet d’identifier les leaders du réseau, ceux qui donnent le plus de “portée” à leurs messages, à travers leur réseau et les réseaux de leurs réseaux.

cal_gephi_6cal_gephi_7Les influenceurs identifiés pour #ADP2014 sont donc dans l’ordre @un_climatetalks, @cfigueres, @yebsano, @rtcc_sophie, @irena_org, @rtccnewswire, @marinabodescu, @climatejustinfo, @duycks.

04_ADP2014_influenceursNb : Pour le calcul du PageRank, il faut installer le module complémentaire « SNAMetrics Plugin »

cal_gephi_8 Calcul du PageRank

Le PageRank est une mesure de l’influence d’un compte dans le réseau. Il permet de classer les comptes en fonction de la probabilité d’arriver dessus en suivant les tweets #ADP2014.

cal_gephi_9On va ainsi obtenir un classement légèrement différent des précédents qui se recoupaient plus ou moins :

cal_gephi_10Avec @un_climatetalks, @cfigueres, @halldorth, @marchildonsarah, @irena_org, @un, @yebsano, @rtcc_sophie, @rtccnewswire

Et une carte dont les équilibres ont changé :

05_ADP2014_pagerankAuteur : Guillaume Sylvestre, consultant à l’ADIT

L’article Tutoriel d’analyse des fonctionnalités avancées de Gephi, via #ADP2014 est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Introduction à la cartographie de communautés twitter https://master-iesc-angers.com/introduction-a-la-cartographie-de-communautes-twitter/ Tue, 11 Mar 2014 17:56:15 +0000 http://master-iesc-angers.com/?p=605 Outils nécessaires : –          Un compte twitter –          NodeXL, template excel, pour « aspirer les tweets » ou Visibrain (outil payant) si vous souhaitez avec l’exhaustivité (passer à la partie 3 du tutoriel) –          Gephi, outil de cartographie utilisant Java, pour visualiser les… Continuer la lecture

L’article Introduction à la cartographie de communautés twitter est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>
Outils nécessaires :

–          Un compte twitter

–          NodeXL, template excel, pour « aspirer les tweets » ou Visibrain (outil payant) si vous souhaitez avec l’exhaustivité (passer à la partie 3 du tutoriel)

–          Gephi, outil de cartographie utilisant Java, pour visualiser les communautés twitter

–          Les outils de recherche sur twitter

Premier exemple : Cartographier une communauté autour d’un hashtag

Dans notre exemple, nous allons profiter de la dynamique des élections municipales sur les réseaux sociaux pour cartographier les utilisateurs de twitter qui communiquent sur cette élection. Pour ce faire, nous allons identifier les hashtags en lien avec ce sujet. Pourquoi les hashtags et pas simplement les mots-clés ? Les hashtags sont utilisés pour mettre en avant une information et la rendre plus visible : il sera donc plus simple d’identifier les communautés des utilisateurs les plus engagés, notamment les influenceurs sur ce sujet.

  1. Identifier les hashtags correspondant à la recherche « municipales angers »

On pourrait effectuer une recherche sur twitter, mais le site Topsy permet également de visualiser le volume de données correspondant aux hashtags. En faisant la recherche « municipales angers » sur les tweets via Topsy, on va identifier les hashtags #mun49000 et #angers parmi les plus utilisés. Sur la dernière semaine, il y en a eu 1700 avec cette mention, c’est un bon corpus :

 intro_twitter_1

  1. Aspirer les tweets via NodeXL

Une fois le template excel installé, le lancer via le lien « NodeXL Template ». NodeXL ne modifie pas excel, il n’est donc accessible qu’en utilisant son lien. Une fois lancé, sélectionner la boite à outil « NodeXL » et aller sur l’onglet « import » pour importer les données.

 intro_twitter_2

Nous cherchons à importer les tweets correspondant à la recherche twitter « #angers #mun49000 ». Nous allons donc choisir l’option « From Twitter Search Network ».

 intro_twitter_3

NodeXL étant un outil gratuit, il n’a pas accès à tous les tweets. Il est limité à 18 000 tweets, sur une recherche de 7 jours. Par ailleurs, twitter a introduit une limitation de l’aspiration des tweets. Si un certain quota est dépassé, il faut attendre 15 minutes avant la poursuite de la requête. Cela signifie que pour des recherches incluant la cartographie des liens entre les utilisateurs d’un hashtag, il faut prendre son mal en patience. Comptez 5 heures pour 1000 tweets. Sinon, cela prend seulement quelques minutes. Cette recherche a pris environ 6 heures.

Une fois les tweets collectés, demander leur export au format GraphML

 intro_twitter_4

Mise en garde : twitter ne donne pas accès à toutes ses données aux outils gratuits. La limite de récupération des données varie entre 6 et 9 jours, et dépend du volume total demandé. Pour des demandes correspondant à moins de 1000 tweets, l’exhaustivité ne pose pas de problèmes. Par contre, pour les « trending topics », twitter ne donne accès qu’à une présélection de tweets.

  1. Cartographier les communautés via gephi

Si vous utilisez Visibrain, pour faire votre export de données, il faut aller dans le menu “Data”, puis sélectionner “Users” et enfin “Mention Graph”. Attention, si vous avez beaucoup de mentions, le fichier va prendre du temps à se télécharger. Au delà de 50 000 mentions, il faut demander à Visibrain une extraction spécifique (en indiquant l’URL de votre requête et la période de temps voulue). Le fichier obtenu sera au format DOT.

2015-02-14_1144

Une fois Gephi lancé, aller dans « Fichier » puis « Ouvrir », et sélectionner votre export des données NodeXL ou Visibrain.

 intro_twitter_5

Les 229 nœuds correspondent au nombre de comptes twitter identifiés dans les tweets. Les 7762, aux interactions entre eux et autour des hashtags « #angers #mun49000 ». On obtient ensuite un amas de nœuds, qu’il convient de démêler. Pour ce faire, le menu « Spacialisation », au milieu à gauche, propose différentes options. Je vous invite à toutes les tester, nous allons cette fois-ci utiliser « Force Atlas », avec les réglages suivants :

 intro_twitter_6

La valeur de la force de répulsion dépend de la densité des nœuds et de leurs relations, l’important étant de bien distinguer les nœuds et de pouvoir lire chaque label (qui s’affiche via le « T » en bas de l’écran). La variable d’ajustement par taille permet d’éviter les chevauchements.

On obtient donc une cartographie des relations entre les comptes twitter, lisible et détaillée. Néanmoins, deux informations importantes manquent : d’abord, visualiser les comptes les plus importants, ceux qui sont au cœur de la diffusion des informations sur #angers #mun49000. Ensuite, pouvoir identifier les communautés d’utilisateurs de ces hashtags.

 intro_twitter_7

Les nœuds permettent donc de visualiser l’importance des comptes twitter dans le réseau #angers #mun49000 : plus un nœud est gros, plus le compte twitter associé est influent sur ce sujet. Par ailleurs, plus les traits sont visibles entre un nœud et ceux qui l’entourent, plus le compte associé est influent par rapport à ceux qui l’entourent.

 intro_twitter_8

Pour détecter et mettre en évidence les communautés, il faut utiliser l’algorithme de modularité, disponible sur le panneau au milieu à droite de l’écran. Le paramètre par défaut permet d’identifier 4 communautés, c’est un chiffre raisonnable. Si vous le trouvez trop grand ou trop petit, vous pouvez jouer sur la « résolution » pour changer le nombre de communautés. Le calcul est basé sur les relations entre les nœuds.

 intro_twitter_9

On obtient ensuite via le choix « Modularity Class » dans « Partition » et « Nœuds » l’affichage des communautés. Les quatre couleurs sont choisies par défaut, il est possible de les changer. En exécutant, elles s’affichent sur les nœuds. Il ne reste plus qu’à visualiser et à exporter la cartographie.

 intro_twitter_10

On obtient ainsi la carte suivante en cliquant sur « Rafraichir », puis en allant dans « Aperçu » :

 intro_twitter_11

Seules deux communautés de militants sont assez actives pour être identifiées : les supporteurs du maire Frédéric Béatse, en vert ; les soutiens de son challengeur Christophe Béchu, en rouge.

Pour la carte complète : http://www.flickr.com/photos/110207842@N02/12986442103/

Merci pour votre intérêt ! Nous reviendrons sur le sujet plus tard, tant les applications sont nombreuses : identifier les communautés autour d’une marque, visualiser les influenceurs en temps réel lors d’une campagne sur les réseaux sociaux, savoir qui propage des informations négatives / positives.

Pour aller plus loin sur gephi, vous pouvez consulter les tutoriaux en ligne (en anglais) : http://gephi.org/users/quick-start/

 Auteur : Guillaume Sylvestre, consultant à l’ADIT

L’article Introduction à la cartographie de communautés twitter est apparu en premier sur Master Intelligence Economique et Stratégies Compétitives.

]]>