Twitter : Tout ce qui se dit sur les opérateurs téléphoniques

La fouille d’opinions dans les réseaux sociaux, en particulier sur Twitter qui est un excellent substitut, permet l’analyse des réactions des internautes ainsi que l’identification des leaders des opinons dans un domaine donné. Cette opération est moins coûteuse que les enquêtes d’opinions.

En effet Twitter est un outil de microblogage permettant à toute personne voulant partager une idée, de communiquer via un message limité à 280 caractères. Les utilisateurs avec un nom d’utilisateur (@) peuvent interagir entre eux tout en identifiant le mot clé de leurs discussions avec un Hashtag (#).

La téléphonie est un des secteurs les plus sensibles à la critique, cela est dû à la démocratisation des Smartphones, les utilisateurs n’hésitent plus à exprimer publiquement leur opinion sur tout opérateur téléphonique. Cependant, Twitter est le premier réseau social qui regorge de toutes sortes d’opinions.

En France, il existe principalement quatre opérateurs, à savoir : Bouygues Telecom, Free, SFR et Orange.

Sur l’infographie, on remarque qu’Orange est l’opérateur mobile qui est le plus déployé en nombres d’abonnés (followers) qui atteignent les 170 mille. Cependant il reste peu actif : 34.1 mille tweets, en comparaison avec Bouygues qui dépasse les 500 mille tweets. SFR et Free donnent moins d’importance à twitter avec seulement 44k et 22k tweets.

Pourquoi opter pour Twitter comme plateforme d’analyse de sentiments adéquate ;

  • Les textes sur lesquels on travaille sont courts et presque de taille équivalente ;
  • Les textes sont plus focalisés sur un sujet ou un aspect bien déterminé : identifiables à l’aide d’un # ou d’une mention @ ;
  • Les internautes sont identifiables à l’aide de @, même si Twitter reste une plateforme où l’anonymat est répandu ;
  • Les textes sont à jour, et la réactivité des internautes est dynamique : La détection des tendances par rapport à un sujet devient plus facile.

I. Mise en contexte :

Les utilisateurs partagent leurs opinions en temps réel sur différents sujets à propos des opérateurs téléphoniques, en exposant leur satisfaction sur un produit donné ou en se plaignant des différents problèmes rencontrés.

Par ailleurs, les opérateurs téléphoniques peuvent utiliser ainsi les tweets pour collecter les opinions de leurs utilisateurs et avoir un sentiment général sur leurs produits.

Différentes actions sont possibles sur twitter :

  • Liker : cela veut dire que le texte vous plait et que vous avez envie de l’archiver pour une consultation antérieure.
  • Retweeter (RT) : le texte est intéressant et vous voulez le partager avec vos abonnés. Ce partage permet la visibilité du tweet sur votre profil mais avec un nom d’utilisateur différent.
  • Citer : permet de partager le tweet tout en ajoutant votre propre avis, commentaire, opinion à propos de l’information contenue dans le tweet.

L’API twitter

Twitter met à notre disposition des API (interface de programmation) qui permettent d’accéder par programme aux tweets et de réaliser ce qu’on appelle du data mining. Les perspectives sont nombreuses. Elles vont des statistiques descriptives simples (ex. quels sont les auteurs les plus actifs, quels sont les messages les plus retweetés, etc.) à des investigations plus sophistiquées (ex. quels sont les thèmes émergents, des communautés se sont-elles formées, etc.). Ainsi, les tweets se prêtent à de multiples explorations.

Pour chaque Tweet collecté on a :

 – des attributs qui concernent le tweet lui-même : Le contenu (du texte) – Les hashtags s’ils existent- La date de la publication.

des attributs qui concernent la position géographique : Pays

des attributs qui concernent le profil d’utilisateur : Le pseudonyme – Le nom d’utilisateur et l’identifiant.

R comme outil pour le datamining

Dans cet article, nous montrons comment accéder à des tweets principalement liés au thème choisi : les opérateurs téléphoniques français. Nous initierons une étude relativement basique des propriétés des tweets dans un premier temps. Nous enchaînerons ensuite sur l’exploitation du contenu des messages. Nous travaillerons sous R en nous appuyant sur le package “twitteR” de Jeff Gentry qui se révèle particulièrement pratique.

II. Extraction des tweets

La fonction searchTwitter() permet de chercher des tweets en ligne. Plusieurs paramètres sont disponibles. Dans notre exemple ci-dessous, nous spécifions le mot clé qui permettra de les sélectionner, nous limitons le nombre de messages extraits à n = 5000, nous nous intéressons aux documents en langue française (lang).

Le hashtag est devenu le filtre indispensable pour trier l’information qui se déverse des robinets sociaux. Le choix du bon hashtag est essentiel pour augmenter ses chances d’être lu. Bien le choisir est une étape essentielle.

Cependant, pour avoir les bons mots clé nous avons eu recours au site Hashtagify. Ce dernier est une véritable encyclopédie du Hashtag et un outil qui permet de trouver les meilleurs hashtags.

Il est très important de noter que nous ne savons  pas comment choisir les n=5000 tweets précisés précédemment. Et pour plus de précision, l’extraction a été lancée le 22 décembre 2017.

Après l’extraction se fait le stockage des tweets dans une structure data.frame. Puisque nous disposons d’une liste, les traitements sont encore plus facilités lorsque nous passons par une structure data.frame via la commande twListToDF(). Nous disposons ainsi d’un tableau rectangulaire avec n= 5000 lignes (tweets) et p = 16 colonnes.

III. Quelques statistiques descriptives

  1. Analyse des auteurs

Une fois la data.frame en main, il est facile d’établir la liste des 10 auteurs les plus prolifiques avec le nombre de messages envoyés. Mais il peut être biaisé par le fait que certains messages sont en réalité de simples retweets. Ainsi un nettoyage s’impose.

Dans la suite de l’article, les scripts ne seront appliqués que sur Bouygues Telecom. Une procédure qui peut être faite aussi pour les trois autres opérateurs téléphoniques : de la même manière en suivant les mêmes étapes.

2.Top des tweets : analyse de la popularité

Les internautes retweetent les messages lorsqu’ils ont en apprécié la teneur. Parmi les messages qui sont des retweets, nous essayerons d’isoler le message qui est le plus populaire. Mais avant de les extraire il est important d’éliminer les messages en doublon. Nous nous servons de la fonction duplicated() qui permet de les identifier.

Le script appliqué sur Bouygues remonte les deux tweets les plus retweetés, concernant Bouygues Telecom.

IV. Analyse du contenu du tweet

Avant d’analyser les thèmes, il est nécessaire de procéder à un nettoyage des lignes de la table, à savoir :

Le caractère “#” joue un rôle particulier sur Twitter. Il permet de désigner un hashtag, un sujet relatif au message que l’on rédige ou en relation avec nos préoccupations. Plusieurs hashtags peuvent donc apparaître dans un même message. Nous recensons l’ensemble des thèmes cités sous forme de hashtag dans l’ensemble de nos tweets.

Nous affichons les thèmes sous forme de wordcloud :

Conclusion

L’étude des tweets est un axe fort de l’analyse des réseaux sociaux parce que Twitter est devenu un vecteur de communication important. Cet exemple montre qu’il est aisé d’initier une première analyse à partir de données extraites directement en ligne.

Lorsqu’il s’agit d’aller dans le détail, explorer en profondeur les informations que recèlent les messages, l’affaire est tout autre. La phase de préparation des données prend une grande importance. De la rigueur dont nous faisons preuve dans cette étape dépendra la crédibilité des résultats que nous produirons.

Par Ghita Tagnaouti et Sara Lgana, promotion 2017-2018 du M2 IESCI

Bibliographie et webographie

Admin M2 IESC