Détection de fausses informations dans les réseaux sociaux

Une nécessité d’éducation

Comme évoqué précédemment, les réseaux sociaux permettent une haute vélocité de l’information. Cela peut avoir des effets pleinement bénéfiques comme par exemple avec le hashtag #PorteOuverte . Grâce à ce hashtag, de nombreuses personnes ont eu la possibilité de se mettre à l’abri lors des attaques terroristes du 13 Novembre 2015 à Paris sans connaître la personne rencontrée de part ce hashtag. La puissance et l’efficacité de cette opération est passée par la très haute vitesse de propagation et l’union des utilisateurs parisiens de Twitter. Les utilisateurs ont ainsi tendance à partager rapidement les publications qu’ils trouvent. Cependant, cela est fait sans vérifier si l’information partagée est vérifiée ou non. Bien qu’il existe des sites référençant les fausses informations (e.g. Hoaxbuster ), les utilisateurs des réseaux sociaux n’ont pas le réflexe d’utiliser ces derniers pour vérifier les publications qu’ils partagent. De plus, des équipes spécialisées dans la détection et le référencement des fausses informations sont formées depuis plusieurs années. Cependant le temps que la fausse information soit détectée et signalée, l’information est déjà partagée un trop grand nombre de fois sur les réseaux sociaux et il devient très difficile d’arrêter cette propagation. Nous pouvons nous demander pourquoi les utilisateurs partagent naïvement les informations sans les vérifier. Plusieurs explications sont possibles :
1. la confiance envers la personne d’où provient cette information et le partage de l’information basé sur cette confiance. La plupart des réseaux sociaux se basent sur des liens de connaissance entre les utilisateurs (e.g. famille, ami, . . .). Les utilisateurs n’ont alors pas le réflexe de vérifier les informations provenant d’une personne de confiance ;
2. le partage de l’information sans la vérifier dans l’urgence. Si l’information présente un aspect urgent à être partagée, les utilisateurs vont faire suivre les informations en sachant qu’un risque est présent de partager une information fausse, mais préfèrent faire ce choix « au cas où ». Un exemple notable de ce type de situation est l’annonce du nouvelle fusillade le soir du 13 Novembre 2015 au Halles de Paris en parallèle de la prise d’otages au Bataclan sur Twitter. Le tweet a été partagé des milliers de fois en quelques heures. Cet élan de partages a en plus engendré le déplacement de plusieurs patrouilles de police sur le lieu en question. Cela montre aussi les conséquences possibles dans le monde réel de la propagation d’une fausse information sur les réseaux sociaux. Pour remédier à cela, il est important de former les utilisateurs à ces nouvelles technologies et à ces nouvelles possibilités d’accès à l’information. Pour cela, les médias sont les acteurs majeurs de cette éducation. Cela peut être fait en apprenant les réflexes de vérification de faits 8 ou en analysant eux-même ce que les personnes partagent.

Structures françaises spécialisées dans la vérification de faits

Les médias ayant pour souhait de minimiser la diffusion de fausses informations au quotidien, et de ce fait développer leurs capacités à détecter les fausses informations sur les réseaux sociaux, ont pour la plupart commencé à former leurs journalistes à la vérification de fausses informations. Cependant, certaines structures vont plus loin et visent à mettre en place des outils dans le but de simplifier la vérification de leurs lecteurs. Au niveau de la France, six structures sont référencées comme des vérificateurs de faits : Le Monde, Libération, 20 Minutes, France 24, AFP et Franceinfo. Le journal Le Monde a été un des premiers médias français à mettre en place un équipe dédiée à la vérification de faits le 10 mars 2014 du nom des Décodeurs. Plus tard, le 1er février 2017, les Décodeurs ont lancé le site Decodex 11 . Le but du Decodex est de catégoriser les sites internets entre plusieurs niveaux de crédibilité allant de site satirique à source crédible. Il est cependant indispensable de souligner le fait que ce système vise exclusivement à catégoriser les sites et non les informations. Cela à donc une conséquence importante : l’utilisateur ne peut avoir qu’une indication sur la confiance à avoir au niveau de la source. Un site non-fiable peut diffuser une information vraie, de la même manière qu’un site fiable peut diffuser une information fausse. La section Désintox et le site Check News Le journal Libération 13 intègre, depuis 2008, la section Désintox. Cette équipe est spécialisée dans la vérification de faits diffusés à la télévision, à la radio ou sur les réseaux sociaux. Cette volonté s’est traduite par la mise en place du site Check News 14 lors des élections présidentielles de 2017 où les lecteurs posaient directement des questions à l’équipe d’analystes. Cette dernière effectuait alors le travail de vérification de faits (fact checking) dans le but de répondre le plus précisément possible à la question posée. Le but du site Check News, qui est toujours actif, est de construire une base de faits vérifiés. Pour cela, les journalistes s’appuient sur la diffusion en temps réel des questions déjà traitées. Ces exemples de questions montrent bien la large possibilité de questions qu’il est possible de poser aux journalistes. On remarque aussi que sur les six questions posées, cinq proviennent de signalement sur Facebook ce qui tend à montrer que les fausses informations se propagent facilement sur ce type de médias. Les Observateurs De la même manière que les deux groupes précédemment présentés, le média France 24 propose un groupe de journalistes nommé Les Observateurs. Une différence notable avec les autres groupes est l’appel à participation des lecteurs. En effet, le groupe Les Observateurs utilise ce nom du fait de la position centrale des utilisateurs qui apportent leur aide sous forme de témoignages ou d’images (e.g. photos prises sur le lieu en question). L’AFP. L’Agence France-Presse (AFP) est une agence d’information mondiale fournissant une couverture des événements qui font l’actualité internationale sous de multiples formes (vidéo, texte, photo, multimédia et infographie). Cette agence est très souvent la source d’informations relayées ensuite par les médias comme 20 Minutes ou Libération. C’est pourquoi il est indispensable à l’AFP d’être en mesure de diffuser des informations vérifiées. L’AFP propose une interface de vérification de faits 16 dont la démarche fait suite au projet collaboratif CrossCheck, à l’occasion de la campagne présidentielle française de 2017, dans lequel l’AFP a tenu un rôle de certification finale des articles de vérification de faits (fact-checking).. Contrairement aux autres médias présentés, ce média ne présente pas ses résultats de recherche directement sur un site internet, mais donne sur son site 17 la charte de vérification 18 leur permettant de vérifier une information. De plus, ce média propose des conseils à leurs utilisateurs pour repérer si une information est vraie ou non. Franceinfo et son émission Le vrai du faux. Le vrai du faux 19 est une émission d’actualité qui analyse les diverses approximations qui circulent sur les sites web et les réseaux sociaux. On retrouve sur le site internet l’historique des émissions, ce qui permet de constituer un historique des fausses informations étudiées. On remarque alors que toutes les structures ayant obtenues ce label de vérificateurs de faits ne sont pas exclusivement des journaux papiers et que cette habitude de vérifier de manière structurée les faits peut être appliquée à de nombreux domaines comme la télévision ou la radio.

Descripteurs lexicaux

Les descripteurs lexicaux sont calculés au niveau des mots. On y retrouve les comptages (e.g. nombre de points d’interrogation), les motifs associés aux fausses informations et les lexiques de sentiments. Une des premières études utilisant ce type de descripteurs est proposée par [CASTILLO, MENDOZA et POBLETE 2011] qui s’intéressent à définir des descripteurs de comptage au niveau des messages (e.g. nombre de mots dans le texte) pour classer des tweets selon leur crédibilité (utilisation de deux classes crédible et non crédible). Ces travaux ont montré des différences entre les descripteurs de surface, selon leur propagation, pouvant être utilisé pour la classification. Deux exemples des descripteurs les plus discriminants sont « le tweet possède une URL » et « le tweet possède des points d’interrogation ». Basé sur ces travaux, [KWON, CHA, JUNG, W. CHEN et al. 2013] proposent une approche plus orientée sur texte et appliquée cette fois à la problématique de classer un message comme vrai ou faux. Les auteurs recherchent notamment la présence de pronoms de la première personne, pronoms de la deuxième personne et de pronoms de la troisième personne avec par exemple respectivement les pronoms je, tu et il. Certains éléments du texte permettent ainsi d’améliorer les prédictions par rapport aux descripteurs proposés par [CASTILLO, MENDOZA et POBLETE 2011]. Parmi ceux là, on retrouve la présence de « le tweet possède des mots avec une orientation de sentiment positive ». Ce type de descripteur est intéressant pour la détection de fausses informations, car il n’est pas possible de se baser exclusivement sur le contenu du message. L’entrainement d’un classifieur en utilisant exclusivement le contenu des messages pourrait engendrer un apprentissage basé sur les termes spécifiques aux fausses informations (e.g. une entité nommée particulière liée à une fausse information présente dans le jeu de données d’apprentissage). L’utilisation de descripteurs statistiques permet l’apprentissage de règle du type : « Les publications fausses sont généralement plus courtes que les informations vraies. »

Approches basées sur les informations sociales

L’une des principales caractéristiques des réseaux sociaux est la possibilité de réaliser toutes sortes d’interactions spécifiques aux réseaux sociaux. On peut lister trois types d’interactions sociales courantes sur les médias sociaux :
— les interactions entre utilisateurs, telles que « ajouter un ami » et « suivre ».
— les liens entre les contenus sont formés par des balises, des hashtag ou des liens URL ;
— les interactions entre les utilisateurs et le contenu, telles qu’une publication, l’ajout d’un commentaire ou le partage d’une publication.
De nombreux descripteurs sont dérivés de la caractéristique de connexion sociale des réseaux sociaux sur la tâche de détection des fausses informations. Les trois principaux types de descripteurs sociaux sont les descripteurs basés sur l’utilisateur, les descripteurs de propagation et les descripteurs temporels. Les descripteurs utilisateur sont issus directement du réseau social d’où est extrait la publication à prédire. Les fausses informations sont créées par quelques utilisateurs et diffusées par de nombreux utilisateurs. Les descripteurs utilisateur visent à décrire les caractéristiques d’un utilisateur unique ou d’un groupe d’utilisateurs composé de plusieurs utilisateurs associés. Les descripteurs individuels sont calculés sur un seul utilisateur, soit l’auteur de la publication. Ces descripteurs sont déterminés à partir du profil d’un utilisateur, telles que la date d’inscription, l’âge, le sexe [MORRIS et al. 2012], ou des mesures de comptage, telles que le nombre de followers et le nombre de messages postés [CASTILLO, MENDOZA et POBLETE 2011]. [MORRIS et al. 2012] ont proposé deux descripteurs pour marquer le comportement de publication de l’utilisateur : le descripteur « client » correspond au logiciel utilisé par l’utilisateur et le descripteur « emplacement » indique si le message est envoyé à partir de l’endroit où l’événement s’est produit ou non. Les descripteurs de groupe sont des descripteurs globaux d’un groupe dont les membres ont certains comportements similaires dans le processus de diffusion de la fausse information [F. YANG et al. 2012]. Ces descripteurs peuvent être obtenus en agrégeant les descripteurs d’un seul utilisateur, tels que le ratio d’utilisateurs vérifiés et le nombre moyen de followers. Kwon et al. ont étudié la stabilité des caractéristiques dans le temps [KWON, CHA et JUNG 2017]. Ils ont constaté que, pour la détection des fausses informations, les descripteurs linguistiques et utilisateur sont adaptés aux stades initiaux, tandis que les caractéristiques structurelles et temporelles ont tendance à être performantes à long terme.

Sélection et annotation des pages Facebook étudiées

La première phase de la constitution de ce jeu de données a été de lister le plus de médias possible selon nos connaissances personnelles. Cette liste a ensuite été complété par des listes trouvées sur internet . Les travaux présentés ici étant aussi bien motivés par une étude de messages francophones que anglophones, des pages contenant des messages dans ces deux langues ont été sélectionnés. Suite à cela, une liste de plus de 100 médias est trouvée. L’annotation de ces groupes est réalisée selon cinq labels :
1. médias de confiance ;
2. médias traditionnels ;
3. médias de réinformation ;
4. médias satiriques ;
5. autres médias.
Les médias de confiance sont les sites listant les fausses informations déjà connues. Nous y ajoutons le média AFP qui est un média particulier et qui est jugé comme étant une source de confiance. Les médias traditionnel correspondent à des organismes de presse réels et qui sont pour la grande majorité soit un journal papier, soit une chaine de télévision. Ces médias appartiennent à une société de presse identifiable. Les médias de réinformation sont associés à des groupes ayant un point de vue sur l’actualité se voulant différent de celui des médias traditionnels et qui veulent promouvoir leur façon de penser par l’affichage explicite d’une volonté de réinformation ou toutes variantes autour du thème de la révélation de la vérité cachée par les médias de masse. Enfin, nous associons à ce type de média les pages partageant des informations classées comme fausses dans des sites spécialisés dans l’analyse des informations fausses ou trompeuses (par exemple hoaxbuster.com, hoax-slayer.com) ; Les médias humoristiques sont des médias publiant des fausses informations basées sur l’humour. Ces sites déclarent le plus souvent ouvertement le coté humoristique des articles publiés. Enfin, le label autre permet de mettre de coté les médias ne vérifiant aucune des quatre classes précédentes, ces médias sont par conséquent jugés non pertinents pour notre jeu de données. Un exemple est la radio NJR initialement présente dans la liste des pages sélectionnées, mais qui ne contient quasiment que des informations sur la radio et non des d’actualités. La tâche d’annotation manuelle consiste alors en l’annotation des groupes selon ces cinq labels. Concernant les labels humour et confiance, l’annotation n’est pas nécessaire puisque nous appliquons des règles précises et automatiques sur ces deux labels (caractéristiques présentées précédemment dans la description de chaque type de média). Les autres groupes sont à annoter selon les classes traditionnel, réinformation et autre. Cette tâche d’annotation est effectuée par trois annoteurs. Les accords interannoteurs obtenus sont élevés (κ de Fleiss [Joseph L FLEISS et COHEN 1973] = 0.874 ;α de Krippendorff [KRIPPENDORF 1980] = 0.875). Ces deux accords ont pour but de représenter l’accord entre les différentes personnes ayant annoté les données et détermine indirectement la difficulté de la tâche en question pour un être humain (i.e. une tâche très facile recevra exactement les mêmes annotations quelque soit l’annoteurs).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Contexte
1.1 Introduction
1.2 Quelle définition donner aux termes fausses informations
1.2.1 Les fausses informations
1.2.2 Le cas des informations satiriques
1.2.3 Les informations alternatives
1.2.4 Les informations vérifiées
1.3 Un problème de société compliqué
1.3.1 Les fausses informations, une limite pour l’accès rapide à l’actualité
1.3.2 Une nécessité d’éducation
1.4 Stratégies de recherche et de référencement des fausses informations
1.4.1 Structures françaises spécialisées dans la vérification de faits
1.4.2 Structures étrangères
1.5 Motivations et contributions de la thèse
1.6 Contenu du manuscrit
2 État de l’art
2.1 Introduction
2.2 Approches basées sur le texte
2.2.1 Descripteurs lexicaux
2.2.2 Représentation basée sur le contenu
2.2.3 Utilisation de réseaux de neurones
2.3 Approches basées sur le contenu multimédia
2.3.1 Méthodes actives
2.3.2 Méthodes passives
2.3.3 Méthode générique
2.4 Approches basées sur les autres modalités
2.4.1 Approches basées sur les informations sociales
2.4.2 Approches basées sur le cheminement du message
2.4.3 Approches basées sur l’événement
2.4.4 Approches basées sur plusieurs modalités
2.5 Discussions et choix d’approches
2.5.1 Analyse du texte
2.5.2 Analyse de l’image
2.5.3 Recherches non abordées dans cet état de l’art
3 Médias traditionnels et médias de réinformation
3.1 Introduction
3.2 Constitution du jeu de données
3.2.1 Sélection et annotation des pages Facebook étudiées
3.3 Approche par apprentissage supervisé
3.3.1 Descripteurs utilisés
3.3.2 Classification des publications
3.4 Analyse des résultats
3.5 Conclusion et perspectives
4 Détection de fausses informations par approches multimodales
4.1 Introduction
4.2 Présentation de la tâche Verifying Multimedia Use du challenge MediaEval2016
4.3 Présentation des systèmes ayant participé à la tâche Verifying Multimedia Use du challenge MediaEval2016
4.3.1 Approche textuelle (LK-T)
4.3.2 Prédiction basée sur la confiance des sources (LK-S)
4.3.3 Recherche d’images similaires (LK-I et LK-I2)
4.3.4 Présentation des autres approches
4.4 Résultats et discussions des différentes approches
4.4.1 Protocole expérimental
4.4.2 Comparaison des différentes approches selon les modalités exploitées
4.5 Stratégies de fusion
4.5.1 Fusion simple des soumissions
4.5.2 Fusion des prédictions élémentaires
4.5.3 Influence des connaissances externes dans la fusion
4.6 Conclusion
5 Détection de modifications dans une image
5.1 Introduction
5.2 Données utilisées
5.2.1 Jeux de données issus de la littérature
5.2.2 Jeux de données constitués dans le cadre de la thèse
5.3 Recherche d’images similaires par le contenu
5.3.1 Description des images
5.3.2 Recherche des images candidates
5.3.3 Filtrage des candidats
5.3.4 Expérimentations
5.4 Détection et localisation des modifications
5.4.1 Approche basée sur un appariement des descripteurs locaux
5.4.2 Expérimentations
5.4.3 Comparaison d’approches similaires
5.4.4 Analyse de la chaîne complète
5.5 Caractérisation des modifications
5.5.1 Représentation uniforme des patches
5.5.2 Expérimentations
5.6 Conclusion
6 Conclusion
6.1 Synthèse des travaux et discussion des contributions
6.1.1 Discrimination de médias traditionnels et de réinformation
6.1.2 Analyse des différentes modalités d’une publication
6.1.3 Détection de modification dans une image
6.2 Perspectives pour les travaux futurs
6.2.1 Étude multimodale
6.2.2 Fact Checking
6.2.3 Cohérence du résultat de l’approche image
Bibliographie