Télécharger le fichier pdf d’un mémoire de fin d’études
Le cas des informations satiriques
Ces informations, bien que fausses, doivent être présentées distinctement des fausses informations. En effet, il est question ici d’humour fortement présent. Il est extrêmement rare de lire un article satirique et d’en croire le contenu. Un facteur ma-jeur allant en ce sens est le fait que les informations satiriques proviennent en extrême majorité de sites spécialisés dans la satire et sont donc connus du grand public. De plus, ces sites spécialisés déclarent ouvertement sur leur site la présence d’humour dans leurs articles. Le plus connu étant Le Gorafi 2.
Les informations alternatives
Les informations alternatives, aussi appelées faits alternatifs, ont pour objectif de montrer un fait d’un point de vue différent de celui donné par les médias habituels, afin d’amener la cible de l’information à changer son point de vue sur un sujet précis.
Ces informations ne peuvent pas être qualifiées de fausses car les éléments évo-qués ne peuvent pas être prouvés comme étant faux, mais ne sont pas non plus vérifiables comme étant vrais. De la même manière que les informations satiriques présentées précédemment, les informations alternatives proviennent souvent de sites dédiés exclusivement à ce type d’informations. Les groupes de réinformation sont sou-vent la cible de critiques en ce sens. Bien que ces groupes soient souvent des acteurs actifs quant à la diffusion d’informations non vérifiées, cela n’implique pas directement la non-véracité des informations partagées. La distinction entre les informations par-tagées par ces groupes et celles diffusées par des médias dits traditionnels (e.g. le journal Le Monde) est étudiée dans le chapitre 3.
Les informations vérifiées
Les informations vérifiées, ou sourcées, sont celles ne pouvant être contre-dites. De plus en plus de médias (médias sociaux notamment) demandent à leur utilisateurs de rendre disponible les sources des informations partagées. Cela a pour but de minimiser la diffusion de fausses informations.
Il est possible d’associer à cette catégorie les articles de sites vérifiants les infor-mations (par exemple le site Hoaxbuster 3) qui présentent les sources permettant de confirmer la véracité ou non de certaines informations évoquées. Idéalement, tous les articles diffusés sur les réseaux sociaux devraient être capable de présenter de telles sources.
La classification d’une information en tant que vérifiée car sourcée suppose un point important : la confiance en les sources citées. Un article citant une source crédible sera plus à même d’être considéré comme vrai. À l’inverse, un article de journal citant comme source un article issu du site Le Gorafi ne peut être classé comme vérifié. En résumé, une information ne peut être classée comme vérifiée que si nous considérons que les sources citées disent la vérité. C’est pourquoi il est difficile de classer des informations comme étant totalement fiables.
Un problème de société compliqué
La pratique de fournir et vérifier ses sources pour un journaliste est devenue une pratique de plus en plus incontournable. Cette pratique se propage par nécessité aux utilisateurs des réseaux sociaux, comme Facebook et Twitter , suite à la fréquence croissante d’apparition des fausses informations ainsi qu’à l’impact nouveau qu’elles peuvent avoir sur notre quotidien.
Cette section est consacrée, dans un premier temps, à l’étude des causes qui peuvent engendrer une fausse information. La section évoque dans un second temps les possibilités à long et moyen termes pour résoudre ce problème et plus spécifique-ment aux solutions mises en place par les professionnels de l’information.
Les fausses informations, une limite pour l’accès rapide à l’actualité
Le métier de journaliste en France est soumis à deux textes de référence ayant pour but de définir les droits et les devoirs du métier de journaliste : La charte des journalistes français de 1918 (actualisée en 1938 et 2011) et la charte européenne des devoirs et des droits des journalistes de 1971. Il est dit dans la première de ces chartes 4 que : « La notion d’urgence dans la diffusion d’une information ou d’exclusivité ne doit pas l’emporter sur le sérieux de l’enquête et la vérification des sources. »
Charte des journalistes français (version actualisée de 2011)
Ainsi, les journalistes se doivent de contrôler ce qu’ils diffusent. Cependant ces der-niers sont confrontés à une urgence de diffusion de l’information dûe à la concurrence avec les réseaux sociaux comme Twitter ou Facebook. Ces derniers ont une grande capacité de diffusion de l’information à grande vitesse. Une information est connue par la majorité des personnes très rapidement ce qui rend obsolète la diffusion de cette information par un journal 5.
Les journalistes sont aussi confrontés au pseudo-journalisme. Les téléphones de plus en plus compacts et la qualité des objectifs photographiques sur ces derniers étant de plus en plus importante, il devient possible pour n’importe quelle personne de devenir un pseudo-reporter de part ses accès aux réseaux sociaux. Lorsqu’un événe-ment se produit devant nos yeux, il suffit de prendre une photo avec notre téléphone et d’en informer tous nos contacts. La haute capacité de diffusion des informations sur les réseaux sociaux permet ici une propagation de cette information à la fois massive et rapide. Les journalistes sont ainsi confrontés à une nouvelle forme de journalisme qui tend à diffuser l’information le plus vite possible et cela en négligeant par manque de temps une vérification minutieuse des faits. C’est pourquoi certaines structures jour-nalistiques, mettent en place des équipes spécialisées dans la vérification de faits, automatique ou non. Cette notion sera développée par la suite dans la section 1.4.
Une nécessité d’éducation
Comme évoqué précédemment, les réseaux sociaux permettent une haute vélocité de l’information. Cela peut avoir des effets pleinement bénéfiques comme par exemple avec le hashtag #PorteOuverte 6. Grâce à ce hashtag, de nombreuses personnes ont eu la possibilité de se mettre à l’abri lors des attaques terroristes du 13 Novembre 2015 à Paris sans connaître la personne rencontrée de part ce hashtag. La puissance et l’efficacité de cette opération est passée par la très haute vitesse de propagation et l’union des utilisateurs parisiens de Twitter. Les utilisateurs ont ainsi tendance à parta-ger rapidement les publications qu’ils trouvent. Cependant, cela est fait sans vérifier si l’information partagée est vérifiée ou non.
Bien qu’il existe des sites référençant les fausses informations (e.g. Hoaxbuster 7), les utilisateurs des réseaux sociaux n’ont pas le réflexe d’utiliser ces derniers pour vérifier les publications qu’ils partagent. De plus, des équipes spécialisées dans la dé-tection et le référencement des fausses informations sont formées depuis plusieurs années. Cependant le temps que la fausse information soit détectée et signalée, l’in-formation est déjà partagée un trop grand nombre de fois sur les réseaux sociaux et il devient très difficile d’arrêter cette propagation.
Nous pouvons nous demander pourquoi les utilisateurs partagent naïvement les informations sans les vérifier. Plusieurs explications sont possibles :
1. la confiance envers la personne d’où provient cette information et le partage de l’information basé sur cette confiance. La plupart des réseaux sociaux se basent sur des liens de connaissance entre les utilisateurs (e.g. famille, ami, . . .). Les utilisateurs n’ont alors pas le réflexe de vérifier les informations provenant d’une personne de confiance ;
2. le partage de l’information sans la vérifier dans l’urgence. Si l’information pré-sente un aspect urgent à être partagée, les utilisateurs vont faire suivre les in-formations en sachant qu’un risque est présent de partager une information fausse, mais préfèrent faire ce choix « au cas où ». Un exemple notable de ce type de situation est l’annonce du nouvelle fusillade le soir du 13 Novembre 2015 au Halles de Paris en parallèle de la prise d’otages au Bataclan sur Twit-ter. Le tweet a été partagé des milliers de fois en quelques heures. Cet élan de partages a en plus engendré le déplacement de plusieurs patrouilles de police sur le lieu en question. Cela montre aussi les conséquences possibles dans le monde réel de la propagation d’une fausse information sur les réseaux sociaux.
Pour remédier à cela, il est important de former les utilisateurs à ces nouvelles technologies et à ces nouvelles possibilités d’accès à l’information. Pour cela, les mé-dias sont les acteurs majeurs de cette éducation. Cela peut être fait en apprenant les réflexes de vérification de faits 8 ou en analysant eux-même ce que les personnes partagent.
Stratégies de recherche et de référencement des fausses informations
Les médias ont depuis longtemps une nécessité de méthodologie quant à diffuser de l’information fiable. Cependant, les journalistes sont aussi soumis à la nécessité de diffuser les actualités en même temps que les autres médias, voir en premier pour avoir l’exclusivité, et sont donc dans l’urgence lorsqu’une information doit être traitée. Cette urgence est accrue depuis l’apparition des réseaux sociaux avec lesquels ces médias de journalisme se retrouvent en concurrence. Les réseaux sociaux permettent une diffusion rapide de l’information ce qui tend à rendre les médias traditionnels moins utilisés si ces derniers ne permettent pas d’avoir l’information en temps voulu. Cette nouvelle nécessité à vérifier les informations se traduit de plus en plus pour les médias par la création d’une équipe de spécialistes de la vérification de faits. En plus de ces nouvelles équipes spécialisées, les médias journaux et télévisuels (princi-palement) sont amenés à former respectivement les lecteurs et téléspectateurs à ne pas diffuser des fausses informations afin de limiter leur propagation.
Le projet The Reporters’ Lab 9, associé à l’université de Duke, répertorie des or-ganisations et structures à travers le monde possédant une méthodologie de vérifica-tion de faits (fact-checking). Pour cela, un label est proposé par ce projet aux médias correspondant à des critères précis 10. La liste répertorie plus de 100 organisations connues publiant régulièrement des articles qui évaluent l’exactitude des déclarations faites par des partis politiques, des journalistes ou toutes autres personnes ayant fait une déclaration à vérifier.
Stratégies de recherche et de référencement des fausses informations
Structures françaises spécialisées dans la vérification de faits
Les médias ayant pour souhait de minimiser la diffusion de fausses informations au quotidien, et de ce fait développer leurs capacités à détecter les fausses informations sur les réseaux sociaux, ont pour la plupart commencé à former leurs journalistes
à la vérification de fausses informations. Cependant, certaines structures vont plus loin et visent à mettre en place des outils dans le but de simplifier la vérification de leurs lecteurs. Au niveau de la France, six structures sont référencées comme des vérificateurs de faits : Le Monde, Libération, 20 Minutes, France 24, AFP et Franceinfo.
Le journal Le Monde a été un des premiers médias français à mettre en place un équipe dédiée à la vérification de faits le 10 mars 2014 du nom des Décodeurs. Plus tard, le 1er février 2017, les Décodeurs ont lancé le site Decodex 11 12.
Le but du Decodex est de catégoriser les sites internets entre plusieurs niveaux de crédibilité allant de site satirique à source crédible.
Il est cependant indispensable de souligner le fait que ce système vise exclusive-ment à catégoriser les sites et non les informations. Cela à donc une conséquence importante : l’utilisateur ne peut avoir qu’une indication sur la confiance à avoir au ni-veau de la source. Un site non-fiable peut diffuser une information vraie, de la même manière qu’un site fiable peut diffuser une information fausse.
La section Désintox et le site Check News Le journal Libération 13 intègre, depuis 2008, la section Désintox. Cette équipe est spécialisée dans la vérification de faits diffusés à la télévision, à la radio ou sur les réseaux sociaux.
Cette volonté s’est traduite par la mise en place du site Check News 14 lors des élections présidentielles de 2017 où les lecteurs posaient directement des questions à l’équipe d’analystes. Cette dernière effectuait alors le travail de vérification de faits (fact checking) dans le but de répondre le plus précisément possible à la question posée. 15 Le but du site Check News, qui est toujours actif, est de construire une base de faits vérifiés. Pour cela, les journalistes s’appuient sur la diffusion en temps réel des ques-tions déjà traitées. La Figure 1.2 présente les dernières questions traitées au moment de l’impression écran. Ces exemples de questions montrent bien la large possibilité de questions qu’il est possible de poser aux journalistes. On remarque aussi que sur les six questions posées, cinq proviennent de signalement sur Facebook ce qui tend à montrer que les fausses informations se propagent facilement sur ce type de médias.
Approches basées sur le texte
Le texte est une des composantes obligatoires dans toutes les publications. Le traitement de cette modalité peut prendre plusieurs formes allant de la représentation utilisant des descripteurs lexicaux, des descripteurs syntaxiques et des descripteurs de sujet.
Descripteurs lexicaux
Les descripteurs lexicaux sont calculés au niveau des mots. On y retrouve les comptages (e.g. nombre de points d’interrogation), les motifs associés aux fausses informations et les lexiques de sentiments.
Une des premières études utilisant ce type de descripteurs est proposée par [CAS-TILLO, MENDOZA et POBLETE 2011] qui s’intéressent à définir des descripteurs de comptage au niveau des messages (e.g. nombre de mots dans le texte) pour classer des tweets selon leur crédibilité (utilisation de deux classes crédible et non crédible). Ces travaux ont montré des différences entre les descripteurs de surface, selon leur propagation, pouvant être utilisé pour la classification. Deux exemples des descrip-teurs les plus discriminants sont « le tweet possède une URL » et « le tweet possède des points d’interrogation ».
Basé sur ces travaux, [KWON, CHA, JUNG, W. CHEN et al. 2013] proposent une approche plus orientée sur texte et appliquée cette fois à la problématique de classer un message comme vrai ou faux. Les auteurs recherchent notamment la présence de pronoms de la première personne, pronoms de la deuxième personne et de pronoms de la troisième personne avec par exemple respectivement les pronoms je, tu et il. Certains éléments du texte permettent ainsi d’améliorer les prédictions par rapport aux descripteurs proposés par [CASTILLO, MENDOZA et POBLETE 2011]. Parmi ceux là, on retrouve la présence de « le tweet possède des mots avec une orientation de sentiment positive ».
Ce type de descripteur est intéressant pour la détection de fausses informations, car il n’est pas possible de se baser exclusivement sur le contenu du message. L’entrai-nement d’un classifieur en utilisant exclusivement le contenu des messages pourrait engendrer un apprentissage basé sur les termes spécifiques aux fausses informations (e.g. une entité nommée particulière liée à une fausse information présente dans le jeu de données d’apprentissage). L’utilisation de descripteurs statistiques permet l’ap-prentissage de règle du type : « Les publications fausses sont généralement plus courtes que les informa-tions vraies. »
Représentation basée sur le contenu
[Z. ZHAO, RESNICK et MEI 2015] recherchent une forme d’interrogation par l’auteur et de correction d’une autre publication des messages de fausses informations. Les auteurs extraient les éléments les plus discriminants pour chaque classe (vrai ou faux) en utilisant une approche basée les caractéristiques du Term Frequency ou fréquence du terme (TF) des messages. Cette liste d’indices est ensuite étudiée par des experts qui sélectionnent des phrases indépendantes des événements comme modèles lexi-caux finaux pour les fausses informations. Ces travaux présentent l’avantage de passer par une phase d’analyse par des experts ce qui renforce la cohérence des modèles lexicaux trouvés.
Les mots lexicaux exprimant des sentiments spécifiques sont également des in-dices très importants pour caractériser le texte. Dans [CASTILLO, MENDOZA et PO-BLETE 2011], les marques émotionnelles (point d’interrogation et point d’exclamation) et les émoticônes sont considérés comme des caractéristiques textuelles.
L’émotion véhiculée dans le texte est aussi étudiée par [KWON, CHA, JUNG, W. CHEN et al. 2013] où de nombreuses caractéristiques lexicales associées aux senti-ments sont proposées sur la base de dictionnaires. Après une étude comparative de ces caractéristiques, les auteurs constatent que certaines catégories de sentiments sont des caractéristiques distinctives de la détection des fausses informations, notam-ment les mots à effet positif, les mots d’action cognitive et les mots d’action provisoire.
Ce type d’approches peut nous permettre d’apprendre des motifs propres aux textes associés à un fausse information comme par exemple : « C’est photoshopé ! »
Utilisation de réseaux de neurones
L’utilisation de représentations par plongement de mots est de plus en plus cou-rante. Ces représentations sont obtenues avec des réseaux de neurones entraînés pour reconstruire le contexte linguistique des mots [MIKOLOV et al. 2013]. Plusieurs travaux se sont inspirés de ces représentations pour la détection de fausses informa-tions.
Certains mots malveillants dans le contenu peuvent être fortement liés à la caté-gorie des fausses informations. Pour mieux comprendre les mots auxquels le modèle prête plus d’attention, [T. CHEN et al. 2017] proposent une utilisation d’un mécanisme d’attention. L’une des hypothèses de leur travail est que les caractéristiques textuelles des fausses informations peuvent changer d’importance avec le temps et qu’il est cru-cial de déterminer lesquelles sont les plus importantes pour la tâche de détection. Semblable à [MA et al. 2016], ils regroupent d’abord les publications par intervalle de temps. À chaque pas de temps, l’état caché d’un Recurrent Neural Network ou réseau de neurones récurrents (RNN) se verra attribuer un paramètre de pondération pour mesurer son importance et sa contribution aux résultats. La performance des expé-riences démontre l’efficacité du mécanisme d’attention et montre que la plupart des mots liés à l’événement lui-même sont moins utilisés que les mots exprimant le doute, l’esquive et la colère des utilisateurs causés par la fausse information.
[NGUYEN, C. LI et NIEDERÉE 2017] se concentrent sur la détection au début de la propagation de la fausses informations et proposent un modèle basé sur un Convolu-tional Neural Network ou réseau neuronal convolutif (CNN) et un RNN comme montré dans la figure 2.3. Le CNN est appliquée sur les tweets pour créer une séquence de représentations de phrases de haut niveau afin d’apprendre les représentations ca-chées de tweets liés à des fausses informations et ainsi prédire la véricité au niveau de chaque tweet. Ensuite, la partie de RNN est utiliser pour analyser les séries tem-porelles (séries de prédictions au niveau des publications) obtenues par CNN pour obtenir une prédiction finale.
Une des limites à l’utilisation de ces approches par plongement de mots pour nos travaux est un problème courant des réseaux sociaux, c’est à dire la capacité pauvre des réseaux de neurones à expliquer le choix de la classification. Or, il s’agit d’un point important quant à la confiance que doit avoir l’utilisateur auprès du système lui signifiant qu’une information est fausse.
Approches basées sur le contenu multimédia
La détection de modifications dans une image est un sujet qui se révèle vaste du fait du large panel de possibilités quant aux types de modifications possibles.
La présentation des techniques de détection de modifications dans une image est faite dans cette section en suivant la classification la plus courante dans l’état de l’art. La hiérarchie utilisée dans ce chapitre est présentée dans la figure 2.4. Les images nu-mériques peuvent être manipulées en utilisant deux familles d’attaques : des méthodes passives et actives, présentées successivement dans la suite de cette section.
Méthodes actives
La famille des attaques actives se décompose en deux sous-familles qui sont celles basées sur la détection d’une empreinte (watermarking en anglais) et celles utilisant la stéganographie. Elles ont aussi la particularité d’être des modifications invisibles à l’oeil humain.
La stéganographie est la technique permettant de cacher un message dans une image numérique. Ce type de techniques modifie les valeurs de quelques pixels per-mettant de cacher un message dans l’image sans modifier l’aspect visuel de l’image.
|
Table des matières
1 Contexte
1.1 Introduction
1.2 Quelle définition donner aux termes fausses informations
1.2.1 Les fausses informations
1.2.2 Le cas des informations satiriques
1.2.3 Les informations alternatives
1.2.4 Les informations vérifiées
1.3 Un problème de société compliqué
1.3.1 Les fausses informations, une limite pour l’accès rapide à l’actualité
1.3.2 Une nécessité d’éducation
1.4 Stratégies de recherche et de référencement des fausses informations
1.4.1 Structures françaises spécialisées dans la vérification de faits
1.4.2 Structures étrangères
1.5 Motivations et contributions de la thèse
1.6 Contenu du manuscrit
2 État de l’art
2.1 Introduction
2.2 Approches basées sur le texte
2.2.1 Descripteurs lexicaux
2.2.2 Représentation basée sur le contenu
2.2.3 Utilisation de réseaux de neurones
2.3 Approches basées sur le contenu multimédia
2.3.1 Méthodes actives
2.3.2 Méthodes passives
2.3.3 Méthode générique
2.4 Approches basées sur les autres modalités
2.4.1 Approches basées sur les informations sociales
2.4.2 Approches basées sur le cheminement du message
2.4.3 Approches basées sur l’événement
2.4.4 Approches basées sur plusieurs modalités
2.5 Discussions et choix d’approches
2.5.1 Analyse du texte
2.5.2 Analyse de l’image
2.5.3 Recherches non abordées dans cet état de l’art
3 Médias traditionnels et médias de réinformation
3.1 Introduction
3.2 Constitution du jeu de données
3.2.1 Sélection et annotation des pages Facebook étudiées
3.3 Approche par apprentissage supervisé
3.3.1 Descripteurs utilisés
3.3.2 Classification des publications
3.4 Analyse des résultats
3.5 Conclusion et perspectives
4 Détection de fausses informations par approches multimodales
4.1 Introduction
4.2 Présentation de la tâche Verifying Multimedia Use du challenge MediaEval2016
4.3 Présentation des systèmes ayant participé à la tâche Verifying Multimedia Use du challenge MediaEval2016
4.3.1 Approche textuelle (LK-T)
4.3.2 Prédiction basée sur la confiance des sources (LK-S)
4.3.3 Recherche d’images similaires (LK-I et LK-I2)
4.3.4 Présentation des autres approches
4.4 Résultats et discussions des différentes approches
4.4.1 Protocole expérimental
4.4.2 Comparaison des différentes approches selon les modalités exploitées
4.5 Stratégies de fusion
4.5.1 Fusion simple des soumissions
4.5.2 Fusion des prédictions élémentaires
4.5.3 Influence des connaissances externes dans la fusion
4.6 Conclusion
5 Détection de modifications dans une image
5.1 Introduction
5.2 Données utilisées
5.2.1 Jeux de données issus de la littérature
5.2.2 Jeux de données constitués dans le cadre de la thèse
5.3 Recherche d’images similaires par le contenu
5.3.1 Description des images
5.3.2 Recherche des images candidates
5.3.3 Filtrage des candidats
5.3.4 Expérimentations
5.4 Détection et localisation des modifications
5.4.1 Approche basée sur un appariement des descripteurs locaux
5.4.2 Expérimentations
5.4.3 Comparaison d’approches similaires
5.4.4 Analyse de la chaîne complète
5.5 Caractérisation des modifications
5.5.1 Représentation uniforme des patches
5.5.2 Expérimentations
5.6 Conclusion
6 Conclusion
6.1 Synthèse des travaux et discussion des contributions
6.1.1 Discrimination de médias traditionnels et de réinformation
6.1.2 Analyse des différentes modalités d’une publication
6.1.3 Détection de modification dans une image
6.2 Perspectives pour les travaux futurs
6.2.1 Étude multimodale
6.2.2 Fact Checking
6.2.3 Cohérence du résultat de l’approche image
Bibliographie
Télécharger le rapport complet