État de l’art : exploitation de la Wikipédia et étude des interactions entre utilisateurs
Cette section explique le choix de la plate-forme Wikipédia afin d’étudier les interactions inhérentes au processus de rédaction collective en présentant cette dernière, avant de s’intéresser à l’état des différentes recherches existant à ce sujet, pour enfin expliquer de manière détaillée les objectifs et la démarche de cette étude.
La Wikipédia : une communauté, des interactions
La Wikipédia (désormais WP) est une encyclopédie rédigée de manière collaborative par une communauté bénévole d’internautes. Cela signifie que les modifications sont libres, et tout internaute peut intervenir et modifier son contenu. Cette approche collaborative de la rédaction des articles est fondée sur un principe d’autorégulation au sein de la communauté active. Ainsi, comme le souligne Pierre-Carl Langlais, les prises de décision et les modifications s’appuient sur des choix consensuels, plutôt que sur l’appel à la majorité ou le choix d’une figure d’autorité (Langlais, 2014). Or, atteindre un consensus passe inévitablement par des processus de communication, d’échange, de négociation voire parfois de débat entre les différents contributeurs. Ainsi, la Wikipédia qui est principalement connue pour sa dimension encyclopédique et ses articles très fréquemment consultés par de nombreux utilisateurs qui ne participent pas à leur rédaction, est également le théâtre d’abondantes interactions entre les contributeurs impliqués dans son évolution. Mais avant de nous attarder sur cette dimension, revenons brièvement sur la globalité de cette encyclopédie qui fait l’objet de nombreuses études, ainsi que son fonctionnement.
Une dynamique de recherche autour de la Wikipédia
Le développement d’internet a entraîné l’apparition de situations de communication nouvelles et de formes inédites de discours, couramment qualifiées, entre autre, de Computer Mediated Communication (CMC) en anglais, ou Communication Médiée par Ordinateur (CMO) en français (Herring et al., 2013). Avec pas moins de 30 millions d’articles au total, dont environ 1,9 million dans la WP française, 5,4 millions pour la version anglaise, ou bien plus de 200 000 en espéranto, la Wikipédia est l’un de ces objets d’étude, particulièrement attrayant de part la grande quantité de données qu’elle contient, son caractère multilingue, la conservation de toutes les modifications effectuées dans un historique ou encore le fait que l’accès au contenu de l’encyclopédie soit sous licence Creative Commons BY-SA , i.e.gratuit et libre d’exploitation sous réserve de respecter les conditions de la licence.
Ces particularités en ont fait un objet de recherche à part entière, autour duquel une réelle dynamique s’est installée. En témoignent les plus de 6 000 publications à son sujet recensées par Wikipaper, et dont les thèmes étudiés sont divers et variés. Notre travail s’inscrit dans cette dynamique de recherche, et plus particulièrement dans l’étude de l’interaction des contributeurs de la Wikipédia
Les données : pages de discussion et affinage du corpus WikiDisc en écartant les données non pertinentes
La première étape de ce projet repose sur l’élaboration, à partir d’une grande quantité de données, d’un corpus contenant des donnée plus pertinentes et centrées sur les interactions entre les utilisateurs.
Cette section décrit les deux stades de l’élaboration du corpus réduit, en présentant dans un premier temps l’objet principal de la recherche, les pages de discussion, ainsi que WikiDisc, le corpus de départ, avant de décrire la phase de filtrage qui permet d’écarter les données inappropriées afin d’établir un corpus dont l’analyse est explicitée dans les sections suivantes.
Les données initiales : WikiDisc, un corpus de pages de discussion
Les pages de discussion : une dimension méconnue de la Wikipédia
Afin d’assurer le bon déroulement du processus collaboratif de rédaction des articles, la communication entre les contributeurs est essentielle. Les pages de discussion sont donc des lieux indispensables au bon fonctionnement de l’encyclopédie collaborative. Il est ainsi possible de discuter directement avec un utilisateur sur les pages de discussion utilisateurs, d’interagir au sujet d’un article particulier sur les pages de discussion des articles, ou encore de discuter avec la communauté de wikipédiens sans pour autant viser un utilisateur ou un article particulier, au sein d’un des nombreux espaces de discussion. Notre recherche vise plus particulièrement le second cas de figure, i.e. les discussions entre utilisateurs dans le cadre de la rédaction d’un article.
Chaque article possède donc une page dédiée à ces échanges : ce sont les pages de discussion, dont le lien est accessible par un onglet (Exemple 1) en haut de la page de l’article. Ces pages permettent aux internautes d’échanger sur les différents points à améliorer, les changements à effectuer, ou encore les précisions à apporter à l’article afin de le perfectionner, qu’il soit le plus complet et référencé possible.
Chaque PdD peut être accompagnée de PdD parallèles qui ciblent un thème particulier de l’élaboration de l’article, comme par exemple la page Suppressionqui peut exister si la pertinence de l’article est remise en cause, ou encore la page Bon articleau sein de laquelle les contributeurs peuvent discuter des modifications à effectuer avant de demander le label Bon article au comité qui s’occupe de l’accorder.
Par ailleurs, si un article fait partie d’un projet thématique, alors un bandeau en haut de la page de discussion précise cette information. Enfin, la plupart des pages de discussion possèdent un sommaire des fils de discussion qu’elle contient afin de faciliter la navigation dans la page.
Une page de discussion rassemble des fils de discussion créés par les contributeurs, correspondant chacun à une discussion sur un thème défini, qui est souvent précisé dans le titre du fil. Les fils de discussion (Exemple 2) sont eux alimentés par des messages postés par les internautes qui discutent, échangent, débattent ou négocient autour du sujet du fil de discussion. La structure du fil de discussion est censée illustrer le déroulement de la discussion, composée par des messages qui s’imbriquent à la suite les uns des autres, et où l’ordre est déterminé par l’enchaînement chronologique.
Première manipulation : pages de discussions parallèles et fils de discussion sans contenu interactif, un filtrage pour écarter les données non pertinentes
Dans un premier temps, le corpus a été étudié dans son intégralité. En prenant compte des objectifs d’observation de situations d’interactions entre utilisateurs dans les fils de discussion, plusieurs cas à écarter des données à observer ont été identifiés.
Niveau pages de discussion : sélection des pages principales
Comme évoqué précédemment, les données étudiées sont divisées en plusieurs niveaux : tout d’abord, il y a le niveau « page de discussion », qui correspond à l’ensemble de la page de discussion dédiée à l’article Wikipédia associé. En réalité, chaque article peut avoir une page de discussion principale, mais il peut également exister des pages de discussion parallèles (Exemple 1), qui sont dédiées à un thème en particulier, d’après une liste de thèmes récurrents bien souvent liés à des questions de forme, de norme et d’organisation plus que de contenu. Le contenu de ces pages de discussion parallèles peut différer d’une page de discussion habituelle, car, en plus de contenir des fils de discussions développés, elles sont très fréquemment le lieu de vote sur le sujet auquel elles se rapportent. Ainsi, comme le montre l’exemple 7, sur la page parallèle Article de qualité de la discussion Pierre Lambert de La Motte (Exemple 1), l’admissibilité de l’article associé est débattue sous forme de vote .
Malgré la présence de situations d’interactions pertinentes dans les pages de discussion parallèles, nous avons fait le choix de ne pas les conserver dans les données à observer car elle sont aussi fréquemment le lieu d’interactions qui ne rentrent pas dans le type d’interaction que nous souhaitons analyser dans le cadre de cette étude.
Niveau fil de discussion : identification des fils n’ayant pas de potentiel d’interaction
Nous avons effectué un premier tri au niveau des pages de discussion afin d’écarter les fils de discussion qui sont issus de pages de discussion parallèles, car ces dernières contiennent régulièrement des fils de discussion au sein desquels se déroulent des votes ( Exemple 7), situation d’interaction que nous ne souhaitons pas analyser lors de cette étude. Les données restantes sont ainsi composées de tous les fils de discussion qui proviennent de pages de discussion parallèles ou de pages de discussion archivées (Tableau 2).
Exemple 7: Discussion:Pierre Lambert de La Motte/Article de qualité PdD : 6297650, FdD : 4 Vote des contributeurs.
À partir de maintenant, les fils de discussion sont considérés comme unité d’analyse. Une première analyse des données restantes a fait émerger des profils de fils de discussion qui sont pauvres en interactions. Cette section décrit l’identification de ces situations à partir de traits établis grâce à l’analyse outillée des fils de discussion (Tableau 3) : le nombre d’utilisateurs impliqués dans le fil, le nombre de messages total dans le fil ainsi que l’utilisateur le plus actif du fil.
Fils vides et mono message
Le deuxième niveau de structure des données est celui du fil de discussion, comme expliqué en section II.1.3 Structure des données de WikiDisc. Un premier aperçu de l’ensemble des fils de discussion, grâce à leurs statistiques quantitatives, met rapidement en évidence des cas qui risquent de ne pas être exploitables.
Tout d’abord, certains FdD sont vides, c’est à dire qu’ils ne contiennent aucun message. Une observation manuelle de 25 fils vides a fait ressortir que plusieurs situations peuvent expliquer cette absence de message. En voici les principales :
• Problème lors de la création du fil / l’élaboration d’un message : l’utilisateur n’a pas bien respecté la structure de la WP, et a posté un message en tant que fil, par exemple.
• Le titre du fil de discussion est utilisé comme titre de niveau supérieur pour des fils de discussion de hiérarchie inférieure (Exemple 8).
• Le titre du fil est utilisé comme section de vote où les utilisateurs souhaitant voter pour cette section sont censés le signaler sous forme de message dans ce fil. Parfois la section ne génère aucun vote, et le fil reste donc vide.
Fils monologue
Certains fils de discussion sont caractérisés par le trait 01_nbUsr = 1, ce qui signifie qu’ a prioriun utilisateur fait un monologue. En croisant l’observation avec le trait 03_ actif, deux cas de figure ont émergé : soit le l’utilisateur est identifié, soit l’utilisateur est considéré comme anonyme, ce qui signifie que plusieurs contributeurs peuvent potentiellement se cacher sous le pseudonyme « anonyme ».
Cas des auteurs identifiés
L’observation de 5 fils de discussion n’impliquant qu’un seul contributeur identifié a fait ressortir plusieurs objets de monologue :
• Le contributeur pose une question, fait une remarque, et y répond lui même (Exemple 9).
• Le contributeur fait une check listdes modifications qu’il effectue.
• Le contributeur exprime plusieurs remarques, qui ne sont pas forcément articulées entre elles, comme si le fil était un journal de bord.
Par ailleurs, cette situation est bien entendu possible dans tous les FdD comprenant un utilisateur identifié anonyme correspondant à plusieurs utilisateurs, parmi d’autres utilisateurs identifiés. Ce cas de figure étant particulièrement complexe à déceler, la situation expliquée précédemment est la seule pour laquelle le cas anonyme a subi un traitement particulier. Désormais, tous les cas anonyme seront considérés comme un seul utilisateur lorsque la caractéristique01_nbUsersera prise en compte.
Dans la mesure où une situation d’échange entre utilisateurs ne peut exister que si plusieurs, donc au moins deux, utilisateurs sont en interaction, les fils de discussion identifiés comme monologue, ainsi que les fils de discussion identifiés comme monologue_anonyme ne sont pas conservés dans les données à étudier car ils sont dépourvus de potentiel d’interaction. Les données restantes, le corpus_v1, est composé de tous les fils ne discussion qui ne correspondent pas au profil vide, mono message, monologue ou monologue_anonyme (Tableau 7).
Plus de deux messages
Une première observation de 20 fils de ce sous ensemble a fait ressortir que le contenu des fils était beaucoup plus interactif, notamment en terme de débat et/ou de collaboration par rapport à la rédaction.
Nous avons tout de même observé certains seuils extrêmes afin d’exclure d’éventuels fils qui pourraient ne pas être pertinents. Ainsi, la moyenne du nombre de mots par messages (06_ moyMotsMsg )a été observée selon les cas extrêmes :
• Extrême haut : le seuil a été établi après observation de la moyenne totale des moyennes de mots par message du fil. Celle-ci étant de 107 mots par message, et la médiane de 80 mots par messages, un échantillon de fils ayant une moyenne nettement supérieure à 107 ont été observés (entre 300 et le maximum, 1269).
• Extrême bas : ce seuil a été défini en observant la moyenne de mots par message minimale, de 6 messages. Peu de fils ayant une moyenne aussi basse, un échantillon de fils ayant une moyenne situées entre le minimum et 50 ont été observés.
• Extrême haut : 06_moyMotsMsg> 300
L’observation manuelle de 5 fils parmi les extrêmes a fait émerger plusieurs cas :
• Cas 1 : L’ensemble ou une partie du contenu n’est pas rédigé par l’utilisateur, et agrandit sensiblement la taille du message. Ce type de contenu est issu d’une source extérieure : comme l’illustre l’exemple 13, un des messages postés contient un historique, ce qui n’est pas une séquence produite par un des auteurs.
◦ Exemples :Citation, Exemples, Liste (historique)
• Cas 2 : Les messages qui constituent le fil sont riches et produits par les contributeurs.
Afin de différencier ces différents cas, deux autres traits ont été observés : le nombre total de messages du fil, ainsi que la moyenne de phrases par message du fil.
À noter que la moyenne de phrase a été rapportée à la moyenne de mots afin qu’elle soit plus facilement interprétable.
Le Tableau 12reprend ces indices, et pour chaque fil précise s’il concerne le cas de contenu externe (cas 1), ou bien le cas de messages effectivement rédigés par les utilisateurs (cas 2).
Corpus_v2 : Profils retenus pour une observation approfondie
Cette première caractérisation a permis d’identifier des profils généraux de fils de discussion.
L’objectif de ce projet étant de s’intéresser particulièrement aux situations impliquant une réelle collaboration entre les utilisateurs, cette première phase a été l’occasion de caractériser des profils que l’on ne souhaite pas, dans un premier temps, analyser de manière plus approfondie, car ils ont un potentiel d’interaction relativement pauvre, ou bien contiennent des séquences qui n’ont pas été produites par les utilisateurs, et donc risquent de fausser la valeurs de certains traits.
En partant du postulat que les interactions diffèrent selon le nombre d’interlocuteurs impliqués, cette étape a également permis de répartir les données restantes dans deux sous-ensembles qui différencient les interactions entre deux locuteurs exactement, et entre plus de deux locuteurs. Ces deux sous-corpus qui composent le corpus_v2 sont ainsi constitués des fils de discussion qui n’ont pas encore été caractérisés par l’un des profils identifiés précédemment, et sont destinés à être observés de manière plus approfondie afin de faire émerger des nouveaux profils d’interactions, plus subtils et moins généraux.
Faire émerger des profils : exploration approfondie du corpus_v2
Après avoir affiné le corpus WikiDisc en excluant les fils de discussion jugés non pertinents (cf. II.2 Première manipulation : pages de discussions parallèles et fils de discussion sans contenu interactif, un filtrage pour écarter les données non pertinentes) les données restantes de la première version du corpus ont été analysées selon des traits descriptifs ( Tableau 8) relevant de certaines caractéristiques quantitatives des FdD, afin de faire émerger des profils d’interaction ( Tableau 23). Les données n’ayant pas encore été identifiées, i.e. le corpus_v2, ont été réparties dans deux sous-corpus, cDuo et cPluri, afin d’en faciliter l’analyse.
La prochaine étape consiste ainsi à explorer de manière plus poussée les données n’ayant pas encore été catégorisées, selon les traits déjà employés au cours des analyses précédentes ( Tableau 3& Tableau 8), mais aussi selon de nouveaux traits qui caractérisent le contenu linguistique ainsi que la dimension interactive et temporelle des fils (Tableau 25), comme par exemple le taux de certains pronoms personnels, la proportion de phrases exclamatives, ou encore la symétrie de la répartition des tours de paroles. Ces traits permettent d’isoler certains échantillons selon des seuils établis. L’analyse qualitative de ces échantillons est guidée par une grille d’annotation inspirée des différentes situations qui ont été annotées manuellement lors des étapes précédentes.
Une grille d’annotation pour accompagner l’observation
La première phase de tri présentée dans la section précédente a également été l’occasion d’observer manuellement un échantillon conséquent de fils de discussion, permettant ainsi, en plus de déterminer la pertinence de certains types de FdD, d’identifier des caractéristiques récurrentes. Ces caractéristiques ont ainsi servi à élaborer une grille d’annotation pour guider l’observation manuelle de la seconde phase du projet de recherche : celle de l’identification de profils types d’interaction. Cette grille d’annotation a pour but d’accompagner l’analyse des échantillons de fils de discussion sélectionnés à partir de certains seuils des traits caractéristiques présentés précédemment, afin d’être examinés manuellement, mais elle n’est pas considérée comme un schéma strict d’annotation à respecter de manière rigoureuse.
Amorce de l’identification de profils plus précis
L’objectif de cette étape est d’identifier des profils d’interaction plus précis et subtils que les profils généraux dégagés auparavant à partir d’un ensemble plus complet de trait et d’une grille d’annotation pour guider l’analyse qualitative d’échantillons. Cette section revient ainsi sur l’application de cette méthodologie sur des données sélectionnées et réparties dans les sous-ensembles cDuoet cPluri, car n’ayant pas encore été catégorisées.
Un échantillon de 40 fils de discussion a été constitué de manière aléatoire à partir du sousensemble cDuo pour la phase d’annotation manuelle. Tous les fils n’ont pas été catégorisés, mais cette analyse a mis en relief deux types d’interactions entre les utilisateurs.
Collaboration harmonieuse
Ce profil concerne les fils de discussion dans lesquels les utilisateurs sont réellement impliqués et coopérèrent, avec pour objectif de modifier et améliorer l’article dans son ensemble ou certains points précis. Les échanges sont centrés sur la tâche à effectuer, et le bon déroulement du processus de rédaction collaborative passe par des interrogations, des conseils, et la prise en compte des remarques entre les contributeurs. Dans ce type d’interaction, les utilisateurs se répartissent fréquemment les tâches, ils proposent des modifications concrètes à effectuer, et atteignent un consensus. Dans l’exemple 17, le premier contributeur s’adresse à la communauté et invite de potentiels contributeurs à se joindre à lui, puis les deux contributeurs impliqués se répartissent bien les tâches et font des des propositions concrètes.
L’analyse des traits des 5 fils de discussions correspondant à ces observations a révélé certains seuils récurrents. En ce qui concerne les valeurs temporelles, les valeurs négatives ont été ignorées dans l’observation car elles sont déviante s (cf. IV.1.1 Présentation des traits employés pour explorer le contenu des fils de discussion) et ne peuvent pas être interprétées correctement.
Le premier paramètre qui apparaît, c’est que tous les contributeurs sont identifiés i.e. le taux d’anonymat est nul. Par ailleurs on peut observer que le taux d’emploi de la première personne du singulier est plutôt élevée, avec une moyenne de 41,8 % et une médiane de 46,4 %, et que l’emploi du vouvoiement est assez récurrent (dans 4 cas sur 5). L’entropie est globalement élevée, même si la répartition des messages par utilisateurs n’est pas totalement symétrique pour tous les fils, ce qui signifie que le nombre de messages postés par les utilisateurs est plutôt équivalent, et qu’il n’y a pas un auteur beaucoup plus actif qu’un autre.
Par ailleurs, l’emploi du mode interrogatif est lui aussi plutôt récurrent, dans 4 cas sur 5, mais n’est pas très élevé (avec un maximum de 13,04 % de phrases interrogatives). En revanche il y a peu de phrases exclamatives et pas du tout de phrases dites expressives, ce type d’interaction ne semble donc pas prêter à des effusions d’humeurs. Enfin, on remarque que le temps de réponse médian ne dépasse jamais 24h, ce qui peut signifier que les contributeurs impliqués dans ce type de discussion sont plutôt réactifs.
Synthèse des profils identifiés
Profils généraux
Ces profils sont issus d’une première observation basée sur des traits statistiques (Tableau 3 & Tableau 8), et ont été considérés comme assez pauvres en interaction ou contenant des séquences qui n’ont pas été produites par les contributeurs dans le cadre de l’échange . Nous avons cependant appliqué certains traits plus fins qui caractérisent le contenu linguistique et interactif des fils de discussion ( Tableau 25) afin d’observer si ils pouvaient déterminer ces profils déjà identifiés.
Synthèse et perspectives
Cette recherche dont l’objectif est d’étudier les différentes interactions entre des contributeurs impliqués dans un travail de rédaction collaborative, a mis en place une méthodologie afin de faire émerger des profils larges de situations d’interaction. Elle est basée sur l’analyse manuelle d’échantillons de fils de discussion établis à partir de seuils de traits caractérisant la taille des fils ( Tableau 8) ou bien leur contenu linguistique, interactif et leur étendue temporelle ( Tableau 25). Cette analyse a fait émerger des profils d’interaction généraux, repérés comme contenant des interactions assez réduites ou bien des contenus non rédigés par les auteurs dans le cadre de la discussion (Tableau 29), mais propose également une première exploration approfondie des données afin d’identifier des interactions plus précises (Tableau 33).
Cette étude a permis une première exploration des données brutes afin d’avoir une vision globale de l’interaction au sein des fils de discussion. Cette étape ouvre la voie à une analyse plus fine des fils de discussion afin de faire émerger des profils d’interactions plus précis et ciblés. Dans cette perspective il pourrait être pertinent de compléter et d’ajuster le travail effectué sur certains points.
Pour commencer, certains traits, notamment linguistiques se sont révélés être assez difficiles à interpréter. Par exemple les marques de l’impératif sont extrêmement rares, et il en est de même pour les versions « expressives » des phrases interrogatives et exclamatives. Il semble que les modalités d’expression dans le cadre des pages de discussion de la Wikipédia ne se prêtent pas à l’emploi de ces formes. Ces traits pourront peut être servir de seuil complémentaire pour une identification très précise. Il serait donc bénéfique d’inclure de nouveaux traits afin d’explorer le contenu des données, notamment en mettant à profit les nombreuses autres informations renseignées par la version étiquetée du corpus ( cf. II.1.3 Version étiquetée avec Talismane ).
Par ailleurs, l’analyse qualitative d’autres échantillons pourrait permettre de vérifier et d’ajuster les seuils établis pour le moment, mais serait également l’occasion d’appliquer certains seuils établis sur un souscorpus à l’ensemble des données. Ces observations peuvent, en outre, permettre de compléter la grille d’annotation (cf. IV.1.2 Une grille d’annotation pour accompagner l’observation ), qui pourrait ainsi être suivie de manière plus rigoureuse pour les phases d’annotation manuelle et faciliter l’émergence et la caractérisation des profils d’interaction.
|
Table des matières
Introduction
I. État de l’art : exploitation de la Wikipédia et étude des interactions entre utilisateurs
I.1 La Wikipédia : une communauté, des interactions
I.2 Une dynamique de recherche autour de la Wikipédia
I.3 Étude de l’interaction des contributeurs de la Wikipédia
II. Les données : pages de discussion et affinage du corpus WikiDisc en écartant les données non pertinentes
II.1 Les données initiales : WikiDisc, un corpus de pages de discussion
II.1.1 Les pages de discussion : une dimension méconnue de la Wikipédia
II.1.2 Le corpus WikiDisc
II.1.3 Structure des données de WikiDisc
II.1.3 Version étiquetée avec Talismane
II.2 Première manipulation : pages de discussions parallèles et fils de discussion sans
contenu interactif, un filtrage pour écarter les données non pertinentes
II.2.1Niveau pages de discussion : sélection des pages principales
II.2.2 Niveau fil de discussion : identification des fils n’ayant pas de potentiel d’interaction
a. Présentation des traits
b. Fils vides et mono message
C . Fils monologue
c.1 Cas des auteurs identifiés
c.2 Cas des auteurs anonymes
III. Une première caractérisation : des fils de discussion facilement identifiables
III.1 Méthodologie de l’observation
III.2 Une observation assistée par une analyse outillée : présentation des traits calculés
III.3 Des profils de fils de discussion généraux
III.3.1 Profil Duo : exactement deux utilisateurs
a. cDuo2usr
b. cDuo2usrAnonyme
III.2.2 Profil Pluri : Plus de deux utilisateurs
a. Pluri moyen : 5 utilisateurs maximum
b. Pluri surpeuplé :plus de 5 utilisateurs
III.3 Corpus_v2 : Profils retenus pour une observation approfondie
IV. Faire émerger des profils : exploration approfondie du corpus_v2
IV.1 Explorer le contenu des fils de discussion : des traits plus précis et une grille d’annotation
IV.1.1 Présentation des traits employés pour explorer le contenu des fils de discussion
IV.1.2 Une grille d’annotation pour accompagner l’observation
IV.2 Amorce de l’identification de profils plus précis
V.Synthèse des profils identifiés
V.1 Profils généraux
V.2 Profils affinés
VI. Synthèse et perspectives
Bibliographie
Télécharger le rapport complet