Télécharger le fichier pdf d’un mémoire de fin d’études
Acceptabilité des fonctionnalités pour les professionnels de l’informa-tion
La suite des entretiens a eu pour objectif d’analyser l’acceptabilité, c’est-à-dire l’utilité perçue d’un outil ou d’une technologie. Un ensemble de fonctionnalités, fréquemment développées dans le cadre de projets de recherche, ont ainsi été répertoriées et présentées aux professionnels interrogés. Pour chaque fonctionnalité proposée, une échelle de Likert allant de 0 à 10 a permis d’évaluer l’utilité perçue. Les verbatims des entretiens se sont également révélés précieux afin de déceler ce qui était attendu des outils proposés. Il est important de noter que ces tests d’acceptabilité ont été réalisés sans fournir de système aux expérimentateurs. Les fonctionnalités ont été seulement décrites de façon orale. La personne testée devait donc imaginer comment ces fonctionnalités pourraient être uti-lisées dans son travail, sans être confrontée à un système précis dans lequel les écueils classiques d’utilisabilité sont présents (clarté de l’interface, accessibilité des fonctionnali-tés, . . .). Plusieurs mock-ups ont également été présentés afin d’illustrer les fonctionnalités proposées (voir figure 1.4). Les fonctionnalités étudiées sont regroupées au sein des 4 catégories suivantes :
La figure 1.3 présente l’utilité perçue pour chacune de ces grandes catégories. Nous développons ces résultats ci-après. La première catégorie regroupe l’affichage du contenu, y compris sous forme de transcriptions dans le cas de vidéos ou d’émissions radiophoniques. Elle propose également de lister les mots-clés et entités nommées pré-sentes dans le document, ainsi que l’affichage d’un nuage de mots. 6 personnes sur 13 ont jugé que l’affichage des transcriptions était utile, et 3 ont mentionné qu’une telle fonction-nalité leur ferait gagner du temps dans leur travail. L’affichage de nuages de mots a quant à lui été perçu négativement, avec 3 personnes déclarant qu’ils ne représentaient pas d’in-térêt et 2 autres qu’ils n’étaient pas pratiques. À l’opposé, les mots-clés sont perçus posi-tivement, et particulièrement leur ordonnancement par fréquence ou importance dans le texte considéré. Mettre en avant les noms propres a été perçu comme utile ou intéressant par 5 personnes, mais seule une d’entre elles a déclaré son intérêt pour un lien direct de ces noms propres vers les biographies correspondant. Mettre en avant les lieux discu-tés dans les documents a également, de façon surprenante, été jugée comme inutile par 3 personnes, 3 autres indiquant qu’une carte affichant ces lieux serait davantage appro-priée. Tous ces retours sur ces différentes fonctionnalités ont été largement conditionnés selon deux critères supplémentaires : leur nécessaire précision, et la fiabilité des sources d’information utilisées. Bien que plusieurs fonctionnalités puissent être développées de façon fiable étant donné l’état de l’art, d’autres, telles que l’affichage de la transcription automatique, risquent d’être jugées comme inutiles si trop inexactes.
La deuxième catégorie étudiée concerne les réseaux sociaux et l’opinion. Elle com-prend des fonctionnalités de détection de la valence de l’opinion exprimée (positive, né-gative ou neutre) à un moment donné ou sur la durée, mais également des outils plus précis tels que la détection des sentiments (Fraisse et Paroubek, 2014) (colère, surprise, peur, . . .), qui ne sont à l’heure actuelle que partiellement étudiés. Des fonctionnalités à grains fins sont également envisagées comme la description des différents documents en aspects et la détection des marqueurs d’opinions associés à chacun de ces aspects. Ces marqueurs peuvent ensuite être regroupés afin d’obtenir une vue synthétique des opinions relayées sur les réseaux sociaux. Cette catégorie de fonctionnalités a été per-çue comme intéressante et utile, 5 interrogés mentionnant son utilité et 3 mentionnant un possible gain de temps dans leur travail. C’est notamment le cas pour les agents de presse, au contraire des journalistes qui sont plus sceptiques sur l’utilité et l’efficacité de ce genre d’information. L’affichage de l’évolution de l’opinion au cours du temps a été perçu comme utile par 5 personnes. La consultation de l’opinion semble plus adaptée aux professionnels pour un événement précis tandis que les sentiments seraient plus adaptés à une vision globale. De façon logique, ces analyses d’opinions sont perçues comme peu pertinentes lorsqu’appliquées aux médias eux-mêmes plutôt qu’aux réactions des utili-sateurs. Il est intéressant de noter que 5 personnes ont suggéré de rendre les différentes analyses d’opinions filtrables en fonction de leur source (par réseau social, par mot-clé, par importance, . . .). Globalement, il semble exister chez les professionnels une grande demande pour des outils d’analyse fine des sentiments sur les réseaux sociaux, qui vont au-delà de la mesure de la valence. La disponibilité d’une explication des résultats des algorithmes de détection d’opinion est également réclamée par les professionnels, au tra-vers d’exemples représentatifs et de mesures de certitude.
La troisième catégorie considérée concerne la création de liens explicites entre les do-cuments d’une collection. La figure 1.4 présente le mock-up proposé aux interrogés pour cette catégorie. Il peut s’agir de liens de type recommandation, d’ordonnancement tem-porel ou de regroupement d’articles discutant un même événement. La décision de lier deux documents peut répondre à de nombreux critères tels qu’une thématique commune, les mêmes personnages impliqués, un contenu similaire. . . Nous avons demandé aux per-sonnes interrogées de classer ces types de liens selon leur utilité perçue. Nous avons ob-tenu l’ordre suivant : une thématique commune, des mots-clés partagés, une date iden-tique, une localisation proche. L’utilité de l’ordonnancement temporel a néanmoins été régulièrement mentionnée lors des entretiens. L’explication des liens a été perçue comme utile, une explication fine étant plébiscitée (score de 8,5) par rapport à un typage grossier des liens (score de 6,3). Limiter la redondance en regroupant les documents similaires n’a pas été jugé comme étant une fonctionnalité nécessaire. Seuls les agents de presse ont plébiscité les fonctionnalités de « regroupement d’articles similaires » et de « mise en avant des documents représentatifs » (scores de 10). Deux personnes ont suggéré de mettre en avant des documents non issus de la presse, mais ayant servi de source lors de la rédaction d’articles.
La quatrième et dernière catégorie correspond à l’accès rapide à l’information et à la visualisation d’une collection d’actualités dans son ensemble ou en partie. Les fonction-nalités classiques de moteur de recherche et de table des matières ont été proposées, ainsi que plusieurs méthodes d’accès rapide telles que la présentation d’une ligne de temps (ti-meline), un nuage de mots cliquables, le résumé automatique des documents similaires. Les retours obtenus sur cette catégorie montre un global manque d’intérêt en dehors de fonctionnalités classiques de moteur de recherche et de timeline. En particulier, la généra-tion de résumés automatiques a été jugée non pertinente, non pas pour son intérêt intrin-sèque, mais par crainte d’une performance insuffisante, les professionnels estimant qu’il était difficile de faire confiance aux résumés générés par une machine, alors même que des études ont prouvé l’intérêt de ce genre d’outils pour la rédaction d’articles (McKeown et al., 2005). Ces remarques mettent en avant le fait que la tâche consistant à résumer un ou plusieurs documents est le plus souvent une tâche subjective, dans laquelle l’auteur du résumé choisira de traiter un angle plutôt qu’un autre. Bien que la génération au-tomatique de résumés orientés utilisateurs fasse l’objet de travaux de recherche depuis quelques années (Lin et Hovy, 2000; Daumé III et Marcu, 2006; Hennig et Labor, 2009), les résumés générés obtiennent la plupart du temps des résultats inférieurs aux résumés dits « neutres », et il est souvent complexe pour l’utilisateur d’indiquer l’angle qu’il souhaite donner à ces derniers.
Groupement d’articles similaires
Une première approche permettant l’appréhension de grandes collections d’actuali-tés consiste à regrouper les articles similaires. Selon la granularité des groupes créés, on peut obtenir une collection organisée en grandes catégories ou en petits groupes très ho-mogènes discutant le même événement. Nous discutons dans cette section de ce large spectre.
Catégorisation
Étant donné la grande quantité et la variété des informations disponibles chaque jour, il semble intuitif de chercher à rassembler les articles similaires au sein de groupes plus ou moins grands. Une première étape de ce regroupement consiste à catégoriser les ar-ticles en thématiques. Ces catégories peuvent être grossières, et correspondre aux sections que l’on trouve dans un journal papier ou un agrégateur (national, international, local, sports, . . .), ou fines, telles que le standard de l’International Press Telecommunications Council 1 (IPTC), qui consiste en 17 grandes catégories (politique, religion, économie, . . .) et en plusieurs niveaux de sous-catégorisation (élections nationales, fêtes religieuses, chô-mage, . . .).
Dans le premier cas, c’est-à-dire si le nombre de catégories se réduit à un petit en-semble, il est possible d’obtenir de très bons résultats via des approches entièrement au-tomatiques. Ainsi, Bracewell et al. (2009) parviennent à atteindre environ 95 % de préci-sion et de rappel (micro et macro), sur une dizaine de catégories, en anglais et en japonais, grâce à un système d’apprentissage fondé sur la fréquence des groupes nominaux et un calcul des probabilités d’appartenance à chacune des catégories. Des résultats similaires peuvent être obtenus avec d’autres algorithmes d’apprentissage automatique, l’un des plus utilisés pour cette tâche étant les machines à vecteurs de support (support vector machines, ou SVM) (Joachims, 1998; Krishnalal et al., 2010). Des approches purement sta-tistiques peuvent également être employées telles que le Naïve Bayes (Diriye et al., 2010).
Le second cas, plus complexe, consiste à attribuer automatiquement plusieurs éti-quettes, par exemple celles proposées par la taxonomie de l’IPTC. L’Agence France Presse (AFP) ainsi que de nombreux autres organes de presse utilisent cette taxonomie, chacun de leurs articles étant manuellement catégorisé, et plusieurs catégories et sous-catégories pouvant être attribuées à un même article (Cagé et al., 2016). Cette catégorisation peut être apprise automatiquement via un apprentissage supervisé, mais les multiples étiquettes possibles rendent sa mise en place et son évaluation complexes. Bacan et al. (2005) se sont attaqués à ce problème, et obtiennent des résultats relativement corrects grâce à une approche des K plus proches voisins (K nearest neighbors ou K-NN) (87 % de précision), mais ne considèrent que les 17 étiquettes de plus haut niveau, et simplifient le problème davantage en attribuant une unique étiquette, évaluée positivement lorsqu’elle fait partie des multiples catégories assignées à l’article. Cette faible fiabilité ne permet pas la mise en place de systèmes entièrement automatiques, qui ne font aujourd’hui qu’aider l’anno-tation manuelle en attribuant une première étiquette. Néanmoins, l’approche qu’ils ont choisie leur permet en fait de proposer une liste d’étiquettes potentielles et pas unique-ment la plus probable, ce qui peut constituer une aide déterminante pour l’étiquetage manuel sans toutefois pouvoir le remplacer totalement.
Regroupement statique
Si la catégorisation permet de regrouper les articles discutant d’une même large thé-matique, elle se révèle insuffisante lorsque l’on considère plusieurs sources d’informations (différents médias, blogs, . . .) sur des durées longues. En effet, dans ce cas, les caté-gories peuvent contenir plusieurs milliers de documents, rendant leur exploration com-plexe et laborieuse. C’est pourquoi, comme vu précédemment, le regroupement d’articles en petits groupes, ou clustering, est très largement utilisé par les agrégateurs d’actualités. Il consiste généralement à regrouper les articles discutant d’un même événement (par op-position aux catégories, plus larges), et publiés dans un laps de temps restreint, de l’ordre de la journée. On parle de regroupement statique, par opposition au regroupement dyna-mique, dans le cas de collections fixées, c’est-à-dire celles dans lesquelles aucun nouveau document n’est inséré.
Afin de pouvoir regrouper les articles similaires, une définition de la similarité s’im-pose. Bien que ce concept soit intuitif à l’humain, il est complexe à définir précisément. La similarité entre deux documents peut en effet revêtir de nombreux aspects. Elle peut être thématique (ils abordent des sujets proches), sémantique (ils signifient la même chose), lexicale (ils emploient le même vocabulaire). . . D’un point de vue pratique, le proces-sus de calcul de similarité entre deux documents est invariablement constitué de deux étapes : dans un premier temps, on cherche à obtenir une représentation lexicale, séman-tique, thématique ou autre, des documents, et on use, dans un second temps, de mesures de similarité fondées sur ces représentations afin de déterminer un score de similarité pour chaque paire de documents. Ces deux étapes peuvent être réalisées de multiples façons, comme décrit par Gomaa et Fahmy (2013). La représentation et la mesure de si-milarité les plus utilisées sont lexicales. Il s’agit du tf-idf (Salton et Buckley, 1988) et ses dérivés et la mesure cosinus (Strehl et al., 2000). La représentation tf-idf correspond à un espace vectoriel de grandes dimensions. Les documents sont représentés sous forme de vecteur par les mots qu’ils contiennent, chaque mot du vocabulaire correspondant à une dimension. D’autres représentations vectorielles, généralement fondées sur un prin-cipe de similarité contextuelle (Mikolov et al., 2013) – corrélée avec la similarité séman-tique (Miller et Charles, 1991) –, ont été récemment introduites (Kiros et al., 2015).
Une fois la représentation et la mesure de similarité entre paires de documents éta-blies, on peut s’attacher à trouver les groupes pertinents au sein de la collection. Le pro-blème consistant à trouver quels groupes d’articles sont pertinents au sein de cet espace peut être formulé sous forme d’optimisation : il s’agit de maximiser la similarité entre les éléments appartenant à un même groupe et de minimiser la similarité entre éléments de groupes différents. C’est sur ces bases que repose k-means, un algorithme efficace même à grande échelle (Sculley, 2010), et qui groupe de façon itérative les documents proches, jusqu’à atteindre un état stable. Néanmoins, cet algorithme est connu pour être très dé-pendant de ses paramètres d’initialisation (Bradley et Fayyad, 1998), et atteint souvent des optima locaux plutôt que globaux. Il peut être adapté à des systèmes dits « en ligne », c’est-à-dire mis à jour de façon continue avec l’arrivée de chaque nouvel article (Azzo-pardi et Staff, 2012). D’autres techniques d’optimisation, plus robustes, existent telles que le regroupement à base de recherche d’harmonie (Harmony Search CLUSTtering ou HS-CLUS) (Forsati et al., 2013).
Le regroupement hiérarchique est une autre méthode permettant de construire les groupes de façon itérative, en commençant par grouper les deux documents ayant le score de similarité le plus élevé. Le processus est répété, à la différence que les éléments à lier ne sont plus nécessairement des documents, mais peuvent être des groupes de docu-ments issus d’une itération précédente. Trois grandes approches sont alors possibles pour obtenir un score de similarité entre deux groupes de documents : considérer le score des deux documents les plus similaires entre deux groupes (il y a alors risque de dérive et formation de grands groupes), le score des deux documents les moins similaires (on obtient généralement davantage de petits groupes), ou la moyenne des scores des documents de chacun des groupes (dans l’esprit plus proche de l’algorithme k-means) (Hatzivassiloglou et al., 2000). Le regroupement hiérarchique est également très largement utilisé pour le regroupement d’actualités (McKeown et al., 2002; Nallapati et al., 2004), y compris dans des sous-domaines comme l’actualité financière (Dai et al., 2010). Il repose néanmoins sur un seuil difficile à déterminer automatiquement (nombre de groupes ou seuil de simila-rité minimale) (Salvador et Chan, 2004). Un avantage certain de cette approche est qu’elle permet l’affichage direct des hiérarchies obtenues, et donc de plusieurs niveaux de grou-pements (sous-groupes). Ces hiérarchies sont néanmoins difficiles à visualiser dans de grandes collections (Rennison, 1994).
Regroupement dynamique
Le regroupement dynamique est semblable au regroupement statique, à ceci près qu’il se concentre sur des collections qui évoluent et auxquelles de nouveaux articles sont ajou-tés en continu. Si ces nouveaux documents arrivent par lots, par exemple via une mise à jour quotidienne, les approches décrites en section 2.1.2 peuvent suffire. Néanmoins, lorsque la mise à jour est continue, c’est-à-dire que l’on souhaite traiter un document dès qu’il est publié, deux nouvelles tâches apparaissent : la détection automatique d’un nouveau sujet encore jamais rencontré (first topic detection ou FTD), et le choix du groupe auquel rattacher un nouvel article (topic tracking). Ces deux problématiques, ainsi que quelques autres, ont été étudiées dans le cadre des campagnes d’évaluation Topic Disco-very and Tracking (TDT) (Allan et al., 1998).
La détection d’un nouveau sujet est le plus souvent réalisée à l’aide de seuils. Voici par exemple l’approche utilisée par la Carnegie Mellon University pour cette tâche (Carbonell et al., 1999). Lorsqu’un nouveau document arrive, il est comparé à l’ensemble des groupes déjà existants suffisamment récents via des méthodes classiques de comparaison vecto-rielle de documents, à savoir une représentation tf-idf et une mesure cosinus. Seul un fac-teur de diminution du score en fonction de l’ancienneté est ajouté à cette comparaison. Si la similarité du nouveau document avec l’un des groupes est suffisamment élevée (au-dessus d’un seuil fixé manuellement), le nouveau document est considéré comme appar-tenant à ce groupe, y est ajouté, et n’enclenche donc pas la création d’un nouveau groupe. Si la similarité est trop faible (en-dessous du seuil), le nouveau document est considéré comme un nouvel événement. Dans ce cas, il devient l’unique composant d’un nouveau groupe, qui est ajouté à la liste des groupes déjà existants. Si le nombre de groupes déjà existants est trop élevé, le groupe le plus ancien (celui qui n’a pas reçu de nouvel article depuis le plus longtemps) est supprimé. Des difficultés apparaissent néanmoins lorsque les documents traités couvrent plusieurs semaines ou plusieurs mois (Allan et al., 2000a). En effet, le vocabulaire utilisé pour décrire un même événement peut évoluer, rendant les mesures de similarité par représentation de surface peu fiables (Tannier et al., 2012).
Le choix du groupe auquel rattacher un nouvel article reprend les mêmes probléma-tiques de similarité évoquées précédemment. Il s’agit finalement de trouver le groupe le plus similaire au nouvel article. Pour ce problème, l’utilisation d’un algorithme de plus proches voisins (k nearest neighbors ou K-NN) a été l’approche la plus performante (Al-lan et al., 1998). Des arbres de décision, qui ont permis l’extraction de caractéristiques plus riches que les représentations K-NN (e.g., présence de certains mots en début de paragraphe, collocation de bigrammes, . . .), ont été utilisés lors d’une édition de TDT suivante, avec des résultats similaires ou supérieurs à K-NN (Carbonell et al., 1999).
Le regroupement, qu’il soit statique ou dynamique, est particulièrement adapté à la consultation rapide des informations publiées au cours des dernières heures, mais de-vient moins pratique au fur et à mesure que la période considérée s’étend. En effet, si quelques dizaines de groupes permettent de disposer d’une vue d’ensemble des articles publiés par les médias professionnels en ligne au cours des dernières heures, il faudrait plusieurs milliers de groupes pour présenter l’ensemble des actualités d’un mois, plus encore si l’on étendait la période considérée à plusieurs années. Bien que quelques sys-tèmes fondés sur ces techniques aient vu le jour, ils semblent difficiles à appréhender pour le grand public (Frey et al., 2001). Pour ce genre de corpus, il est plus pertinent de chercher à structurer la collection plus finement.
Structuration de collections
Les groupes de documents obtenus par les approches décrites précédemment peuvent être raffinés afin d’expliciter des liens temporels ou causaux entre documents. Dans cette section, nous explorons différentes méthodes permettant un tel raffinage et en donnons les points forts et les points faibles.
Structuration chronologique
La structuration chronologique correspond à organiser une collection selon un axe temporel. Elle est le plus souvent un traitement supplémentaire réalisé après les étapes de classification et de regroupement décrits précédemment (Ahmed et al., 2011). Elle est particulièrement adaptée à deux types d’actualités : les breaking news, qui mènent à la pu-blication de nombreux articles révélant les derniers rebondissements d’un événement, et les événements se déroulant sur plusieurs jours, semaines, ou mois (élections, jeux olym-piques, . . .). Deux approches peuvent alors cohabiter : résumer l’ensemble des articles en construisant une timeline qui reprend les événements majeurs (Yan et al., 2011), ou or-ganiser l’ensemble des documents sur une ligne temporelle (Allan et al., 2000b; Swan et Allan, 2000). Dans le second cas, les métadonnées associées aux articles sont générale-ment suffisantes pour réaliser un ordonnancement temporel (Mori et al., 2006), les dates de publication correspondant souvent aux dates des événements discutés. Néanmoins, certains articles mentionnent différents événements qui sont survenus à des périodes dif-férentes. Dans ces cas, la détection des dates, leur normalisation et leur réorganisation chronologique apparaîssent indispensable (Muller et Tannier, 2004).
La campagne d’évaluation TempEval, qui a connu trois éditions (UzZaman et al., 2012; Verhagen et al., 2007, 2010), s’est attaquée à ce problème en cherchant notamment à repérer les mentions temporelles, mais également les liens temporels entre événements (e.g., précédence, simultanéité, . . .). Une fois toutes ces relations établies, il devient pos-sible de reconstruire une ligne temporelle récapitulant tous les événements. Ces struc-tures chronologiques peuvent ensuite être utilisées, soit à des fins de présentation à l’uti-lisateur (voir la figure 2.1), soit dans le but de générer un unique document résumant les événements principaux qui la composent (Tannier et Vernier, 2016; Binh Tran et al., 2013). Néanmoins, elles ne rendent pas compte de la complexité de certains événements, qui nécessitent une structuration non linéaire afin d’être correctement appréhendés.
Fils d’actualités
L’étude de suites d’événements reliés les uns aux autres a progressivement amené à considérer une organisation plus riche que le regroupement ou l’ordonnancement tem-porel (Makkonen, 2003). L’organisation en fils d’actualités propose de regrouper les do-cuments d’actualités au sein d’une structure arborescente rendant mieux compte des re-lations entre événements. L’apparition d’un nouvel événement générera ainsi un nouvel arbre, dont la racine sera le premier document mentionnant cet événement. Les docu-ments suivants, qui décrivent les implications de cet événement, ne sont alors plus or-donnés seulement selon une ligne de temps, mais selon des branches temporelles. En ef-fet, d’un même événement peuvent découler différentes conséquences, chacune d’entre elles faisant l’objet d’un suivi distinct dans l’actualité. Étant donné que plusieurs articles peuvent discuter un même événement sans forcément nécessiter la création d’un nou-vel embranchement, cette méthode peut s’appliquer à des groupes d’articles. Nallapati et al. (2004) ont introduit cette problématique et annoté une partie des corpus de TDT-2 et TDT-3 afin d’obtenir les dépendances entre chacun des sujets abordés. La figure 2.2 donne un exemple d’arbre issu du corpus de TDT-3 et annoté par Nallapati et al. (2004). Dans leur article, les auteurs proposent des méthodes à base de similarité de surface et d’ordonnancement temporel afin de lier un nouveau sujet à son parent le plus similaire, c’est-à-dire au sujet publié plus tôt auquel il ressemble le plus.
Cette structuration en arbre a également été appliquée à des collections vidéo, aboutis-sant à des visualisations arborescentes qui facilitent l’exploration d’une thématique (Ide et al., 2004, 2012). D’un point de vue utilisateur, cette approche permet une meilleure compréhension de l’enchaînement des événements, qui est parfois difficile à appréhen-der lorsque les sujets sont considérés de manière indépendante. Elle autorise également la création de liens entre différents événements qui découlent les uns des autres, et donc de réunir les documents discutant ces événements au sein d’entités plus larges, permet-tant d’explorer plus facilement une collection de grande taille (de Rooij et Worring, 2010). Il est néanmoins impossible avec cette représentation de proposer une lecture multifacto-rielle d’un événement, qui peut être causé par plusieurs événements antérieurs.
Graphes d’actualités
La structuration d’actualités en graphes pousse l’idée des fils d’actualités en permet-tant par exemple d’exprimer le fait qu’un événement puisse être causé par une combi-naison d’événements antérieurs. Là où la structure en arbre ne permet à chaque événe-ment de n’avoir qu’un unique parent, la structure en graphe abolit cette contrainte. Les graphes sont très largement utilisés dans de nombreuses applications du traitement au-tomatique des langues (Nastase et al., 2015). Un graphe G est défini comme un ensemble de nœuds V et un ensemble d’arcs E tel que : 8e 2 E, e = (vi, vj) vi, vj 2 V2 . Ici, les nœuds peuvent correspondre à des documents, articles ou vidéos d’actualités, ou bien à des sujets, groupes de documents discutant un même événement. Les arcs peuvent, comme pour le suivi d’actualités décrit par (Nallapati et al., 2004), correspondre à une re-lation de cause à effet, ou bien être considéré comme des liens thématiques, de sources, de recommandations, de lieux communs, . . . La granularité de ces méthodes peut également être plus fine que le document. Ainsi, Glavaš et Šnajder (2014) extraient des documents les prédicats correspondant à des événements élémentaires, puis organisent ces prédicats selon leurs liens de causalité.
Choudhary et al. (2008) ont été parmi les premiers à proposer cette approche, en construisant un graphe dans lequel les documents mentionnant les mêmes personnes sont liés. Les événements rassemblant différentes personnes (e.g., une rencontre entre deux présidents) sont connectés aux événements discutant individuellement de chacune de ces personnes. Ils proposent un graphe dirigé, dans lequel chaque arrête va d’un évé-nement ancien à un événement plus récent. Le graphe est donc conçu pour être parcouru selon un paradigme chronologique, et propose surtout une visualisation permettant d’ai-sément voir à quel point deux personnalités apparaissent régulièrement ensemble ou non.
Yang et al. (2009) appliquent quant à eux cette problématique à la causalité entre évé-nements, et sont donc plus proches dans l’esprit de la tâche proposée par Nallapati et al. (2004). Leur graphe reste néanmoins acyclique et organisé selon un axe temporel, deux caractéristiques pertinentes au vu du type de relation étudiée. Le graphe proposé par les auteurs est construit selon une similarité lexicale, et un seuil est utilisé afin de déterminer quels liens sont pertinents ou non (Yang et al., 2009). Illustré par les réactions d’un État, la Russie, aux attaques terroristes qu’il a subies (voir la figure 2.3), ce type de graphe permet de mieux comprendre les implications des événements successifs.
Une des applications les plus intéressantes de ces graphes est que l’on y trouve de façon explicite la notion de chemin entre deux documents. Dans le cas où le graphe ne disposerait que d’une seule composante connexe, on serait en mesure de trouver un che-min entre n’importe quelle paire d’articles. Cette idée a déjà été explorée par Shahaf et Guestrin (2010), sans toutefois s’appuyer sur de telles structures, mais en formulant cette tâche comme un problème d’optimisation dans lequel l’objectif est de construire une suite de documents reliant deux articles désignés arbitrairement par un utilisateur.
Hyperliage multimédia
L’hyperliage multimédia (ou hyperlinking) trouve ses origines dans la génération auto-matique de liens hypertextes (Wilkinson et Smeaton, 1999). Cette génération automatique peut avoir des objectifs multiples tels que la citation (référence à un autre hypertexte), l’organisation du contenu (e.g., table des matières), la recommandation, . . . L’hyperliage correspond à son extension au multimédia, dans le but d’obtenir des hypermédias (Es-kevich et al., 2013). Bien que les liens créés puissent être adaptés à chaque utilisateur par le biais d’outils de recommandation (Brusilovsky, 1998), la tâche d’hyperliage est géné-ralement considérée comme indépendante de l’utilisateur et fondée sur le contenu des documents. Elle correspond davantage à un enrichissement du contenu qu’à une recom-mandation.
La mise en œuvre de l’hyperliage sur des collections vidéos mono-sources a été étu-diée lors des campagnes d’évaluation de MediaEval (Eskevich et al., 2014), puis TREC-Vid (Over et al., 2015; Awad et al., 2016), et a d’abord été couplée à une problématique de détection de segments vidéos d’intérêt (Search and Hyperlinking) avant d’être envisa-gée de façon individuelle (Hyperlinking). Il s’agit, pour chaque segment d’intérêt (appelés ancres ou anchors), de proposer automatiquement une liste de segments cibles (ou tar-gets) recommandés à l’utilisateur sans avoir accès à son besoin d’information spécifique. Étant donné la difficulté à caractériser de manière objective le bien-fondé de la création d’un lien entre deux segments de vidéos, l’évaluation de l’hyperliage est réalisée au tra-vers d’évaluations humaines dans lesquelles les annotateurs sont amenés à juger de la pertinence du lien (Eskevich et al., 2017).
Les différents systèmes ayant participé à ces campagnes d’évaluation se fondent en majorité sur les similarités lexicales des transcriptions des vidéos ainsi que sur les si-milarités visuelles (Guinaudeau et al., 2012a; Le et al., 2014; Cheng et al., 2015; Pang et Ngo, 2015), y ajoutant parfois des informations complémentaires issues des métadon-nées (De Nies et al., 2013; Simon¸ et al., 2014). Si cette approche consistant à lier les seg-ments les plus similaires possibles permet généralement d’obtenir de bons résultats lors de la campagne d’évaluation, elle résulte en une faible diversité des liens générés, comme nous le montrons dans la section 6.3.2. Cette problématique de la diversité dans le cadre de l’hyperliage est explorée plus largement dans le chapitre 6.
Systèmes complets
Les collections de documents journalistiques, audio, vidéos ou textuels, sont large-ment répandues et relativement faciles d’accès. De plus, elles sont quotidiennement ma-nipulées par le grand public. Ces différents facteurs expliquent qu’elles soient très ré-gulièrement utilisées comme base pour de nombreuses recherches dans les domaines du multimédia ou du traitement automatique des langues, telles que le résumé auto-matique (Hong et al., 2014), l’extraction d’entités nommées (Ratinov et Roth, 2009), la traduction automatique (Luong et al., 2015), la transcription automatique (Schlippe et al., 2013), ou l’enrichissement de données (Morang et al., 2005). Dès lors, il est naturel de vou-loir réunir ces différentes fonctionnalités au sein d’un système complet, utilisable par le grand public ou les professionnels de l’information. Nous présentons dans cette section trois systèmes complets : Informedia (Hauptmann et Witbrock, 1997), l’un des premiers explorateurs d’actualités vidéo, Fischlàr News (Smeaton et al., 2001), similaire dans l’es-prit mais plus récent et disposant de davantage de fonctionnalités, et FishWrap (Chesnais et al., 1995), un système multisources dédié à l’actualité au format texte, et qui proposait dès le milieu des années 90 des approches collaboratives permettant de mettre en avant les actualités jugées les plus importantes.
Informedia
D’abord conçu comme un outil dédié à l’éducation et au divertissement (Christel et al., 1994), Informedia a ensuite évolué afin de proposer à ses utilisateurs de consulter de larges archives vidéos dédiées à l’actualité (Hauptmann et Witbrock, 1997). Le proces-sus d’adaptation de cet outil au domaine de l’information est intéressant à suivre en cela qu’il expose les particularités de ce domaine. Si les vidéos éducatives étaient relativement courtes et formaient chacune un tout cohérent, ce n’est pas le cas des journaux télévisés, qui sont la principale ressource du système. La demi-heure d’actualités quotidienne doit en effet être segmentée afin de séparer les divers sujets abordés dans le journal considéré. Une autre différence primordiale est le passage d’une collection statique, qui n’évolue pas, à une collection dynamique, réactualisée chaque jour. Ce processus doit évidem-ment être entièrement automatisé, et si les outils permettant cette automatisation sont aujourd’hui répandus, ce n’était pas le cas dans les années 90 (Brown et al., 1995).
S’il n’est pas le premier à exister, Informedia comporte toutes les briques élémentaires des systèmes d’exploration d’archives télévisuelles qui suivront : segmentation en sujets, segmentation en scènes, transcription automatique, indexation fondée sur les trans-criptions, et moteur de recherche. Le système a continué à évoluer au cours des années, intégrant par exemple la détection de visages ou de textes présents dans les vidéos (Wact-lar et al., 1996), des résumés automatiques (Wactlar, 1999) – aussi développés dans des systèmes comme ANSES (Pickering et al., 2003) – et l’extension à d’autres langues que l’anglais (Hauptmann et al., 1998). Néanmoins, il subit les faiblesses de certains de ses composants, peu développés à cette époque. Ainsi, la transcription automatique affiche un taux d’erreur (Word Error Rate ou WER) de 65 % sur un journal télévisé (Hauptmann et Witbrock, 1997). Cette transcription a été identifiée par les créateurs d’Informedia comme le composant critique, et si les outils de transcription sont de plus en plus efficaces, il semble que leur taux d’erreur reste trop élevé pour que les textes qu’ils génèrent soient affichés aux utilisateurs (Hauptmann, 2005).
Fischlàr News
Le système Físchlár News (Smeaton et al., 2001) vise à permettre à ses utilisateurs de consulter des archives d’actualités vidéos. Ces vidéos sont extraites d’une unique émis-sion quotidienne d’information irlandaise – le journal de RTE1 – d’une durée moyenne de 30 minutes. Chaque jour, l’émission est automatiquement récupérée, traitée, et ajou-tée à Físchlár News. Les traitements correspondent à une segmentation de la vidéo afin de séparer chacun des sujets abordés dans l’émission, puis à un ajout des segments à la base de données, avec plusieurs types de représentations (extraction des frames-clés (key-frames), sous-titrage, représentation à des fins de calculs de similarité, . . .). Le système dispose de deux principales fonctions : la consultation des actualités d’une date donnée, et la recherche de vidéos par mots-clés. La première fonction correspond à l’affichage de l’ensemble des sujets traités à une date donnée, et permet une navigation facile afin de pouvoir visionner les parties de journal intéressant l’utilisateur. Ces parties de journal correspondent à l’ensemble des sujets abordés dans l’émission. Une fois un sujet sélec-tionné par l’utilisateur, une segmentation en plans de vue du sujet vidéo – chacun de ces plans étant associé à des résumés textuels – lui est proposée afin de lui permettre de sauter rapidement à une partie du reportage, ou, par exemple, de ne pas visionner l’in-troduction du journaliste en plateau. La seconde fonction permet, à l’aide d’un moteur de recherche à base de mots-clés, de retrouver l’ensemble des segments de journaux répon-dant à la requête, ordonnés de façon temporelle. Le système n’utilisant qu’une unique émission quotidienne, la quantité de sujets retournés par la requête reste relativement faible, et est donc tout à fait ergonomique pour les utilisateurs.
Une fonctionnalité de recommandation est également disponible. Ainsi, l’utilisateur peut évaluer les segments de son choix en indiquant s’ils l’intéressent ou non. Il recevra ensuite chaque jour un mail récapitulant les actualités de la veille qui sont susceptibles de l’intéresser. D’autres systèmes se sont également penchés sur la problématique de la recommandation d’actualités. C’est notamment le cas de NewsFlash, qui utilise les profils de ses utilisateurs, récupérés de façon implicite, afin d’améliorer leur moteur de recherche via une extension de requêtes profilée (Haggerty et al., 2003).
Fischlàr News se prête bien à une utilisation quotidienne, et permet à l’utilisateur de se tenir au courant de l’actualité en regardant les segments du journal télévisé qui l’intéressent. Néanmoins, il est probable que ce système ne puisse pas augmenter son nombre de sources sans sacrifier à sa facilité d’utilisation. Chaque journal TV comporte en effet une vingtaine de sujets (Smeaton et al., 2004), ce qui rend leur affichage exhaustif aisé, et garantit l’absence de redondance entre sujets.
FishWrap
FishWrap est un système conçu au MIT permettant notamment la consultation d’ac-tualités issues de nombreuses sources telles que les journaux en ligne, mais également des actualités liées à la vie du campus (Chesnais et al., 1995). L’intérêt principal de ce sys-tème vient du fait qu’il ait été l’un des premiers à utiliser plusieurs sources d’actualités (Reuters, Associated Press, The Boston Globe, . . .). Le standard RSS n’étant pas encore dé-veloppé à cette époque, ces sources arrivaient sous différents formats (y compris mail), et étaient ensuite unifiées au sein d’une même structure. Les utilisateurs du système étaient amenés à répondre à trois questions lors du premier lancement de l’interface : leur ville d’origine (afin de leur fournir des actualités locales), leur lien avec le MIT (afin de rece-voir les actualités du campus dédiées à leur groupe), et leurs intérêts (afin de pouvoir leur proposer des actualités adaptées à leurs préférences).
L’interface principale fournit aux utilisateurs une liste d’articles filtrés selon leurs pré-férences explicites (les réponses aux questions posées au lancement du logiciel), et impli-cites (articles visualisés plus tôt, popularité d’un article, . . .). Une seconde fonctionnalité est la présence d’une Page One, qui correspond à un best of des articles récents selon les utilisateurs. En effet, les articles les plus vus sont automatiquement ajoutés à cette page, qui peut être considérée comme une visualisation des actualités les plus importantes.
La plupart des défis techniques résolus par ce système se trouvent aujourd’hui lar-gement simplifiés par l’existence d’outils performants pour l’extraction et le formatage d’actualités. Néanmoins, FishWrap a été l’un des premiers systèmes à proposer l’utilisa-tion d’une grande variété de sources, réunies au sein d’une même interface. Ce choix n’a été que peu ou pas repris dans les systèmes qui l’ont suivi, qui se concentrent générale-ment sur l’exploitation d’une unique source d’information.
|
Table des matières
ntroduction générale 1
Part I — Enjeux et moyens pour l’exploration d’actualités
1 Explorer l’actualité : un enjeu pour les professionnels et le grand public
1.1 Populations concernées
1.1.1 Grand public
1.1.2 Professionnels de l’information
1.2 Outils disponibles et attentes des professionnels de l’information
1.2.1 Outils disponibles
1.2.2 Protocole d’étude des besoins des professionnels de l’information
1.2.3 Acceptabilité des fonctionnalités pour les professionnels de l’information
2 Outils scientifiques pour la consultation et la structuration de collections d’actualités
2.1 Groupement d’articles similaires
2.1.1 Catégorisation
2.1.2 Regroupement statique
2.1.3 Regroupement dynamique
2.2 Structuration de collections
2.2.1 Structuration chronologique
2.2.2 Fils d’actualités
2.2.3 Graphes d’actualités
2.2.4 Hyperliage multimédia
2.3 Systèmes complets
2.3.1 Informedia
2.3.2 Fischlàr News
2.3.3 FishWrap
3 Le projet LIMAH
3.1 Enjeux et objectifs
3.1.1 Construction d’hypergraphes navigables
3.1.2 Segmentation et structuration de vidéos éducatives
3.1.3 Analyse d’opinion et contenus utilisateurs
3.1.4 Droit des données et des enrichissements
3.2 Corpus : construction et caractéristiques
3.2.1 Objectifs et composition
3.2.2 Documents web.
3.2.3 Documents audio
3.2.4 Documents vidéos
3.2.5 Réseaux sociaux et commentaires utilisateurs
Part II — Construction d’hypergraphes navigables pour l’exploration d’actualités
4 Hypergraphes explorables
4.1 L’hypergraphe, une structuration de données pensée pour la navigation
4.1.1 Définition de l’hypergraphe
4.1.2 Différences avec les moteurs de recherche et la recommandation
4.2 Navigabilité et explorabilité : les caractéristiques souhaitables d’un hypergraphe
4.2.1 Explorabilité
4.2.2 Différences avec la notion de navigabilité
5 Construction de graphes explorables
5.1 Cadre expérimental : des clusters à l’hypergraphe
5.1.1 Protocole d’évaluation
5.1.2 Caractéristiques du corpus
5.2 K-NN et E-NN, un paramétrage complexe et une explorabilité limitée
5.2.1 K-NN
5.2.2 E-NN
5.2.3 Combinaisons de K-NN et E-NN
5.3 ANN, une méthode non paramétrique pour la construction de graphes explorables
5.3.1 Une exploitation des caractéristiques de l’espace de représentation
5.3.2 Méthode
5.3.3 Comparaison de K-NN, E-NN et A-NN
5.3.4 Validation sur le corpus LIMAH
5.3.5 Optimisations et mises à jour du modèle
5.3.6 Expérimentations sur la représentation neuronale de documents
6 Une diversité de liens nécessaire
6.1 Les avantages de la diversité
6.1.1 Des intérêts divers à concilier
6.1.2 La sérendipité
6.2 Fusionner les modalités pour une diversité plus large : LDA bimodal et réseau de neurones bimodal
6.2.1 Monomodalité, multimodalité et crossmodalité pour l’hyperliage
6.2.2 LDA crossmodal
6.2.3 Réseaux de neurones bidirectionnels
6.3 Évaluations
6.3.1 Scores de pertinence
6.3.2 Évaluation humaine de la diversité
6.3.3 Mesures automatiques pour la diversité
Part III — Enrichissement par typage d’hyperliens pour une navigation éclairée
7 Typologie de liens : description et construction
7.1 Typologie
7.1.1 État de l’art
7.1.2 Description de la typologie
7.1.3 Exemples extraits du corpus
7.1.4 Ambiguïté du typage
7.2 Typage automatique
7.2.1 Approches possibles
7.2.2 Typage à base d’heuristiques
8 Validation extrinsèque en situation professionnelle
8.1 Interfaces utilisateur et configurations évaluée
8.1.1 Description technique et fonctionnelle
8.1.2 Configurations évaluées
8.2 Populations étudiées et protocole expérimental
8.2.1 Populations étudiées
8.2.2 Protocole expérimental
8.3 Résultats
8.3.1 Évaluation
8.3.2 Ressenti des utilisateurs
Conclusion
Télécharger le rapport complet