Télécharger le fichier pdf d’un mémoire de fin d’études
Presentation de l’entreprise
J’ai realis mon projet de n d’etude au sein de l’equipe DRUID 1 de l’IRISA 2. Dans cette section, dans un premier temps l’IRISA est presentee, puis dans un second temps l’equipe de recherche DRUID, nalement la derniere partie de cette section est consacree aux responsabilites societales de l’entreprise (RSE).
L’IRISA
Le laboratoire IRISA a et cre en 1975, il s’agit d’une UMR 3 de taille importante qui a 8 tu-telles (CNRS, ENS Rennes, Inria, INSA Rennes, Institut Mines-Telecom, Universit Bretagne-Sud, Universit de Rennes 1, CentralSupelec). Il est localise sur quatre sites : Rennes, Lannion, Vannes et Brest. L’IRISA concentre ses recherches sur les systemes numeriques et plus particulierement sur l’informatique et le traitement de l’information, il est organise en sept departements (que l’on retrouve dans l’organigramme en annexe) :
D1 – Systemes Large Echelle (LSS)
D2 – Reseaux, Telecomunication et Services (NTS)
D3 – Architecture (AAC)
D4 – Langage et genie logiciel (LES)
D5 – Signaux et Images numeriques, Robotique (DSIR)
D6 – Media et interactions (MID)
D7 – Gestion des donnees et de la connaissance (DKM)
Les equipes de recherches sont incluses au departement a la thematique associee, chaque equipe a un chef d’equipe clairement identi (voire deux dans certains cas). Les equipes ont un agenda de recherche qui leur est propre ainsi qu’une importante autonomie aussi bien pour les aspects scienti ques que nanciers.
L’equipe de recherche DRUID est une des 6 equipes de recherche du departement D7, celui-ci s’interesse au traitement des donnees et plus particulierement aux relations entre donnees et connaissance. Les travaux de ce departement portent sur le stockage, l’interrogation et la visua-lisation des donnees massives ou complexes, ainsi que sur l’exploitation et la valorisation de ces donnees.
L’equipe DRUID
L’equipe DRUID a la particularite d’^etre bi-localisee sur Rennes et Lannion, un chef d’equipe (respectivement David Gross-Amblard et Arnaud Martin) est present sur chaque site. Mon stage s’est deroul sur le site de Lannion. Les recherches de l’equipe portent sur la generation d’infor-mations et connaissances ables a partir de donnees incertaines produites par interaction de nom-breux agents, avec un inter^et particulier pour les questions de con dentialit des donnees. L’equipe s’interesse notamment aux interactions d’agents dans les reseaux sociaux et les plateformes de crowdsourcing.
Les objectifs de nis par l’equipe sont les suivant :
| La coordination des utilisateurs et des t^aches dans les plateformes de crowdsourcing.
| Le developpement de theories pour la quali cation des donnees et sources en termes de abilite, certitude, con ance…
Le sujet de mon stage porte principalement sur cet objectif puisqu’il s’agit de la modelisation de l’imprecision et de l’incertitude de donnees dans les plateformes de crowdsourcingpar la theorie des fonctions de croyance.
| La mise en oeuvre de systemes qui sont des preuves de concepts de ces modeles et theories Prenons le projet HEADWORK qui est realis en collaboration avec le musee Cesco (Musee National d’Histoire Naturelle), la plateforme de crowdsourcing FouleFactory et les equipes de recherches : Valda (INRIA Paris), Links (Inria-Lille), Sumo (Inria-Bretagne). Celui-ci consiste en la realisation d’une plateforme de crowdsourcing dans laquelle les contributeurs se verraient proposer des t^aches suivant leur a nite avec le sujet de celles-ci. De plus, les t^aches evolueraient suivant les reponses des utilisateurs, par exemple, si une t^ache consiste en un apport d’information pour la biographie de l’actrice Natalie Portman il peut ^etre demand dans un premier temps le nombre de lm dans lesquels elle a joue. Si le contributeur repond un nombre de lme aberrant, la plateforme va indiquer a celui-ci de se renseigner sur la lmographie de l’actrice. A l’inverse, si le nombre de lms renseignes est credible, la prochaine t^ache du contributeur sera par exemple de citer les titres des dits lms.
RSE de l’IRISA et implication de l’equipe
Gouvernance : Le Conseil de Laboratoire de l’IRISA aide a la decision de la direction pour toutes les questions relatives a la politique scienti que, la gestion des ressources, l’organisation et le fonctionnement de l’unite. Il a un r^ole consultatif. Les reunions du Conseil se tiennent en moyenne 6 fois par an.
Chacun des 7 departements de l’IRISA traite un sujet strategique de recherche. Parallelement a ces sujets, le laboratoire considere des axes transversaux repondant a di erents objectifs. Ces axes sont scienti ques (cybersecurite, biologie et sante, robotique et drone), ecologique (environnement et ecologie, green IT) ou encore societals (art, patrimoine et culture, transport). Ainsi un ou plusieurs de ces axes peuvent ^etre centraux dans l’activite de recherche de l’equipe, applicatifs, ou encore porteurs d’inter^et sans ^etre le sujet principal de recherche. Par exemple l’equipe DRUID ayant pour sujet principale de recherche l’extraction de connaissance et la protection de donnees est concernee par les axes transversaux suivants : cybersecurite, biologie et sante, environnement et ecologie, art, patrimoine et culture, transport.
Droits de l’Homme : L’IRISA previent la discrimination, notamment vis a vis des groupes vulnerables. Les locaux des sites sont aux normes pour l’accueil d’employes en situation de handicap. De plus, certaines tutelles du laboratoire telle que l’INRIA sont particulierement actives dans leur politique handicap.
Le taux de feminisation au sein du laboratoire (TF 4) est faible. En 2017, 9 equipes sur les 39 que compte l’IRISA avaient un TF inferieur a 10%, de maniere symetrique 9 equipes ont un TF superieur a 30%. Il n’y a pas d’equipe parfaitement mixte puisque ce TF est toujours inferieur a 45%. Cependant cette absence de totale mixite s’explique par un phenomene societal. En e et, 4. nombre de femmes / nombre total de membres de l’equipe l’informatique et l’electronique sont percus comme des domaines masculins et le pourcentage de femmes realisant des etudes dans ces domaines est plus faible que celui des hommes. En 2017 d’enormes progres sont faits en terme de recrutement feminin par l’IRISA, bien que cela n’impactes pas directement les statistiques. De plus, des actions ont et proposees pour sensibiliser et faciliter la prise de parole des femmes ainsi que pour accro^tre leur visibilite.
Relations et conditions de travail : L’IRISA favorise le dialogue aussi bien interne qu’externe. Pour le dialogue interne un site web proposant de nombreux outils (base de donnees logicielle, gestion de decision…) est mis a disposition des membres de l’IRISA. De plus di erentes mailling lists existent pour faciliter les conversations. Parallelement a cela di erents seminaires sont realises au sein des departements ou encore ouvert a l’ensemble des membres du laboratoire.
Le laboratoire est sensible aux situations de travailleurs isoles et a inclus celles-ci dans son reglement interieur. Aussi, la mise en situation de travailleur isole doit ^etre limitee aux circonstances exceptionnelles et faire l’objet d’une declaration prealable aupres de la direction Environnement : Le laboratoire prend a sa charge les deplacements des employes dans le cadre des missions de ceux-ci aussi bien pour les vehicules personnels que pour les transports en communs. De plus une politique de tri selectif des dechets est mise en place au sein des di erentes tutelles du laboratoire.
Loyaute des pratiques : Chacun est tenu de respecter la con dentialit des travaux et des informations qui lui sont con ees ainsi que celles echangees avec des tiers. En cas de presentation a l’exterieur d’elements sensibles, l’autorisation du directeur de l’unite ou du responsable scienti-que est requise. Les droits de propriet intellectuelle (brevet, droit d’auteur…) sont respectes par l’ensemble des membres de l’IRISA dans le cadre des activites de recherches.
Communaute et developpement local : Une partie du personnel du laboratoire donne des cours dans les etablissements de l’enseignement superieur de Bretagne. De plus, certaines equipes participent a des manifestations telles que la f^ete de la science a n de partager leurs recherches et connaissances.
En n, certains projets portes par des equipes de l’IRISA ont un impact direct sur le developpement local. Par exemple l’equipe DRUID collabore avec d’autres equipes de l’IRISA sur un projet 5 dont le principal objectif est de \realiser la preuve de concept d’un outil d’aide a la decision publique, a la fois visuel, predictif et generalisable ». Cet outil permettrait d’identi er les territoires presentant les plus grandes chances d’accueillir favorablement de nouveaux projets. Par exemple, a partir d’un corpus d’etudes d’impact, cet outil aurait la capacite d’identi er rapidement les zones d’un territoire peu ou trop sollicitees sur les 5 dernieres annees par un type d’installation, et estimer la decision la plus probable pour une nouvelle installation similaire.
Apres avoir present l’IRISA et l’equipe DRUID dans cette section, nous allons maintenant presenter le crowdsourcing et les problematiques qui lui sont associee dans la section 3.
Les de s du crowdsourcing
Le crowdsourcing est une forme de production participative encore assez meconnue car il n’a pris de l’ampleur que recemment. C’est pourquoi pour une meilleure comprehension nous explicitons le principe de fonctionnement du crowdsourcing et les problematiques qui lui sont associees dans cette partie.
Principe de fonctionnement du crowdsourcing
Le principe general du crowdsourcing repose sur l’externalisation d’une t^ache a un ensemble de contributeurs. L’accomplissement de la t^ache a realiser est en general ouvert a tous. Ainsi les contributeurs dans le cadre du crowdsourcing viennent de milieux divers et varies. De m^eme, les t^aches a traiter sur les plateformes de crowdsourcing sont egalement tres diversi ees, ce qui permet de caracteriser ces plateformes. Ainsi, Burger-Helmchen et Penin [5] mettent en evidence trois principaux types de crowdsourcing. Ces plateformes sont caracterisees par leurs t^aches, la grati cation associee et les contributeurs auxquels elles s’adressent :
| Le crowdsourcing d’activites routinieres : les t^aches qui sont realisees dans le cadre de ce type de crowdsourcing ne necessitent pas de quali cations particulieres de la part des contri-buteurs et sont ouvertes a tous. Celles-ci proviennent en general du monde de l’industrie. Sur les plateformes de crowdsourcing d’activites routinieres le contributeur est remuner pour la t^ache e ectuee. On retrouve ce crowdsourcing sur des plateformes telles que Amazon Mechanical Turk 6 ou plus connu en France FouleFactory 7.
| Le crowdsourcing de contenu : il s’agit en general d’un apport d’information de la part du contributeur. Il peut ^etre remuner ou non. Par exemple, Wikipedia est une plateforme de crowdsourcing de contenu, les contributeurs viennent benevolement apporter leur connais-
sance sur un domaine.
| Le crowdsourcing d’activites inventives : ce type de crowdsourcing di ere des deux precedents dans le sens ou les contributeurs sont generalement moins nombreux et experts dans leur do-maine. Les t^aches a realiser dans le cadre de ce crowdsourcing sont la resolution de problemes, il s’apparente davantage a une forme de recherche et developpement. Une plateforme connue de crowdsourcing de ce type est InnoCentive 8. Une fois encore, le contributeur est remuner pour sa participation.
Dans le cadre d’activites routinieres et inventives, le fonctionnement general du crowdsour-cing est le suivant : une societ a besoin qu’une t^ache soit realisee. Elle va alors faire appel a une plateforme de crowdsourcing a n que la t^ache soit mise en ligne sur la plateforme et accessible a tous. Les utilisateurs de la plateforme (les contributeurs potentiel), vont alors voir appara^tre la possibilite de contribuer a cette t^ache. Une fois la t^ache e ectuee par di erents contributeurs, la societ recuperera les resultats aupres de la plateforme.
Le principe de fonctionnement est un peu di erent pour le crowdsourcing de contenu. En general la foule fournit des informations et/ou des donnees sur les plateformes. Puis les entreprises (voire les particuliers) viennent y chercher des informations et/ou des donnees suivant leurs besoins. Il ne s’agit pas necessairement d’une t^ache attribuee a la foule. Si nous prenons par exemple Wikipedia, l’utilisateur vient s’informer selon ses besoins. Un autre exemple est celui de la plateforme iStock-photo 9 [6] sur laquelle diverses photos sont mises en ligne par les contributeurs et peuvent ^etre achetees par des particuliers ou des societes a bas prix.
L’existence d’une telle diversit dans les activites de crowdsourcing est due a son utilisation massive par les industries de nos jours. En e et, comme Howe [6] l’explique le crowdsourcing a pris beaucoup d’ampleur au cours des dernieres annees. Les entreprises preferent desormais s’adresser a ces plateformes ou elles trouveront de la main d’ uvre et/ou des donnees a co^ut moindre que celles de professionnels dans des delais de production plus courts. Howe [6] raconte l’experience d’un photographe professionnel a qui une societ s’etait adressee pour des photos. Mais celle-ci a nalement fait le choix d’aller sur iStockphoto car sur cette plateforme il est possible de trouver des photos a partir de 1$ ce qui est un prix derisoire compare aux honoraires d’un photographe professionnel. Les principaux avantages du crowdsourcing pour l’industrie sont donc : son faible co^ut, la rapidite et la diversit des resultats gr^ace a la diversit des contributeurs composant la foule.
Apres avoir explicit l’avantage du crowdsourcing pour l’industrie, on peut s’interroger sur son inter^et pour la foule : pourquoi le crowdsourcing fonctionne-t-il si bien aupres des contributeurs ? Felstiner [7] donne des elements sur ce sujet, on retiendra notamment la libert du contributeur dans son travail. En e et, le contributeur est libre de choisir le temps qu’il souhaite accorder a une t^ache et de choisir la t^ache qui l’interesse. De plus, une grati cation est o erte au contributeur a n de susciter chez lui de l’inter^et pour la t^ache. En l’absence de grati cation, l’inter^et du contributeur vient d’une motivation individuelle. Remarquons que dans le cas ou une grati cation est o erte, c’est principalement celle-ci qui interesse le contributeur. M^eme s’il existe toujours chez certains la reelle volonte de contribuer a une t^ache ce n’est pas le cas pour tous les contributeurs. La grati – cation attire parfois des contributeurs de \mauvaises intentions » qui ne s’interessent pas a la t^ache et la realisent sans y porter attention. Ces contributeurs qui ne s’interessent qu’a la grati cation, et dont la contribution appara^t comme negative, sont appeles spammers. De m^eme nous pouvons egalement speci er l’existence de contributeurs qui bien que consciencieux dans leur travail n’ont pas les quali cations requises pour celle-ci, par la suite nous appellerons simplement ces contri-buteurs \non-competant ». A l’inverse, un expert est un contributeur qui remplit parfaitement la t^ache qu’il a choisi car il a une excellente connaissance du sujet. Precisons que lorsqu’une t^ache est remuneree, la remuneration se fait en fonction de la qualite (estimee par l’entreprise) des reponses des contributeurs. Ainsi, un contributeur dont les resultats sont inexploitables pour l’entreprise (spammer et non-competant) ne sera pas remuner .
On voit ici appara^tre les principales problematiques du crowdsourcing qui sont : la motivation de la foule, la caracterisation de la foule, et ainsi l’identi cation des donnees pertinentes.
Principales problematiques associees au domaine
Cette section de nit les trois principales problematiques rencontrees sur les plateformes de crowdsourcing. Le premier probleme aborde ici est celui de la motivation de la foule, qui amene aux problemes de la qualite des donnees et de la caracterisation de la foule.
La motivation de la foule
Parmi les diverses problematiques associees au crowdsourcing, la motivation de la foule [5, 8, 7], est la plus complexe a resoudre car il s’agit d’un probleme social, sur lequel il est di cile d’inferer. Bien qu’il ne soit pas possible d’agir directement sur cette problematique, il est important de l’ana-lyser car elle est a l’origine des problemes de la qualite des donnees et de la caracterisation de la foule. Comme precis precedemment, certaines plateformes n’o rent pas de grati cations, dans ce cadre la, la question de la motivation de la foule ne se pose pas puisque celle-ci accomplit une t^ache benevolement. C’est d’ailleurs generalement le cas pour l’ensemble des plateformes de crowdsour-cing de contenu. Le probleme de la motivation de la foule se pose davantage dans le cadre des crowdsourcing d’activites routinieres et d’activites inventives.
A n de palier a ce probleme, les contributeurs se voient o rir une grati cation (generalement une remuneration) pour leur travail. Une nouvelle di erence se fait alors, puisque dans les plateformes d’activites routinieres l’ensemble des contributeurs consciencieux sont remuneres pour leur t^aches. Alors que dans les plateformes inventives, la resolution d’un probleme pose se fait d’avantage sous la forme d’un concours, dans ce cas seuls les contributeurs \gagnant » le concours sont remuneres. C’est pourquoi, les spammers sont d’avantage presents sur les plateformes d’activites routinieres, puisque sur celles d’activites inventives il est plus complexe d’obtenir une remuneration. La foule sur ces plateformes se constitue alors de contributeurs consciencieux et de spammers. Les contributions apportees par ces deux categories d’individus etant tres di erentes en terme de qualite, il est important de les di erencier en vue d’une meilleure exploitation des resultats par l’employeur. Ceci nous amene a une seconde problematique importante du crowdsourcing : l’identi cation des contributions correctes et pertinentes.
La qualite des reponses
L’externalisation des t^aches apporte des avantages a l’entreprise, mais egalement un inconvenient majeur : l’employeur n’a pas de ma^trise complete sur le travail des contributeurs. Aussi, bien que les contributions de certains individus de la foule sont correctes et pertinentes pour l’utilisation que souhaite en faire l’entreprise, ce n’est malheureusement pas le cas pour toutes les contribu-tions. C’est pourquoi, il est necessaire de trouver une mesure qui permet de quali er la qualite des donnees issues de plateformes de crowdsourcing a n de savoir quelles donnees sont exploitables et lesquelles ne le sont pas. De nombreux articles portent sur ce sujet de la qualite des donnees dans le cs [9, 10, 1, 11, 12, 13, 2, 14] et developpent di erentes methodes pour parvenir a cette identi-cation. Ces methodes seront abordees dans la section 4 suivante. Certaines methodes ne portent que sur la consideration des donnees, d’autres en revanche s’interessent egalement a la participa-tion du contributeur. Ceci nous amene a une autre problematique importante du crowdsourcing, la caracterisation des contributeurs.
La carcaterisation de la foule
Nous di erencions quatre caracteres chez les contributeurs :
| le non-consciencieux (spammer) qui ne s’interesse pas a la t^ache.
| le non-competant est consciencieux dans la realisation de la t^ache mais possede trop de lacunes pour l’executer convenablement.
| le competant est consciencieux et quali e pour la t^ache.
| l’expert est consciencieux et a d’excellentes quali cations pour la t^ache puisque comme son nom l’indique il est expert du domaine.
Il est essentiel de caracteriser la foule pour traiter les reponses de celle-ci en consequence a n d’ob-tenir de meilleurs resultats pour l’entreprise. Neanmoins, bien que la notion de spammer semble evidente il n’est pas necessairement aise de les di erencier du reste de la foule. Prenons l’exemple d’un contributeur non-quali e pour la t^ache qu’il realise et dont les reponses sont inexploitables. Son travail risque d’^etre confondu avec celui d’un spammer et donc ne serait pas remuner . On observe bien dans cet exemple la di culte de caracteriser la foule. Or, il n’existe pas encore de veritable methode prede nie pour caracteriser la foule, et cela fait toujours l’objet de recherches [9, 1, 11, 15]. Cette caracterisation de la foule sera abordee dans la partie 4.3.
Nous ne pouvons in uer sur la motivation de la foule car celle-ci releve de l’ergonomie de la t^ache et de la grati cation o erte. C’est pourquoi nous nous focalisons sur les deux autres problematiques majeures que sont l’identi cation des donnees pertinentes et la caracterisation de la foule dans les plateformes d’activites routiniere. Nous nous interessons dans la partie qui suit aux modelisations existantes repondant a ces problematiques et leurs limites.
Etat de l’art
Cette partie presente une cartographie des modelisations existantes pour l’identi cation des reponses pertinentes et la classi cation des contributeurs dans les plateformes de crowdsourcing. Nous developpons dans un premier temps, section 4.1, les modelisations actuelles n’utilisant pas la theorie des fonctions de croyance. Puis dans un second temps nous introduisons cette theorie et plus precisement les proprietes que nous exploitons pour notre modelisation dans la section 4.2. Finalement nous abordons dans la section 4.3 l’utilisation actuelle faite de la theorie des fonctions de croyance dans le cadre du crowdsourcing.
Limites des modelisations actuelles
Nous di erencions ici les modelisations utilisant un corpus de reference de celles qui en font abstraction. Les deux premieres modelisations abordees ici portant sur l’utilisation de donnees d’or et l’apprentissage automatique, sections 4.1.1 et 4.1.2 necessitent l’utilisation d’un corpus de reference. A l’inverse, les deux modelisations suivantes : methode par vote section 4.1.3 et approche probabiliste section 4.1.4 ne necessitent pas de corpus.
Donnees d’or
Actuellement la methode la plus simple permettant d’estimer l’expertise d’un contributeur et donc le credit a accorder a ces reponses est l’utilisation d’un corpus de reference. Ces corpus sont appeles \donnees d’or » dans le cadre du crowdsourcing et possedent di erents inter^ets dans les pla-teformes. Avant de realiser une t^ache le contributeur doit parfois e ectuer un apprentissage pour pouvoir realiser au mieux la t^ache qu’il a choisie. Un corpus peut ^etre utilise dans le cadre de cet apprentissage par le contributeur pour l’aider a ameliorer ses competences [14]. Plus generalement les corpus sont sequences et inseres dans les t^aches a realiser de facon aleatoire. Ainsi parmis l’en-semble des questions auxquelles repondra le contributeur, les reponses a certaines questions seront connues. Utilisees de la sorte, les corpus permettent d’identi er les spammers et les contributeurs non-quali es pour la t^ache. Les premiers ne portant pas de veritable consideration a la t^ache, leurs reponses aux questions du corpus sont fausses dans l’ensemble. Pour les seconds, leur manque d’expertise se ressent dans leurs reponses inexactes aux questions du corpus de reference.
Apprentissage automatique
L’apprentissage automatique peut permettre de di erencier les contributeurs \consciencieux » des \non-consciencieux ». Les articles [2, 3] developpent la contribution de l’apprentissage automa-tique dans le cadre du crowdsourcing a n de distinguer les contributeurs « non-consciencieux’ du reste de la foule. Plus precisement, Halplin et Blanco [3] abordent de facon interessante l’utilisation de corpus de reference pour realiser cet apprentissage. D’apres leur etude l’utilisation de corpus permet de classi er au mieux spammer et \non-spammer ». Ils comparent deux methodes de clas-si cation, l’une utilisant les machines a vecteurs supports 10 (SVM) et l’autre utilisant les arbres de decisions. En se reportant a leurs experimentations et en regardant les resultats obtenus pour la classi cation des spammers on constate que dans le meilleur des cas le taux de bonne classi cation est de 97.92% avec l’utilisation de SVM ce qui o re de bons resultats ; m^eme si l’on peut craindre un sur-apprentissage.
Malheureusement toutes les t^aches de crowdsourcing ne permettent pas l’utilisation d’un corpus de reference. Prenons l’exemple d’une question a reponse ouverte, il est di cile voire impossible de donner une reponse de reference. Cependant, quand leur utilisation est possible, il est fortement recommand de les exploiter, Penna et Reid [16] en developpent l’inter^et.
Methode par vote majoritaire
En l’absence de corpus de reference, la methode traditionnellement utilisee dans les plateformes de crowdsourcing pour determiner la reponse a une question par combinaison des reponses des contributeurs, est la methode par vote majoritaire. Bien que cette methode ne permet pas de ca-racteriser la foule elle est souvent utilisee car facile a implanter. Les reponses des contributeurs sont modelisees par une fonction indicatrice rbi qui represente l’indicatrice sur la ieme reponse possible a la question concernee. Ainsi, pour chaque question, sur l’ensemble des reponses des participants, la reponse qui a eu la majorite des voix est selectionnee. Prenons le cas d’une question q binaire (par exemple la reponse a la question peut ^etre vrai ou faux), soit la reponse rq;c d’un contributeur c a la question q. En considerant une foule de N contributeurs Raykar et al. [4] de nissent le vote majoritaire sur la reponse par : 8 N >1Xc >1 sirq;c > 0:5
Apport de la theorie des fonctions de croyance
Dans leur etude portant sur la combinaison des reponses dans les plateformes de crowdsour-cing, Koulougli et al. [1] comparent trois methodes fondees sur : le vote majoritaire (section 4.1.3), l’approche probabiliste de Dawide-Skene (section 4.1.4) et les fonctions de croyance. La methode utilisant les fonctions de croyances discute dans l’article est appel CASCAD par les auteurs. Cette etude fait appara^tre que les fonctions de croyance o rent de meilleurs resultats pour la combinaison des reponses, devant respectivement l’approche probabiliste de Dawide-Skene et le vote majoritaire. En e et, comme il est possible de le constater sur la gure 1 extraite de l’article [1], lorsque le nombre d’elements focaux consideres pour les reponses est superieur a 2, le ratio de bonne reponse pour la methode CASCAD est superieur ou egale a 50%. De plus, on constate graphiquement un ecart important entre le ratio o ert par la methode CASCADE et ceux de l’approche probabiliste et du vote majoritaire. Alors que les probabilites permettent seulement la mesure de l’incertitude sur les donnees, les fonctions de croyance permettent egalement de modeliser l’imprecision, ce qui est un atout majeur dans le cadre du crowdsourcing.
De plus, prenons deux contributeurs c1 et c2, considerons l’approche probabiliste de la modelisation des donnees. Si les reponses de ces contributeurs ont le m^eme degr d’incertitude alors il est normal de considerer que ces deux contributeurs ont le m^eme degr d’expertise. Cependant, considerons maintenant la modelisation des donnees par la theorie des fonctions de croyance, les reponses de ces deux contributeurs ont toujours le m^eme degr d’incertitude, en revanche, les reponses du contributeur c1 ont un niveau d’imprecision plus faible que celles du contributeur c2. Les deux contributeurs contrairement a precedemment n’ont alors plus le m^eme degr d’expertise, celui du contributeur c1 etant plus elev que celui du contributeur c2 puisque celui-ci est moins imprecis dans ses reponses. D’ou l’inter^et de l’utilisation des fonctions de croyance pour traduire une mesure d’expertise dans le crowdsourcing [9, 11, 22, 23]. Ces fonctions permettent une bonne modelisation de l’incertitude et de l’imprecision des donnees.
Comme nous avons pu le voir dans l’exemple donne ci-dessus il est interessant de considerer in-certitude et imprecision dans la caracterisation d’expert car elles sont complementaires. La methode de Koulougli et al. [1] utilisant les fonctions de croyance o re de meilleurs resultats en terme de combinaison des reponses des contributeurs que la methode par vote et la methode sur les probabi-lites (Dawid-Skene). Nous commentons dans la section suivante l’inter^et d’utiliser des donnees d’or conjointement aux fonctions de croyance.
Fonctions de croyance en presence de donnees d’or
Nous avons vu dans la section 4.1.2 que l’utilisation d’un corpus de reference (appel donnees d’or) pouvait permettre la realisation d’un apprentissage semi-supervis sur les donnees. Ce corpus peut egalement ^etre utilise conjointement a la theorie des fonctions de croyance [9, 24]. Dans ce cas, les resultats des contributeurs peuvent ^etre compares au corpus a n de mieux estimer leur expertise.
Dans l’approche de Ouni et al. [9], un corpus de reference permet de modeliser un graphe de reference oriente, puis un graphe des reponses apportees a ces m^emes questions est construit pour chaque contributeur. Dans cet article N1;q represente le n ud d’attribut q (associe a la question q) dans le graphe de reference et N2;q est le n ud d’attribut q dans le graphe representant les reponses d’un contributeur aux questions de corpus. L’objectif de cette approche est de mesurer l’expertise des contributeurs en vue de di erencier les experts des \non-experts », c’est pourquoi le cadre de discernement est le suivant : = fE; N Eg ou E signi e expert et N E non-expert. Les fonctions de croyance sont utilisees pour comparer ces deux graphes en calculant :
| Un degr d’exactitude : ce degr compare la position d’un n ud q entre les deux graphes. Ce degr est calcule en mesurant la distance Euclidienne d1 separant les n uds dans les deux graphes et dmax la distance Euclidienne maximale antre deux n uds sur l’ensemble du graphe. 8 d1(N ;q; N2;q) m1(N1;q; N2;q)(E)=11 dmax > d1(N1;q; N2;q) > < > (11)
Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.
|
Table des matières
1 Introduction
2 Pr´esentation de l’entreprise
2.1 L’IRISA
2.2 L’´equipe DRUID
2.3 RSE de l’IRISA et implication de l’´equipe
3 Les d´efis du crowdsourcing
3.1 Principe de fonctionnement du crowdsourcing
3.2 Principales probl´ematiques associ´ees au domaine
3.2.1 La motivation de la foule
3.2.2 La qualit´e des r´eponses
3.2.3 La carcat´erisation de la foule
4 Etat de l’art
4.1 Limites des mod´elisations actuelles
4.1.1 Donn´ees d’or
4.1.2 Apprentissage automatique
4.1.3 M´ethode par vote majoritaire
4.1.4 Probabilit´e et algorithme EM
4.2 La th´eorie des fonctions de croyance
4.3 Fonctions de croyance et crowdsourcing
4.3.1 Apport de la th´eorie des fonctions de croyance
4.3.2 Fonctions de croyance en pr´esence de donn´ees d’or
4.3.3 L’impr´ecision du contributeur
4.3.4 Un degr´e d’expertise pour caract´eriser le contributeur
5 Caract´erisation des contributions et des contributeurs
5.1 Mod´elisation de la r´eponse du contributeur
5.2 Mod´elisation du profile du contributeur
5.2.1 Connaissance
5.2.2 Comportement
5.2.3 Expertise
6 Validation de la mod´elisation
6.1 Pr´esentation de la campagne de crowdsourcing
6.2 Biblioth`eques et ressources
6.3 R´esultats de la mod´elisation
7 Conclusions et perspectives
7.1 Conclusions
7.2 Perspectives
7.3 Bilan personnel
Télécharger le rapport complet