Implémentation d'une méthode de clustering de type K-means

Positionnement sur le marché

Wepingo se situe sur un marché proche de celui des comparateurs. Cependant, le secteur réel sur lequel Wepingo souhaite s’installer durablement est celui des assistants shopping ou le marché du pré shopping.
Le e-commerce s’étant diversifié, la clientèle potentielle est représentée par toute personne désirant acheter sur le web. Néanmoins, la dimension du conseil s’adresse à des personnes sûres de passer à l’acte d’achat mais ne sachant pas quel produit choisir.
La plateforme a pour but d’orienter l’utilisateur sur une catégorie de produits qui correspond à son besoin, au sein d’une gamme généralement très vaste. Parmi tous les univers qui seront proposés, tous les catalogues des distributeurs sont indexés dans la base de données, afin de réunir un maximum de produits et d’orienter l’utilisateur vers la gamme qui lui correspond le mieux. Dans l’idéal, toutes les gammes et produits proposés dans les catalogues des distributeurs existants (Darty, Cdisount, …) seront indexés sur le site.
Tout site web marchand commercialisant les produits proposés sur Wepingo est potentiellement un partenaire ou un concurrent. Le Web marchand est aujourd’hui dominé par trois types d’entreprises : des pure-players (comme Amazon, CDiscount, eBay, Pixmania ou encore Rue de Commerce), des véadistes, qui vendent uniquement par catalogue (tels que les 3 Suisses ou La Redoute) et les click & mortar qui regroupent un réseau de magasins et une eboutique (comme la Fnac).
Dans les domaines du pré-shopping, de nombreux acteurs ont fait leur apparition depuis 2011.
La grande majorité d’entre eux ont une activité dans le domaine de la mode.
Il existe deux concurrents qui ne sont pas liées à la mode : il s’agit de Socloz et best comparator. Socloz utilise la géolocalisation mais n’a pas de dimension de conseils experts, ni d’achats groupés, quant à Best comparator, son modèle est limité dans ses fonctions (pas de géolocalisation, de conseils experts, d’achats groupés ni d’intelligence artificielle (mais seulement des filtres). Wepingo mise avant tout sur la qualité et la quantité de services afin de se différencier de laconcurrence.

Réalisation du projet

Après avoir présenté ce que fait actuellement Wepingo à l’aide de ses questionnaires, mon but était d’aider à la réalisation d’un projet permettant de faire évoluer et de diversifier, l’offre de l’entreprise.
Devoir répondre à un questionnaire lorsqu’on achète un produit sur internet peut s’avérer contraignant et nombre d’utilisateurs risquent de ne pas utiliser l’outil par manque de temps ou parce qu’ils ne connaissent pas l’entreprise Wepingo.
Il faut donc trouver une solution où l’utilisateur est conseillé sans avoir à faire « d’effort ».
L’idée est donc de créer un outil permettant au marketeur d’intégrer des règles marketing qui s’appliqueront à tous les utilisateurs de son site, et qui proposera en fonction des informations disponibles sur l’utilisateur et les règles du marketeur les meilleurs produits.

Quelques problématiques liées à cet outil

Faire du marketing one-to-one c’est se détacher de la segmentation, alors que l’approche la plus simple et la plus intuitive serait de créer des profils issus de segmentations d’acheteurs.
C’est de cela que l’on veut se détacher.
Le challenge est donc de trouver un moyen de différentier chaque utilisateur mais aussi de pouvoir les conseiller au mieux.

Qu’est ce qu’une règle marketing ?

Exemple : SI n nombre d’enfants inférieur à 2 ans ALORS n nombre de places dans la poussette.
Il s’agit de traduire un ensemble d’informations sur l’utilisateur et de les traduire en sensibilités.
En effet, le contexte a évolué : dorénavant, le stockage massif d’informations sur les individus est appliqué par tous, dans une économie toujours plus mondialisée. Le marketing se transforme : avec l’émergence du Big Data, la connaissance client permet une approche One to-One. Nous n’avons plus besoin de segmenter le marché : chaque client est unique. Nous pouvons donc lui proposer le produit adapté. L’analyse prédictive permet donc de se différencier de la concurrence et de fidéliser le client durablement. C’est donc cela que nous voulons offrir aux GSS (grandes surfaces spécialisées) comme Darty, Fnac, Sephora, et aux e commerçants Cdiscount,…

Présentation de l’outil

L’outil que je devais développer était un outil à l’état d’idée, aucune structure n’avait été prédéfinie. J’ai donc du intégralement créer l’outil, le plus pertinemment possible, avec une collègue, Sarah Dureau, se chargeant de la partie marketing et communication, afin de satisfaire les besoins de l’entreprise. J’ai donc apporté mon esprit mathématique, de synthèse, mes connaissances statistiques et mes bases de programmation pour définir quelles seraient les étapes nécessaires à la réalisation du projet et sa faisabilité. La version finale que je vaisvous présenter ici est le résultat de 2 mois d’élaboration, en collaboration avec ma collègue,en mettant chacun en symbiose nos connaissances.

L’extraction des sensibilités à partir des données facebook

L’outil final présenté ci-dessus est composé de différentes étapes techniques qui ont été discutées avec les ingénieurs. Par exemple, la partie portant sur l’extraction des sensibilités à partir des données facebook.
Elle contient un algorithme qui scrappe* les données de google.
En effet, j’ai eu l’idée, pour pouvoir lier les millions de pages de likes existantes aux sensibilités prédéfinies, de procéder à un comptage des itérations des mots clefs en première page de recherche de google lorsque l’on rentre le nom du like dans la barre de recherche. J’ai développé cet outil en collaboration avec mon collègue ingénieur recherche et développement en Java.

La slide pour COTY

J’ai dû tester cette méthode en un temps record pour l’entreprise COTY et voici la présentation que je leur ai faite de l’outil.
Preuve d’un résultat au-delà de toute espérance, l’entreprise COTY (propriétaire de grandes marques de cosmétique internationales telles que Rimmel London, O.P.I, …), a intégré Wepingo dans son budget d’investissement pour la recherche et la modernisation de ses services.
En effet, l’entreprise n’étant pas convaincue par l’idée des questionnaires, le responsable du développement commercial de Wepingo a discuté du projet sur lequel je travaillais et cela s’est annoncé payant. Deux semaines plus tard, suite à l’envoi d’un slide que j’ai réalisé spécialement pour COTY, Wepingo était introduit dans le budget prévisionnel de COTY. Ce slide présentait simplement et brièvement mon projet, il a été présenté à Londres et l’idée fut adoptée par les patrons de COTY. Cette courte période de deux semaines où il a fallut tester et proposer une solution adaptée à leur besoin, m’a montré que j’étais capable de diriger une équipe composée de personnes travaillant dans différents domaines et de rendre un résultat convenable, au point qu’il soit accepté et validé, dans des délais très restreints.

Mise en application de la méthode

Ci-dessous, une partie de mon travail sur R pour tester mes idées d’extraction de sensibilités et d’associations de produit avec cette méthode.
Voici la répartition des utilisateurs suite à l’application de l’algorithme google.
Voici la répartition des distances (distance ici est la distance de Manhattan), pour UN des produits de la marque Rimmel London pour environ 1400 femmes de notre jeu de données.
Les produits ayant une concentration autour d’une valeur basse sont des produits très standardisés qui peuvent plaire à tout le monde. Ceux qui ont une valeur haute sont des produits qui visent une clientèle plus ciblée.

Implémentation d’une méthode de clustering de type Kmeans

L’entreprise a réalisé un jeu concours (contest) où il fallait répondre à l’un des 3 questionnaires (1 pour chaque univers). Chaque questionnaire permet de définir les affinités entre la personne participante et les produits de l’univers. Les questions permettent de mesurer une opinion, dans le cas présent à chaque réponse est associée une affinité (affinity) plus ou moins grande. Les questions sont indépendantes et ont été posées de façon aléatoire.
Le choix de l’univers est d’autant plus représentatif que le cadeau du gagnant était issu de l’univers qu’il avait choisi.
Je disposais d’un certain nombre d’informations sur les participants du contest :
– L’univers choisi
– Les questions et réponses des participants
– L’âge et le sexe d’une partie des participants
– Les affinités liées à chaque réponse

Qu’est-ce que le clustering ?

Avant d’expliquer les différentes étapes de la programmation de cette méthode je vais présenter brièvement le but d’un clustering.
Le clustering représente un ensemble de méthodes permettant de regrouper ou de hiérarchiser des données. Le résultat d’un clustering est la génération d’un certain nombre de clusters, dont les centres sont appelés centroids, et qui regroupent des individus.
Dans la méthode K-Means ce nombre de clusters est prédéfini et correspond au K que l’on renseigne en argument de la fonction.
J’ai été confronté à des données brutes qu’il a fallu nettoyer et normaliser pour pouvoir en déduire des résultats exploitables.
Les centroids finaux sont les centres des clusters. On peut donc dire que les choix convergent vers ces centres. Chaque centroid composé de ces facets pondérés traduit un profil type de produit que recherchent une grande partie des utilisateurs.
Par exemple le centroid 3 correspond à un type d’appareil photo moyennement léger (50%), plutôt pas très axé sur le design (41%), axé sur la créativité (69%), pas du tout adapté aux milieux extrêmes (31%), très axé sur la prise de cliché en mouvement (74%), en milieu obscur (76%) et à la prise de photo de portrait (77%) enfin avec une très bonne aptitude à prendre des photos de paysage ou de groupe (85%).
Concrètement, dans l’outil, le nombre d’informations sur les utilisateurs sera suffisant pour faire une analyse sur l’ensemble des utilisateurs qui compose chaque cluster et associer à un profil de produit un profil d’utilisateur. Ce procédé sera fait de façon aussi juste que nous aurons un grand nombre de données précises.
On peut donc dire que cette question n’est pas judicieuse. Elle ne révèlera que trop rarement une tendance différentiant plusieurs utilisateurs.
Où ce situe le problème ? Est-ce la formulation de la question ? Est-ce la question en elle-même ? Y at-il un problème avec les choix de réponse ?
Au marketeur de le dire, de changer la formulation, d’analyser à nouveau les retours etc…
On pourrait donc penser à un algorithme simple qui analyserait régulièrement les réponses aux questionnaires et qui signalerait une question à modifier via mail ou via un pop-up sur l’outil.
Idée d’algorithme : Par exemple, donner un taux de réponse minimum/maximum pour chaque choix dans une question. Puis le programme signalera une réponse qui est hors seuil.

Idée de solution

Comme le disait un de mes professeurs, Mme Maumy-Bertrand, « Lors d’un sondage ou lors de tout autre questionnaire… », parlait de sondage politique, « …on ne veut pas que les choix de réponses soient biaisés du fait que la personne qui répond devine par avance ce que l’on veut déduire de ses réponses ».
Par exemple, dans le cadre de sondage politique, une personne peut avoir honte de dire qu’elle vote FN, cela explique souvent des écarts significatifs dans les résultats de ce parti entre réalité et sondage.
Lors de nos questionnaires c’est la même chose, on ne veut pas que la personne nous réponde « Ce qui se fait de mieux » à chaque question, on veut lui proposer quelque chose qui « colle » au mieux à l’usage qu’elle fera de l’objet.
Une idée pourrait être d’utiliser les méthodes de psychologie pour la conception des questions, les mêmes que les psychologues utilisent lors de leurs tests et questionnaires. Une des méthodes utilisée est de demander l’inverse de ce que l’on veut savoir, cela permet debrouiller les pistes et d’obtenir des résultats plus probants.
Par exemple dans le questionnaire sur les appareils photo on demande : « Quelle importance accordez-vous à la prise de photo de sujet en mouvement ? » deviendrait : « Quelle importance accordez-vous à la prise de photo de sujet statique » et plus la réponse sera basse pour cette question, plus l’affinité à la facet « prise de photo de sujet en mouvement » sera grande.
Attention, cela dit, de ne pas complexifier la question ce qui nuirait au résultat. L’utilisateur risque de répondre au hasard ou de passer la question, si elle n’est pas facilement compréhensible.
Pour avoir des meilleures informations sur les utilisateurs, il serait préférable d’associer des facets/features négative selon la réponse.
Exemple : Disons que la légèreté et la portabilité s’opposent à la solidité. Donc si un utilisateur met une réponse avec une affinité haute pour la portabilité, en contrepartie une sensibilité négative à la solidité va s’appliquer. Dans une autre question s’il choisit une réponse avec une affinité haute aussi pour la solidité, en contrepartie une sensibilité négative à la portabilité va s’appliquer. Le résultat sera donc deux sensibilités moyennes pour ces deuxfeatures.

Disons que c’est un calcul simple

Si à la question X pour la réponse « haute » j’associe 1 en Portabilité et -0.5 en Solidité.
Si à la question Y pour la réponse « haute » j’associe 1 en Solidité et -0.5 en Portabilité.
Alors la somme des 2 me donnerait une sensibilité de 0.5 en Portabilité et de 0.5 en Solidité.
Pour répondre au mieux aux attentes de l’utilisateur, on peut aussi lui demander de pondérer qu’une feature est plus importante qu’une autre, cette méthode sera du coup encore plus judicieuse. Pour évaluer le lien entre deux facets/features il faut s’intéresser à leur corrélation, leur dépendance.

Autre remarque

Les utilisateurs ont tendances à en demander toujours plus, à être exigants, d’après les résultats des 3 questionnaires. Ce qui rend la différentiation des utilisateurs plus compliquée.

Statistique sur les affinités

Si l’on fait les moyennes d’affinités pour chaque question on peut par exemple se rendre compte que la prise de photo en portrait est ce qui importe le plus pour les utilisateurs, ou encore que la prise de photo en mouvement est ce qui les intéresse le moins.

Conclusion

Ce stage de fin de Master 1 m’a permis de compléter mes connaissances et d’en acquérir bien d’autres. Le fait d’avoir pu l’effectuer dans une start-up m’a permis d’analyser un projet depuis sa conception, ce qui m’a permis d’avoir une approche plus précise sur plusieurs métiers de l’informatique. Il a certes fallu être rapidement autonome et efficace car un projet évolue très vite dans son lancement, et j’ai pu rapidement m’apercevoir des difficultés que l’on peut rencontrer lorsque l’on se lance dans le monde de l’innovation. Ces difficultés apparentes deviennent un sentiment de grande réussite lorsqu’on les surpasse et on se sent tel un explorateur lorsque nos premiers résultats concrets sont sous nos yeux.
Du fait de la durée restreinte du stage je n’ai pas pu accompagner le projet jusqu’à sa finalisation, j’ai néanmoins pu poser les bases d’un outil qui seront exploitées par mes collègues pour en faire un outil pleinement fonctionnel.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Introduction
I) Contexte
1) Présentation de l’entreprise
2) Positionnement sur le marché
II) Réalisation du projet
1) Quelques problématiques liées à cet outil
2) Qu’est-ce qu’une règle marketing ?
3) Présentation de l’outil
4) Schéma représentatif du processus complet
5) Ce que verra le marketeur
III) L’extraction des sensibilités à partir des données facebook
1) La slide pour COTY
2) Mise en application de la méthode
IV) Implémentation d’une méthode de clustering de type K-means
1) L’algorithme en R
2) Qu’est-ce que le clustering ?
3) Les étapes de mon algorithme
4) Quelques idées pour améliorer cet algorithme
V) Analyse Statistique du contest Facebook
1) Quelques statistiques générales
2) Statistiques sur l’âge
3) Statistique sur les affinités
Conclusion
Programmes utilisés
Lexique
Bibliographie