PREDICTION DE CHURN ETUDE DESCRIPTIVE ET PREDICTIVE

Big data et Data Science

Data Science et Big Data Analytics sont des domaines qui combinent la recherche scientique, les connaissances statistiques et la programmation informatique. Le Big Data est un terme évolutif qui décrit toute quantité volumineuse de données structurées, semi-structurées et non structurées susceptibles d’être extraites à titre d’information. Le Big Data est souvent caractérisé par le 3V : le volume extrême de données, la grande variété de types de données et la vitesse à laquelle les données doivent être traitées. Bien que le Big Data ne correspondent pas à un volume spécifique de données, le terme est souvent utilisé pour décrire des téraoctets, des pétaoctets et même des exaoctets de données capturées au l du temps. La science des données ou Data science est l’étude de l’origine de l’information, de ce qu’elle représente et comment elle peut être transformée en une ressource précieuse dans la création de stratégies commerciales et informatiques. Extraire de grandes quantités de données structurées et non structurées pour identier les tendances peut aider une organisation à maîtriser ses coûts, à accroître son efficacité, à reconnaître de nouvelles opportunités de marché et à accroître son avantage concurrentiel. Le domaine de la science des données emploie les mathématiques, les statistiques et les disciplines de l’informatique et incorpore des techniques comme l’apprentissage automatique, l’exploration de données et la visualisation.

Définition analyse de survie

L’analyse de survie est une technique statistique qui permet de faire l’estimation du temps écoulé jusqu’à la survenue d’un événement précis. Par exemple, elle permet de déterminer la durée de survie de patients ayant eu un infarctus cardiaque ou la durée de chômage d’une personne avant l’obtention d’un nouvel emploi.

Application de l’analyse de survie à l’étude du churn

La technique proposée par [Guozheng Zhang et al] [16] comporte deux phases. La première phase consiste à faire une segmentation (clustering) pour séparer les clients en groupes hétérogènes puis la deuxième phase l’analyse de survie. Pour la segmentation, les clients sont regroupés selon leurs caractères de survie puis l’analyse de survie donne la fonction de survie/risque qui sert à identifier la tendance de churn et tester la validité du regroupement pour obtenir la segmentation correcte des clients. Cette approche s’est réalisée en plusieurs étapes. Tout d’abord la mission a été définie en sélectionnant et en confirmant les attributs des clients utiles à l’étude du churn. Les données sur le comportement général des clients sont préparées et extraites de l’entrepôt de données (datawarehouse). La segmentation est ensuite réalisée à l’aide de technique de data mining comme la méthode de K-means en regroupant les clients ayant des possibilités de survie similaires. Un numéro est assigné à chaque groupe de clients après la segmentation. L’analyse de survie est ensuite réalisée et prend 3 attributs (variables) : les mois de service (temps de survie), le nombre de clients et le numéro du groupe. L’analyse de survie a pour but d’évaluer la qualité de la segmentation en ayant une homogénéité à l’intérieur des groupes et une hétérogénéité entre les différents groupes. Elle permet aussi de donner la courbe représentant la fonction de survie (gure 3.2). Après, la formule et la loi suivie par chaque groupe est recherchée. Enn, l’action de rétention de client est implémentée. L’étude a été faite sur des données d’une entreprise de télécommunications en Chine. Après nettoyage et filtrage, ces données contient 1000 enregistrements représentés chacun par 256 variables.

Application de la méthode de SVM à l’étude du Churn

Une des approches étudiées [Coussement et Poel, 2008] [8] consistait à appliquer SVM à un contexte de churn d’abonnement aux journaux. L’objectif était de construire un modèle de churn précis en utilisant cette technique. La performance de prévision du churn du client a été comparée à celle de la régression logistique et aux prévisions aléatoires. Les auteurs ont choisi comme mesure principale d’évaluer leurs modèles de zone sous courbe (Area Under Curve ou AUC en anglais). La meilleure valeur concernant leurs modèles SVM était de 85.14, et le modèle de forêt aléatoire utilisé comme indice de référence a conquis une valeur AUC dénitive de 87.21.

Microsoft SQL SERVER

D’après Wikipédia , Microsoft SQL server est un Système de Gestion de Base de Données relationnel[(SGBDR)] développé par Microsoft et utilisant le langage SQL. En tant que serveur de base de données, il s’agit d’un produit logiciel ayant la principale fonction de stockage et de récupération de données. SQL Server utilise 4 principaux technologies : le moteur de base de données, Analysis services, Integration services, Reporting services.
le moteur de base de données : Le moteur de base de données est le principal service de stockage, de traitement et de sécurisation des données. Le moteur de base de données fournit un accès contrôlé et un traitement rapide des transactions pour répondre aux exigences des applications les plus exigeantes en matière de consommation de données. Le moteur de base de données fournit également un support complet pour maintenir une haute disponibilité.
Analysis Services :Analysis Services est une plate-forme de données analytiques et un ensemble d’outils pour l’intelligence d’entreprise personnelle, équipe et entreprise. Les serveurs et les concepteurs clients prennent en charge les solutions OLAP traditionnelles, les nouvelles solutions de modélisation tabulaire, ainsi que les analyses et la collaboration en libre-service utilisant Power Pivot, Excel et un environnement SharePoint Server. Analysis Services comprend également Data Mining pour pouvoir découvrir les motifs et les relations cachés dans de gros volumes de données.
Integration Services : Integration Services est une plate-forme pour la construction de solutions d’intégration de données haute performance, y compris les paquets qui fournissent des processus d’extraction (Extract en anglais), de transformation (Transform en anglais) et de chargement (Load en anglais) ([ETL]) pour l’entreposage de données.
Reporting Services : Reporting Services fournit des fonctionnalités de reporting d’entreprise, basées sur le Web. Il permet de créer des rapports qui tirent du contenu à partir d’une variété de sources de données, publier des rapports dans différents formats et gèrent de manière centralisée la sécurité et les abonnements.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 INTRODUCTION
2 ENVIRONNEMENT DE TRAVAIL
2.1 Présentation de l’entreprise
2.2 Activités et Missions
2.2.1 Activités
2.2.2 Missions
2.2.3 Objectifs
2.2.4 Valeurs et culture de l’entreprise
3 ETAT DE L’ART
3.1 Big data et Data Science
3.2 Data Mining
3.2.1 Dénition du Data Mining
3.2.2 Data Mining en télécommunications
3.3 Modélisation prédictive
3.3.1 Régression
3.3.2 Classification
3.4 Modélisation Descriptive
3.5 Application du Data Mining à l’étude du churn
3.5.1 Etude sur le churn des clients utilisant la méthode d’analyse de survie
3.5.2 Etude sur le churn utilisant la méthode d’arbre de décision
3.5.3 Etude de churn utilisant la régression logistique
3.5.4 Etude de Churn utilisant les réseaux de neurones
3.5.5 Etude sur le churn utilisant la méthode de Support Vector Machine (SVM)
3.5.6 Etude sur le churn utilisant l’arbre de classifocation Bagging et Boosting
4 CONTRIBUTION
4.1 Outils
4.2 Analyses et Transformations des données
4.2.1 Compréhension des données
4.2.2 Echantillonnage
4.2.3 Analyses descriptives et corrélations
4.2.4 Nettoyage des données
4.2.5 Sélection et extraction de variables
4.3 Déploiement et Automatisation
4.3.1 Les avantages de R
4.3.2 R intégré dans SQL Server
5 RESULTAT
5.1 Modélisation
5.1.1 Définition
5.1.2 Processus de modélisation
5.1.3 Les méthodes d’évaluation des modèles
5.2 Sélection de Modèles
5.3 Processus de l’automatisation
6 Conclusion