Le machine Learning appliqué à la prévision des cours 

Les modèles de régression

Il s’agit des modèles les plus utilisés. C’est pourquoi nous ne détaillerons pas les spécificités de chaque modèle. On retiendra qu’un modèle de régression se distingue d’un modèle de classification par la variable de sortie qui peut prendre des valeurs numériques continues. Parmi les modèles les plus connus, on retrouve les régressions linéaires (très utilisées en économétrie). Par ailleurs, la plupart des algorithmes de classification peuvent être utilisés pour des régressions, on parle alors de régression linéaire bayésienne, de modèle neuronal pour la régression, d’arbres de décisions pour régression.

Modèles non supervisés

A contrario, un modèle non supervisé sera quant à lui alimenté uniquement par des exemples, et créera lui-même les classes qui lui semblent les plus judicieuses (clustering) ou des règles d’associations (algorithmes Apriori). L’algorithme K-moyennes (K-means) permet de comprendre facilement le concept de classification non supervisée. Cet algorithme est un algorithme de « clustering », c’est-à-dire qu’il va créer des catégories à partir des observations. Pour cela on détermine un entier k correspondant au nombre de partitions (groupes) souhaitées. On va ensuite chercher à minimiser la distance entre chaque point et le point représentant la moyenne d’une partition donnée.
L’algorithme se déroule comme suit:
– On choisit au hasard des points qui représentent la position moyenne des k partitions.
Puis on répète les opérations suivantes jusqu’à obtenir une convergence :
– On attribue à chaque observation sa partition la plus proche (en comparant sa distance à chaque point précédemment positionné).
– Une fois les observations regroupées par partitions, on remet à jour la position moyenne.

Fléau de la dimension et méthodes de réduction des variables

Le fléau de la dimension fait référence aux problématiques rencontrées lorsque l’on utilise des espaces avec de nombreuses dimensions (dans notre cas, des données avec de nombreux attributs) . Cela se traduit, soit par une perte de précision (la représentation d’un même nombre de données est plus éparse si l’on augmente les dimensions) soit par des quantités de données nécessaires plus importantes. Pour y remédier, différentes techniques de réductions de variables sont possibles dont l’analyse en composantes principales.

Evaluation des modèles et précision des résultats

Dans cette partie, nous rappellerons à la fois les mesures utilisées pour les algorithmes de classification et les régressions linéaires.

Sensibilité, spécificité et valeur prédictive positive

Prenons l’exemple de la prévision d’une «hausse » ou d’une «baisse » d’un indice. Une fois l’algorithme entrainé, nous allons le tester sur une base de donnée spécifique (ce qui génèrera les résultats F(X)), dont les labels « hausse » ou « baisse » sont connus (Y). Cela permettra de déterminer.

Le Machine Learning en finance

De nouvelles sources de données

On estime que les quantités de données disponibles dans le monde doublent tous les 1,2 ans (Manyika et al., 2012) et que cela justifie en grand partie le regain d’intérêt du Machine Learning. L’usage de données en finance n’est pourtant pas un phénomène récent : les méthodes d’évaluation de risque, de valorisation, de pricing s’appuient sur des données, principalement chiffrées.
Un des changements majeurs de ces dernières années concerne la nature nouvelle des données. On peut entre autre citer :
– Le texte: nous étudierons par la suite des études portant sur les publications de sites d’actualités et des réseaux sociaux. L’objectif étant généralement d’extraire un sentiment de ces données, nous détaillerons par la suite les différentes approches possibles.
– L’image: largement utilisée en météorologie, mais aussi en agriculture (marché des matières premières), ou encore pour mesurer en direct la fréquentation de centres commerciaux . Il est aujourd’hui possible d’extraire des connaissances à partir de photos ou de vidéos (e.g. reconnaissance de visages ou de marques de produits sur Facebook).
– Conversations: des algorithmes spécifiques existent aujourd’hui pour analyser des conversations (à la fois écrites et orales). Cela se traduit par des chatbots : des « robots » capables d’interagir avec un humain au travers d’une discussion.
– La géo localisation: L’usage de lagéo localisation permet de mesurer l’affluence dans un lieu, et plus généralement les habitudes d’un utilisateur (lieu de travail, résidence, type de trajet etc…)
– Navigation internet: il est aujourd’hui possible de suivre le mouvement de la souris lors d’une navigation, afin de juger de l’attitude d’un prospect sur un site e-commerce, ou encore du temps passé sur chaque slide d’une présentation.
– Les données d’objets connectés : C’est particulièrement valable dans le domaine des assurances. Boyer (2015) fait entre autres référence aux boitiers connectés pour les automobiles (Google Car, Tesla) mais aussi aux capteurs biométriques pour la santé (Health Apple). Ce phénomène de collecte de données à la fois « biologiques, physiques, comportementales ou environnementales » est aussi appelé « soi quantifié » (« Quantified Self », Swan , 2013).

Applications en gestion de risque et assurance

Tarification des assurances

Le Big Data permet une tarification plus précise, et ce, à différents niveaux. On peut tout d’abord faire référence à la précision du «zoning » , aux pratiques de l’assuré (nombre de kms réellement parcourus ou type de conduite dans le cas d’une assurance automobile). Boyer (2015) évoque par exemple l’étude des corrélations entre les mouvements d’un compte courant et les accidents, par exemple les montants payés en CB Cependant, l’usage des données pour une segmentation précise des clients « à risques » et la tarification spécifique qui peut en découler mène évidement à un débat éthique et réglementaire sur ces pratiques.
Un autre champ du Machine Learning exploité en assurance concerne les détections de fraudes: l’Electronic Fraud Detection( EFD). Considérant qu’entre 125 et 175 milliards de dollars sont perdus chaque année sur le système de santé américain, Travaille et al. (2011) montrent que des algorithmes supervisés permettent de mieux prévenir les fraudes.
Des travaux similaires ont été réalisés sur les assurances automobiles, estimant entre 10 et 20% les réclamations frauduleuses . Concernant ce dernier secteur, Viaene et al. (2002) montrent que des algorithmes relativement simples (comme les régressions linéaires logistiques ou les réseaux bayésiens naïfs) mais robustes et nécessitant peu de données d’entrainement sont plus performants que des algorithmes plus complexes (comme l’algorithme C4.5 issu des arbresde décisions).

Prévision des défaillances d’entreprises

Ben Jabeur et Fahmi (2013) étudient la prévision des défaillances sur un échantillon de 800 entreprises à partir de 33 ratios. Ils comparent la régression des moindres carrés partiels (régression PLS) avec une approche SVM et aboutissent à des résultats similaires (96,5% de bon classement pour l’approche PLS contre 94,9% pour la méthode SVM un an avant la défaillance, supériorité de l’approche PLS 3 ans avant la défaillance, supériorité de la méthode SVM 2 ans avant la défaillance). Y. Alici montre quant à lui une supériorité des réseaux de neurones par rapport aux méthodes d’analyse discriminante et de régression logistique pour la prédiction des faillites.

Evaluation du risque de crédit

L’évaluation du risque de crédit est une problématique à la fois des banques de détail (crédits aux particuliers et entreprises) et de finance de marché (e.g. Credit Default Swaps, gestion de collatéral). On peut séparer deux types d’évaluation : a) l’évaluation lors d’une demande de crédit b) l’évaluation de risque de défaut durant la vie du crédit(Khashman, 2010). Les études dans ce domaine s’appuient sur des approches statistiques classiques (régressions logistiques), des arbres de décisions et les réseaux de neurones, qui semblent là aussi les plus utilisés et les plus performants (Baesens et al., 2003). Cependant, la nécessité d’expliquer la raison d’un accord ou surtout d’un refus de crédit a orienté la recherche vers l’extraction de «règles » à partir de réseaux de neurones entrainés (algorithmes dits de « décompositions » : Neurorule, Trepan, Nefclass). A titre d’exemple, Baesens et al. (2003) utilisent différents réseaux de neurones sur un jeu de 1000 « cas » de crédits labélisés « accept » ou « reject » (entrainement supervisé). Chaque cas est constitué de 20 variables (numériques ou catégoriques e.g. typede travail, âge, nombre de crédits en cours). Ils obtiennent un modèle prédictif avec 83,6% de précision. Cette étude souligne d’une part la nécessité d’avoir des données suffisantes pour l’entrainement et l’évaluation du modèle mais aussi la difficulté pour normaliser des variables d’entrées.

Quel avenir pour les gestionnaires de fonds ?

L’engouement pour le Big Data ne se traduit pas tout le temps par des succès au niveau des fonds d’investissement. En effet, l’analyse de données reste un procédé complexeet coûteux, en développement et dont les résultats sont encore mitigés (Nardo et al., 2016). Plusieurs fonds semblent d’ailleurs en faire les frais: le fond Big Data de Catana Capital a perdu 3,9 % de sa valeur durant ses 3 premiers mois (juillet 2016), contre 0,8 % seulement pour le DAX. Chez BlackRock aussi, les fonds quantitatifs n’ont pas réussi à atteindre leurs objectifs en 2016.
En dehors de ces performances contestées, les performances de l’analyse prédictive dépendent encore beaucoup de l’expertise des analystes. C’est à la fois vrai dans le choix des variables d’entrées (analyse fondamentale ou technique) mais aussi dans le traitement de ces dernières (lexiques spécifiques pour le milieu financier (Renault, 2017). Comme dans de nombreuses industries, l’analyse prédictive s’annonce plus comme une aide à la décision qu’un remplacement des acteurs.

Le machine Learning appliqué à la prévision des cours

Dans cette partie, nous étudierons l’impact des nouveaux algorithmes de Machine Learning sur la question de la prédictibilité des cours. La littérature sur ce sujet est abondante. J’ai pour ma part étudié 41 études citées dans 7 synthèses (Mclean and Pontiff (2016), Nardo, PetraccoGiudici, and Naltsidis (2016), Kearney and Liu (2014), Yoo, Kim, and Jan (2005), Baker and Wurgler (2007), Lawrence (1997), Tsai and Wang, S-P.). publiées entre 1988 et 2017 afin de mettre en avant les variables aléatoires étudiées, les sources de données, les algorithmes utilisés et les performances réalisées. C.-F. Tsai and Wang, S-P. synthétisent les résultats de 10 études ciblées sur les marchés asiatiques utilisant des algorithmes de Machine Learning.
Pour ma part, j’ai inclus certaines études aux approches «classiques » de régression multi variables afin de pouvoir comparer les résultats (liste complète en Annexe B).

Evolution des approches de trading

L’analyse fondamentale

L’analyse fondamentale considère que la valeur d’un actif est égale à l’actualisation de ses flux futurs à un taux qui dépend du risque propre à ce titre. Cette analyse repose essentiellement sur les données comptables publiées par la société, son prévisionnel pour les années à venir et sur des facteurs économiques impactant la société. Différentes méthodes permettent de réaliser ce genre d’analyse parmi lesquelles les Discounted Cash-Flows, Gordon- Shapiro, ou encore les ratios financiers. De manière plus générale, l’analyse fondamentale fait appel à la macro-économie et à la stratégie d’entreprise. Les investissements réalisés sont généralement de moyen-long terme.

L’analyse technique ou chartiste

L’analyse technique utilise comme données uniquement les cours historiques d’un titre. Cette analyse repose sur le fait que des schémas se répètent et peuvent donc anticiper les mouvements d’un titre. De nombreuses «figures » sont alors reconnaissables, et les outils tels que les moyennes mobiles ou les bougies japonaises aident à la décision.
L’effet Momentum se caractérise par une plus grande probabilité des titres ayant eu des performances positives (négatives) par le passé à avoir des performances positives (négatives) dans le futur. Les stratégies associées consistent donc à ré arbitrer régulièrement suivant les performances des derniers mois.
L’analyse technique est globalement remise en cause par les études académiques, mais suscite toujours un intérêt, en particulier chez les tradeurs novices. Certaines études semblent expliquer certains « succès » de ces stratégies par un phénomène auto-réalisateur du à un nombre important d’acteurs adoptant des stratégies similaires(Menkhoff, 1997).

Variables étudiées

Comme le montre le tableau ci-dessous, la plupart des articles étudient la prédictibilité d’indices. On retrouve en première place les indices américains (S&P500, Dow Jones, NASDAQ) mais aussi les indices asiatiques (KOSPI, Taiwan Stock Index, TOPIX) . Il s’agit donc de valeurs particulières puisqu’ils représentent un panier d’actions, mais ils ont l’avantage de jouir d’une grande liquidité ainsi que d’une représentativité globale de l’économie d’un pays (cas des études de tendance sur les sentiments). Concernant les études sur des titres individuels, les auteurs étudient en général les cours de plusieurs titres (plus d’une centaine en moyenne).On peut aussi distinguer les approches sectorielles (agriculture pour Ng and Khor (2017), industrie du ciment pour Fallahi, Shaverdi, and Bashiri (2014), électronique pour Changa and Wangb (2013), Internet pour Tumarkin and Whitelaw (2001)).
Enfin seule une étude (une des premières utilisant les réseaux de neurones) se concentre sur un seul titre (IBM, (White, 1988)).

Approches techniques

Un premier type d’étude, qui vient remettre en cause la forme faible d’efficience des marchés s’appuie sur l’étude des cours passés(en général sur les rentabilités quotidiennes, voir intraday). Ce sont souvent des données étudiées par des chercheurs issus de formations « informatiques », souhaitant se concentrer sur l’étude et la comparaison des performances des algorithmes . Les données utilisées sont les cours historiques, mais aussi des indices techniques (e.g. moyennes mobiles, Relative Strengh index, mesures des effets momentum).

Approches fondamentales

D’autres études étendent leurs données à des ratios financiers et économiques principalement issus des services d’information financière (Reuters, Bloomberg, Datastream). Parmi les ratios fréquemment utilisés on retrouve le rendement, le « Return on equity », le « Price to book ratio », le taux de marge ainsi que le ratio de liquidité. On peut citer l’approche originale de Changa and Wangb (2013) qui incluent d’une part la valorisation par le modèle d’Ohlson en variable d’entrée mais aussi des variables liées à la gouvernance (CEO shareholding ratio, composition de la direction). D’autres études intègrent aussi des variables économiques (taux d’intérêts, indices de consommation pour Chen, Leung, and Daouk (2003),prix des matières premières, taux de changes pour Enke and Thawornwong (2005)). C’est le cas de Kohara qui s’appuie à la fois sur des événements passés (extraits et traités manuellement à partir de journaux) et différents indices tels que les taux de change, les intérêts actuels, le prix du baril de pétrole ou encore le Dow-Jones pour prévoir l’évolution du TOPIX (TOkyo stock Price IndeX). Il montre que l’intégration des évènements permet d’améliorer de 40% la rentabilité d’une stratégie basée sur son algorithme.

Algorithmes utilisés

Analyser le texte

Les premières analyses de texte sur le web se sont concentrées sur le nombre d’apparition d’un mot ou de caractères clefs (en particulier le nom des symboles)(Tetlock, 2007). A ce niveau là, seule une corrélation entre le nombre d’apparition de mots clefs et le volume d’échange du titre en question est observable(Nardo et al., 2016).
On peut distinguer deux grandes méthodes pour la mesure de l’humeur issue d’un texte : l’usage d’un dictionnaire et une approche par les algorithmes de Machine Learning. Parmi les dictionnaires utilisés, on retrouve le dictionnaire Harvard IV (Tetlock, 2007), le Loughran and Macdonald (Engelberg, Reed, and Ringgenberg, 2012), plus utilisés pour l’analyse de médias classiques.
Dans son étude, T.Renault construit deux lexiques spécifiques : le premier est un lexique dont les mots sont pondérés à partir de 750 000 messages étiquetés « haussiers » ou « baissiers le deuxième est une classification manuelle sur les termes revenant plus de 75 fois dans les messages. ». Il les compare ensuite aux dictionnaires Harvard IV ainsi qu’au dictionnaire de Loughran et Macdonald. Il ressort de cette étude que seul un lexique spécifique ou un algorithme de classification (Maximum Entropy Classifier) permettent d’obtenir une estimation correcte de l’humeurdes messages. (76,36% avec un lexique spécifique, 75,16% pour un algorithme de classification contre 58,29% pour un dictionnaire Harvard IV.) Cela confirme les résultats de Loughran et McDonald qui montrent que 74% des classifications « négatives » générées par les dictionnaires Harvard ne sont pas valables dans le domaine de la finance.
(Nardo et al., 20016) listent d’autres outils de classifications utilisés pour déterminer l’humeur d’un texte, tel que «Opinion Finder », Google Profile of Mood States » , WorldTracker (qui permet d’identifier les mots les plus cherchés en rapport avec un mot clef), Senti WN (donne une mesure positive / négative) mais aussi les « boosted decision trees » ou encore les classifieurs bayésiens naifs. Schumaker and Chen développent un outil spécifique à partir d’un logiciel (Arizona Text Extractor). La manière la plus simple de représenter un article est de générer un vecteur où les mots sont indexés puis pondérés. Il y a donc une première phase de sélection des mots. Pour cela, différentes méthodes sont possibles.

Précision des prévisions et rentabilité des stratégies

Différentes mesures de performance

On peut distinguer trois grands types de mesures de performances utilisées dans ces études.
Les premières sont directement relatives aux modèles. a) Pour les régressions : p-value, t-test pour mesurer la significativité des coefficients et coefficient d’ajustement, coefficient d’ajustement ajusté, MSE pour mesurer la capacité globale de la régression. On retrouve aussi les courbes ROC et RAROC, en particulier dans les études visant à comparer différents algorithmes.
La plupart des études visent à classifier la direction des cours de manière binaire : « haussier » ou « baissier ». La mesure de performance des modèles la plus facilement interprétable est donc la précision de ces modèles. Il est impératif de dissocier la précision sur les données d’entrainement des données étudiées.
Enfin, une troisième méthode de mesure de performance consiste à définir une stratégie de trading basée sur l’algorithme, et à comparer sa rentabilité à des stratégies aléatoires ou à des stratégies « Buy & Hold ». Ces résultats facilement interprétables présentent cependant le biais de la période étudiée (pour des mesures tels que le ratio de Sharpe) ou encore des frais de transactions . Ce dernier point est d’autant plus important que les stratégies nécessitent pour la plupart des ré arbitrages quotidiens.

Stratégies fondamentales

En 1990, Kimoto et al. (1990) obtiennent une meilleure performance qu’une stratégie B&H sur un indice japonais.
Dans leur étude, Tsai et Wang trouvent jusqu’à 77,2% de prédictions correctes à l’aide d’algorithmes hybrides(DT + ANN). Ce résultat est d’autant plus important qu’ils utilisent des arbres de décisions qui leur permettent ainsi de cerner les 12 variables les plus importantes parmi les 53 initiales, et ainsi de pouvoir « expliquer » leur modèle. Toujours en utilisant des réseaux de neurones, mais sur le marché canadien cette fois-ci, Olson and Mossman (2003) obtiennent une précision de 58%.
Une approche similaire sur le marché américain permet à O’Connor and Madden (2006) d’obtenir une rentabilité annuelle de 23,5% par rapport à 13,03% pour l’indice à partir de facteurs externes (e.g. prix de matières premières, taux de changes). Les résultats sont plus contrastés pour Enke and Thawornwong (2005) sur le S&P500 qui utilisent 31 indices économiques et obtiennent une rentabilité annuelle de 22,7% contre 20,1% pour une stratégie buy & hold. Parmi les résultats particulièrement frappants, les différentes stratégies proposées par Chen, Leung, and Daouk (2003) annoncent des rentabilités de plus de 200% contre moins de 10% pour des stratégies B&H, et ce, en considérant des frais de transactions de 3%.

Limites des modèles prédictifs

Limites de certains algorithmes

Les algorithmes sont basés sur des études de corrélation, et non pas de causalité. Des algorithmes comme les réseaux de neurones présentent les limites de la boite noire. Il n’est en effet pas possible pour l’utilisateur de connaitre le poids de chaque variable ni les étapes intermédiaires de l’algorithme. De plus, ce sont des algorithmes plus sensibles à la problématique d’« Overfitting » évoqué précédemment, qui s’explique principalement par des réseaux trop profonds ou par des périodes d’entrainement trop longues. Enfin, ils perdent en performance lorsque le nombre de variables d’entrées est trop important, d’où l’importance de pratiquer des techniques de sélection et de réduction (Yoo, H. Kim, and Jan) que ce soit par des analyses en composantes principales ou par des arbres de décisions (Tsai and Wang).

Cout des stratégies

La première question qui se pose dans ces stratégies concerne les couts de transactions, souvent négligés alors que la plupart des stratégies nécessitent des ré arbitrages quotidiens. Par ailleurs, l’analyse des données représente un coût non négligeable pour les entreprises. Bien que la plupart des acteurs financiers aient accès à des sources d’informations (Bloomberg, Reuters), le coût des données est non négligeable (par exemple les solutions GNIP qui permettent aujourd’hui d’accéder à l’ensemble des tweets publiés) (Nardo e al., 2016) De plus, beaucoup de ces données doivent être contrôlées par des humains, en particulier dans les approches basées sur des dictionnaires spécifiques. Enfin, nous avons vu que l’analyse de données est aujourd’hui principalement utilisée pour des prévisions à court terme basées sur des informations récentes, parfois du jour même (Renault, 2017). Il est donc nécessaire d’acquérir une solution IT complète qui permette de gérer ces quantités importantes de données en direct (Yoo, H. Kim, and Jan.).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Remerciements
Introduction 
1 Principes et évolution du Machine Learning 
1.1 Histoire du Machine Learning
1.2 Le vocabulaire propre au Machine Learning
1.3 Processus de l’analyse de données
1.4 Principaux algorithmes utilisés
1.4.1 Les modèles supervisés
1.4.2 Modèles non supervisés
1.4.3 Fléau de la dimension et méthodes de réduction des variables
1.5 Evaluation des modèles et précision des résultats
1.5.1 Sensibilité, spécificité et valeur prédictive positive
1.5.2 Courbe ROC
1.5.3 Outils statistiques pour les régressions linéaires
2 Le Machine Learning en finance
2.1 De nouvelles sources de données
2.2 Applications en gestion de risque et assurance
2.2.1 Tarification des assurances
2.2.2 Prévision des défaillances d’entreprises
2.2.3 Evaluation du risque de crédit
2.2.4 Détection de fraudes financières
2.3 Machine Learning et gestion de portefeuille
2.3.1 Développement du trading algorithmique
2.3.2 Quel avenir pour les gestionnaires de fonds ?
3 Le machine Learning appliqué à la prévision des cours 
3.1 Hypothèse d’Efficience des Marchés et stratégies
3.1.1 Une remise en cause de l’HEM
3.1.2 Evolution des approches de trading
3.2 Variables étudiées
3.3 Stratégies et sources de données
3.3.1 Approches techniques
3.3.2 Approches fondamentales
3.3.3 Approches comportementales
3.4 Algorithmes utilisés
3.4.1 Analyser le texte
3.4.2 Choix des algorithmes
3.5 Précision des prévisions et rentabilité des stratégies
3.5.1 Différentes mesures de performance
3.5.2 Des résultats contrastés
3.6 Limites des modèles prédictifs
3.6.1 Limites de certains algorithmes
3.6.2 Cout des stratégies
3.6.3 Des anomalies durables ?
3.7 Pricing des produits dérivés
Conclusion 
Bibliographie 
Annexe A
Annexe B : Etudes sur la prédictibilité des cours

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *