L'heuristique des pentes

L’heuristique des pentes

L’approche bayésienne

L’approche bayésienne fournit un cadre naturel pour résoudre des problèmes d’inférence statistique. Elle se distingue de la statistique classique parce qu’elle considère le(s) paramètre(s) du modèle comme des variables aléatoires. Soit Θ l’espace des paramètres et X l’espace des observations.
On considère un modèle statistique de loi de probabilité Pθ de densité p(x|θ) dépendant d’un paramètre inconnu de dimension k : θ ∈ R k . On dispose d’un échantillon aléatoire de n observations x = (x1, . . . , xn) issues de cette distribution. La fonction de vraisemblance associée est donnée par : l(θ, x) = p(x|θ).
La connaissance a priori sur le paramètre θ s’exprime, à travers une loi de probabilité nommée loi a priori notée π de densité p(θ). Cette loi peut permettre de traduire les connaissances que l’on a avant l’expérience, avant d’avoir des informations sur les valeurs des observations. On l’interprète comme la représentation formelle sous forme probabiliste de la connaissance sur les paramètres.
On distingue deux types de lois a priori : les lois informatives et les lois non informatives. Nous analyserons ces différentes notions dans le paragraphe suivant. L’information sur θ est mise à jour grâce au théorème de Bayes qui permet de prendre en compte l’information apportée par les observations. Ainsi, on obtient la loi de θ conditionnellement aux observations, appelée loi a posteriori de θ, notée πx de densité p(θ|x). La densité jointe de x et θ s’écrit : p(x, θ) = p(x|θ) p(θ).

Le filtrage particulaire

L’utilisation des méthodes MCMC nécessite une attention particulière sur deux points : le diagnostic de convergence et l’accélération de la convergence. Ces deux aspects causent une certaine incertitude sur les résultats obtenus. Aussi les utilisateurs des méthodes MCMC, en particulier dans l’environnement, sont intéressés par d’autres techniques qui permettraient une validation de leurs résultats. Les techniques de filtrage particulaire, développées dans le milieu des années 1990, en font partie. Ces méthodes ont été, à l’origine, développées lorsque de nombreuses observations sont à traiter en temps réel, comme dans le domaine de la robotique ou bien encore de la poursuite de cible.
Les techniques particulaires ont le même objectif que les MCMC, à savoir l’approximation de la loi a posteriori et sont basées sur le même principe de simulation de Monte Carlo. Cependant, elles sont séquentielles, i.e. elles traitent les données en ligne et sont ainsi plus rapides.

RJMCMC et fonctions splines pour des données cliniques

En recherche clinique nous sommes amenés à définir la relation entre une maladie et des facteurs prédictifs. Les principaux modèles utilisés sont la régression linéaire multiple, le modèle de Cox et la régression logistique. Le choix du modèle se fait en fonction de la nature des variables modélisées.
Ainsi le modèle de Cox sera privilégié dans le cas où la variable à expliquer est dichotomique et que l’on cherche à exprimer le risque instantané de survenue d’un évènement en fonction des facteurs explicatifs.
La régression logistique pourra être utilisée lorsque l’on cherche à déterminer la probabilité de survenue d’un évènement en fonction des variables explicatives (qualitatives ou quantitatives). Différents évènements peuvent être considérés :
la récidive d’une maladie, le décès, la réponse à un traitement, Les deux sous-sections suivantes explicitent plus en détail ces deux modèles.

L’heuristique des pentes pour la régression spline

Comme expliqué dans l’article suivant le problème du choix du nombre de n÷uds dans la régression spline est équivalent à un problème de sélection de modèles. En ce qui concerne la position des n÷uds, notre approche considère un ensemble de taille N de n÷uds initial {m1, . . . , mN } placés aux N-quantiles sur l’ensemble des données {x1, . . . , xn}. L’ensemble de toutes les combinaisons possibles est testé pour chaque dimension.
Cet article se décompose de la façon suivante : dans un premier temps, un rappel sur la représentation B-spline et les méthodes de sélection de modèles via une procédure de pénalisation est effectué.
Puis, une seconde partie est dédiée à la méthode de l’heuristique des pentes dans le cadre de la régression spline. L’application des résultats de Birgé et Massart permet d’obtenir une fonction de pénalité dans le cadre de la régression spline et une borne supérieure pour le risque quadratique de l’estimateur correspondant. La fonction de pénalité dépend de deux constantes inaccessibles théoriquement et dépendant de la variance σ qui est inconnue en pratique.
Ainsi, plusieurs simulations sont effectuées afin d’estimer ces deux constantes en supposant σ connue.
Puis, dans le cas général où σ est inconnue, nous appliquons deux approches développées par Birgé et Massart [9], Arlot et Massart [4]. Ces deux méthodes reposent sur l’heuristique des pentes, elles sont expliquées et utilisées afin d’estimer la fonction de pénalité à partir des données.
Dans une dernière partie, plusieurs situations sont simulées afinn d’accéder à la performance de ces deux méthodes en les comparant aux critères classiques : le BIC et le Cp de Mallows.

Les modèles de mélange de processus de Dirichlet

Les modèles de mélange de processus de Dirichlet ont été introduits par Lo, ils exploitent le processus de Dirchlet comme une mesure mélangeante. Ils ont été considérablement développés d’un point de vue pratique par Escobar et West [26], MacEachern et Müller [46]. Comme mentionné dans l’introduction ces modèles forment une classe très importante de modèles bayésiens non paramétriques. Cette section va permettre d’expliquer en détails ces modèles et les algorithmes qui permettent de les estimer. Une application en oncologie réalisée dans le cadre d’une collaboration avec des biologistes sera donnée.
On considére un processus de Dirichlet DP(α0 G0) comme distribution a priori pour G dans le modèle (4.3). On obtient un modèle de mélange de processus de Dirichlet (en anglais Dirichlet process mixture model) noté DPM.

Méthodes d’approximation de la distribution a posteriori

L’objectif est d’estimer la densité a posteriori complète p(G, θ|x), pour se faire deux grandes approches basées sur l’échantillonnage de Gibbs existent :
l’approche marginale,
l’approche conditionnelle.
L’approche marginale consiste à intégrer analytiquement suivant la mesure de probabilité aléatoire G et à estimer la densité a posteriori marginale p(θ|x) en utilisant la représentation en urne de Pólya (c.f. (4.7) et le processus du restaurant chinois). Différents algorithmes ont été développés notamment par Escobar et al., [25], [26] et Neal [53]. Il s’agit des méthodes MCMC par échantillonnage de Gibbs qui utilisent la représentation en urne de Pólya du processus de Dirichlet.
D’autres auteurs se sont également penchés sur ce type d’approche [46].
L’approche conditionnelle utilise soit l’échantillonnage rétrospectif, ce qui est effectué par Papaspiliopoulos et Roberts [54] avec l’algorithme du retrospective sampling, soit la modélisation sous la forme stick-breaking afin d’estimer la densité a posteriori complète. Ce sont également des méthodes MCMC qui utilisent l’échantillonneur de Gibbs.
Dans ces différentes approches les hyperparamètres peuvent être considérés comme inconnus, ce qui ajoute un degré de fexibilité à l’algorithme.
Nous arborderons dans cette thèse les méthodes conditionnelles. En effet, bien que les méthodes marginales fournissent de bons résultats, elles présentent de nombreuses limites. Tout d’abord, la mise à jour des paramètres se fait pas à pas conduisant à une convergence lente de l’algorithme.
De plus la marginalisation sur G induit des effets indésirables, en effet l’inférence sur la distribution a posteriori de G est seulement basée sur les valeurs a posteriori de θi. Enfin, bien que différentes améliorations aient été proposées, le cas non conjugué présente toujours quelques dificultés. On pourra se reporter à différents articles ([25], [26], [46], [53]) pour un exposé complet de l’échantillonnage marginal pour les DPMs.

Les processus de Dirichlet hiérarchiques

Dans un cadre général, les processus de Dirichlet hiérarchiques ont été proposés dans le cas où l’on a plusieurs groupes de données. Le modèle pour chaque groupe intègre une variable discrète de cardinal inconnu, le but est de lier ces variables à travers les groupes. Supposons par exemple que l’on ait J groupes de données, chaque groupe est associé à un modèle de mélange. Le but est (i) de déterminer pour chaque groupe le nombre de composantes et les paramètres associés,
(ii) de filier ces différents groupes.
Une première idée serait d’affecter à chaque groupe de données un processus de Dirichlet de paramètres α0, G0, ces groupes étant liés par la mesure de base G0.
Les atomes générés par les mesures de probabilité aléatoires Gj seront distincts. Il n’y aura pas de partage d’atomes entre les différents groupes, pas de partage de classes et donc pas d’effets de classification.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 L’analyse bayésienne
1.1 L’approche bayésienne
1.1.1 Les distributions a priori
1.1.2 La théorie de la décision en analyse bayésienne
1.1.3 Estimation bayésienne par intervalle sur un espace paramétrique restreint
1.2 Les méthodes d’approximation
1.2.1 État de l’art des méthodes de Monte Carlo par Chaînes de Markov
1.2.2 Le filtrage particulaire
1.3 Conclusion
2 RJMCMC et fonctions splines pour des données cliniques
2.1 Introduction
2.1.1 Le modèle de Cox
2.1.2 La régression logistique
2.1.3 Les fonctions splines
2.2 Article : Free knot splines with RJMCMC in survival data analysis
2.3 Article : Free knot splines with RJMCMC for logistic models and threshold selection
2.4 Conclusion
3 L’heuristique des pentes
3.1 La sélection de modèles via une procédure de pénalisation
3.2 L’heuristique des pentes pour la régression spline
3.3 Conclusion
4 La modélisation bayésienne non paramétrique
4.1 Introduction
4.1.1 La distribution de Dirichlet
4.1.2 Le processus de Dirichlet
4.2 Les modèles de mélange de processus de Dirichlet
4.2.1 Méthodes d’approximation de la distribution a posteriori
4.2.2 Le Blocked Gibbs Sampler (BGS)
4.2.3 Application
4.3 Les processus de Dirichlet hiérarchiques
4.3.1 Définition du modèle
4.3.2 L’inférence
4.3.3 Application
4.4 Conclusion
Conclusion
Bibliographie