L’heuristique des pentes
L’approche bayรฉsienne
L’approche bayรฉsienne fournit un cadre naturel pour rรฉsoudre des problรจmes d’infรฉrence statistique. Elle se distingue de la statistique classique parce qu’elle considรจre le(s) paramรจtre(s) du modรจle comme des variables alรฉatoires. Soit ฮ l’espace des paramรจtres et X l’espace des observations.
On considรจre un modรจle statistique de loi de probabilitรฉ Pฮธ de densitรฉ p(x|ฮธ) dรฉpendant d’un paramรจtre inconnu de dimension k : ฮธ โ R k . On dispose d’un รฉchantillon alรฉatoire de n observations x = (x1, . . . , xn) issues de cette distribution. La fonction de vraisemblance associรฉe est donnรฉe par : l(ฮธ, x) = p(x|ฮธ).
La connaissance a priori sur le paramรจtre ฮธ s’exprime, ร travers une loi de probabilitรฉ nommรฉe loi a priori notรฉe ฯ de densitรฉ p(ฮธ). Cette loi peut permettre de traduire les connaissances que l’on a avant l’expรฉrience, avant d’avoir des informations sur les valeurs des observations. On l’interprรจte comme la reprรฉsentation formelle sous forme probabiliste de la connaissance sur les paramรจtres.
On distingue deux types de lois a priori : les lois informatives et les lois non informatives. Nous analyserons ces diffรฉrentes notions dans le paragraphe suivant. L’information sur ฮธ est mise ร jour grรขce au thรฉorรจme de Bayes qui permet de prendre en compte l’information apportรฉe par les observations. Ainsi, on obtient la loi de ฮธ conditionnellement aux observations, appelรฉe loi a posteriori de ฮธ, notรฉe ฯx de densitรฉ p(ฮธ|x). La densitรฉ jointe de x et ฮธ s’รฉcrit : p(x, ฮธ) = p(x|ฮธ) p(ฮธ).
Le filtrage particulaire
L’utilisation des mรฉthodes MCMC nรฉcessite une attention particuliรจre sur deux points : le diagnostic de convergence et l’accรฉlรฉration de la convergence. Ces deux aspects causent une certaine incertitude sur les rรฉsultats obtenus. Aussi les utilisateurs des mรฉthodes MCMC, en particulier dans l’environnement, sont intรฉressรฉs par d’autres techniques qui permettraient une validation de leurs rรฉsultats. Les techniques de filtrage particulaire, dรฉveloppรฉes dans le milieu des annรฉes 1990, en font partie. Ces mรฉthodes ont รฉtรฉ, ร l’origine, dรฉveloppรฉes lorsque de nombreuses observations sont ร traiter en temps rรฉel, comme dans le domaine de la robotique ou bien encore de la poursuite de cible.
Les techniques particulaires ont le mรชme objectif que les MCMC, ร savoir l’approximation de la loi a posteriori et sont basรฉes sur le mรชme principe de simulation de Monte Carlo. Cependant, elles sont sรฉquentielles, i.e. elles traitent les donnรฉes en ligne et sont ainsi plus rapides.
RJMCMC et fonctions splines pour des donnรฉes cliniques
En recherche clinique nous sommes amenรฉs ร dรฉfinir la relation entre une maladie et des facteurs prรฉdictifs. Les principaux modรจles utilisรฉs sont la rรฉgression linรฉaire multiple, le modรจle de Cox et la rรฉgression logistique. Le choix du modรจle se fait en fonction de la nature des variables modรฉlisรฉes.
Ainsi le modรจle de Cox sera privilรฉgiรฉ dans le cas oรน la variable ร expliquer est dichotomique et que l’on cherche ร exprimer le risque instantanรฉ de survenue d’un รฉvรจnement en fonction des facteurs explicatifs.
La rรฉgression logistique pourra รชtre utilisรฉe lorsque l’on cherche ร dรฉterminer la probabilitรฉ de survenue d’un รฉvรจnement en fonction des variables explicatives (qualitatives ou quantitatives). Diffรฉrents รฉvรจnements peuvent รชtre considรฉrรฉs :
la rรฉcidive d’une maladie, le dรฉcรจs, la rรฉponse ร un traitement, Les deux sous-sections suivantes explicitent plus en dรฉtail ces deux modรจles.
L’heuristique des pentes pour la rรฉgression spline
Comme expliquรฉ dans l’article suivant le problรจme du choix du nombre de nรทuds dans la rรฉgression spline est รฉquivalent ร un problรจme de sรฉlection de modรจles. En ce qui concerne la position des nรทuds, notre approche considรจre un ensemble de taille N de nรทuds initial {m1, . . . , mN } placรฉs aux N-quantiles sur l’ensemble des donnรฉes {x1, . . . , xn}. L’ensemble de toutes les combinaisons possibles est testรฉ pour chaque dimension.
Cet article se dรฉcompose de la faรงon suivante : dans un premier temps, un rappel sur la reprรฉsentation B-spline et les mรฉthodes de sรฉlection de modรจles via une procรฉdure de pรฉnalisation est effectuรฉ.
Puis, une seconde partie est dรฉdiรฉe ร la mรฉthode de l’heuristique des pentes dans le cadre de la rรฉgression spline. L’application des rรฉsultats de Birgรฉ et Massart permet d’obtenir une fonction de pรฉnalitรฉ dans le cadre de la rรฉgression spline et une borne supรฉrieure pour le risque quadratique de l’estimateur correspondant. La fonction de pรฉnalitรฉ dรฉpend de deux constantes inaccessibles thรฉoriquement et dรฉpendant de la variance ฯ qui est inconnue en pratique.
Ainsi, plusieurs simulations sont effectuรฉes afin d’estimer ces deux constantes en supposant ฯ connue.
Puis, dans le cas gรฉnรฉral oรน ฯ est inconnue, nous appliquons deux approches dรฉveloppรฉes par Birgรฉ et Massart [9], Arlot et Massart [4]. Ces deux mรฉthodes reposent sur l’heuristique des pentes, elles sont expliquรฉes et utilisรฉes afin d’estimer la fonction de pรฉnalitรฉ ร partir des donnรฉes.
Dans une derniรจre partie, plusieurs situations sont simulรฉes afinn d’accรฉder ร la performance de ces deux mรฉthodes en les comparant aux critรจres classiques : le BIC et le Cp de Mallows.
Les modรจles de mรฉlange de processus de Dirichlet
Les modรจles de mรฉlange de processus de Dirichlet ont รฉtรฉ introduits par Lo, ils exploitent le processus de Dirchlet comme une mesure mรฉlangeante. Ils ont รฉtรฉ considรฉrablement dรฉveloppรฉs d’un point de vue pratique par Escobar et West [26], MacEachern et Mรผller [46]. Comme mentionnรฉ dans l’introduction ces modรจles forment une classe trรจs importante de modรจles bayรฉsiens non paramรฉtriques. Cette section va permettre d’expliquer en dรฉtails ces modรจles et les algorithmes qui permettent de les estimer. Une application en oncologie rรฉalisรฉe dans le cadre d’une collaboration avec des biologistes sera donnรฉe.
On considรฉre un processus de Dirichlet DP(ฮฑ0 G0) comme distribution a priori pour G dans le modรจle (4.3). On obtient un modรจle de mรฉlange de processus de Dirichlet (en anglais Dirichlet process mixture model) notรฉ DPM.
Mรฉthodes d’approximation de la distribution a posteriori
L’objectif est d’estimer la densitรฉ a posteriori complรจte p(G, ฮธ|x), pour se faire deux grandes approches basรฉes sur l’รฉchantillonnage de Gibbs existent :
l’approche marginale,
l’approche conditionnelle.
L’approche marginale consiste ร intรฉgrer analytiquement suivant la mesure de probabilitรฉ alรฉatoire G et ร estimer la densitรฉ a posteriori marginale p(ฮธ|x) en utilisant la reprรฉsentation en urne de Pรณlya (c.f. (4.7) et le processus du restaurant chinois). Diffรฉrents algorithmes ont รฉtรฉ dรฉveloppรฉs notamment par Escobar et al., [25], [26] et Neal [53]. Il s’agit des mรฉthodes MCMC par รฉchantillonnage de Gibbs qui utilisent la reprรฉsentation en urne de Pรณlya du processus de Dirichlet.
D’autres auteurs se sont รฉgalement penchรฉs sur ce type d’approche [46].
L’approche conditionnelle utilise soit l’รฉchantillonnage rรฉtrospectif, ce qui est effectuรฉ par Papaspiliopoulos et Roberts [54] avec l’algorithme du retrospective sampling, soit la modรฉlisation sous la forme stick-breaking afin d’estimer la densitรฉ a posteriori complรจte. Ce sont รฉgalement des mรฉthodes MCMC qui utilisent l’รฉchantillonneur de Gibbs.
Dans ces diffรฉrentes approches les hyperparamรจtres peuvent รชtre considรฉrรฉs comme inconnus, ce qui ajoute un degrรฉ de fexibilitรฉ ร l’algorithme.
Nous arborderons dans cette thรจse les mรฉthodes conditionnelles. En effet, bien que les mรฉthodes marginales fournissent de bons rรฉsultats, elles prรฉsentent de nombreuses limites. Tout d’abord, la mise ร jour des paramรจtres se fait pas ร pas conduisant ร une convergence lente de l’algorithme.
De plus la marginalisation sur G induit des effets indรฉsirables, en effet l’infรฉrence sur la distribution a posteriori de G est seulement basรฉe sur les valeurs a posteriori de ฮธi. Enfin, bien que diffรฉrentes amรฉliorations aient รฉtรฉ proposรฉes, le cas non conjuguรฉ prรฉsente toujours quelques dificultรฉs. On pourra se reporter ร diffรฉrents articles ([25], [26], [46], [53]) pour un exposรฉ complet de l’รฉchantillonnage marginal pour les DPMs.
Les processus de Dirichlet hiรฉrarchiques
Dans un cadre gรฉnรฉral, les processus de Dirichlet hiรฉrarchiques ont รฉtรฉ proposรฉs dans le cas oรน l’on a plusieurs groupes de donnรฉes. Le modรจle pour chaque groupe intรจgre une variable discrรจte de cardinal inconnu, le but est de lier ces variables ร travers les groupes. Supposons par exemple que l’on ait J groupes de donnรฉes, chaque groupe est associรฉ ร un modรจle de mรฉlange. Le but est (i) de dรฉterminer pour chaque groupe le nombre de composantes et les paramรจtres associรฉs,
(ii) de filier ces diffรฉrents groupes.
Une premiรจre idรฉe serait d’affecter ร chaque groupe de donnรฉes un processus de Dirichlet de paramรจtres ฮฑ0, G0, ces groupes รฉtant liรฉs par la mesure de base G0.
Les atomes gรฉnรฉrรฉs par les mesures de probabilitรฉ alรฉatoires Gj seront distincts. Il n’y aura pas de partage d’atomes entre les diffรฉrents groupes, pas de partage de classes et donc pas d’effets de classification.
|
Table des matiรจres
Introduction
1 L’analyse bayรฉsienneย
1.1 L’approche bayรฉsienneย
1.1.1 Les distributions a priori
1.1.2 La thรฉorie de la dรฉcision en analyse bayรฉsienne
1.1.3 Estimation bayรฉsienne par intervalle sur un espace paramรฉtrique restreint
1.2 Les mรฉthodes d’approximationย
1.2.1 รtat de l’art des mรฉthodes de Monte Carlo par Chaรฎnes de Markov
1.2.2 Le filtrage particulaire
1.3 Conclusion
2 RJMCMC et fonctions splines pour des donnรฉes cliniques
2.1 Introductionย
2.1.1 Le modรจle de Cox
2.1.2 La rรฉgression logistique
2.1.3 Les fonctions splines
2.2 Article : Free knot splines with RJMCMC in survival data analysis
2.3 Article : Free knot splines with RJMCMC for logistic models and threshold selection
2.4 Conclusionย
3 L’heuristique des pentes
3.1 La sรฉlection de modรจles via une procรฉdure de pรฉnalisationย
3.2 L’heuristique des pentes pour la rรฉgression spline
3.3 Conclusion
4 La modรฉlisation bayรฉsienne non paramรฉtriqueย
4.1 Introductionย
4.1.1 La distribution de Dirichlet
4.1.2 Le processus de Dirichlet
4.2 Les modรจles de mรฉlange de processus de Dirichlet
4.2.1 Mรฉthodes d’approximation de la distribution a posteriori
4.2.2 Le Blocked Gibbs Sampler (BGS)
4.2.3 Application
4.3 Les processus de Dirichlet hiรฉrarchiques
4.3.1 Dรฉfinition du modรจle
4.3.2 L’infรฉrence
4.3.3 Application
4.4 Conclusion
Conclusion
Bibliographie
Tรฉlรฉcharger le rapport complet