Principes de la programmation par contraintes (PPC)
Organisation du mรฉmoire
Ce manuscrit est organisรฉ de la faรงon suivante. La premiรจre partie est consacrรฉ ร un รฉtat de lโart sur les problรฉmatiques traitรฉes dans cette thรจse ainsi que les diffรฉrents outils exploitรฉs pour la rรฉsolution. Le chapitre 1 introduit dโabord le problรจme de lโextraction de motifs frรฉquents ร partir dโune base de transactions dโune faรงon gรฉnรฉrale. Il dรฉcrit les notions et la terminologie liรฉes ร ce problรจme ainsi que certaines techniques de rรฉsolution. Ensuite, il aborde deux instances de ce problรจme lorsque la base transactionnelle contient des sรฉquences ou des graphes. Pour chaque problรฉmatique, il prรฉsente les dรฉfinitions nรฉcessaires ร la comprรฉhension du problรจme, puis il dรฉtaille les principales approches proposรฉes pour la rรฉsolution. Enfin, il discute les points forts et les points faibles de chacune dโelles. Le chapitre 2 sโintรฉresse ร la fouille dรฉclarative avec la programmation par contraintes. Tout dโabord, il prรฉsente les principes de base de la PPC qui englobent le problรจme de satisfaction de contraintes, les contraintes globales et les contraintes rรฉifiรฉes. Ensuite, il attaque les diffรฉrentes mรฉthodes qui ont exploitรฉ la PPC pour rรฉsoudre le problรจme de lโextraction de motifs sรฉquentiels sous contraintes. Enfin, il discute, le modรจle PPC proposรฉ et les obstacles rencontrรฉs afin dโassurer le passage ร lโรฉchelle. La seconde partie dรฉcrit nos diffรฉrentes contributions qui ont apprรฉhendรฉ globalement lโextraction de motifs frรฉquents ร partir dโune base transactionnelle, et particuliรจrement sur les deux problรจmes suivants : 1. Extraction de motifs sรฉquentiels ร partir dโune base de sรฉquences, 2. Extraction de sous-graphes frรฉquents ร partir dโune base de graphes. Le chapitre 3 prรฉsente les dรฉfinitions nรฉcessaires pour la fouille de sรฉquences avec wildcards. Un wildcard est un symbole qui apparaรฎt dans le motif et peut remplacer nโimporte quel item dans la sรฉquence. Ce chapitre prรฉsente ensuite, le modรจle PPC adoptรฉ pour lโextraction de motifs sรฉquentiels avec wildcards. Puis, il montre comment modรฉliser deux types de contraintes sur les motifs : (1) contraintes locales telles que la contrainte de longueur, appartenance dโitem, gap et expression rรฉguliรจre, et (2) contraintes globales qui portent sur un ensemble de motifs tels que les top-k motifs et les sous-groupes pertinents. Enfin, le modรจle proposรฉ est validรฉ expรฉrimentalement sur deux types de jeux de donnรฉes : texte mรฉdical extrait ร partir de la base Pubmed et un ensemble de romans. Le chapitre 4 dรฉcrit lโencodage des motifs sans wildcards. Ensuite, il introduit notre contrainte globale Prefix-Projection en expliquant son algorithme de filtrage. Cette contrainte qui permet dโencoder ร la fois la relation de sous-sรฉquence et la contrainte de frรฉquence, permet aussi dโexprimer dโune faรงon trรจs simple dโautres contraintes sur les motifs. Cette contrainte a รฉtรฉ exploitรฉe avec une nouvelle stratรฉgie dโinitialisation afin dโextraire les top-k motifs. Ces deux approches ont รฉtรฉ comparรฉes avec des mรฉthodes spรฉcialisรฉes sur une sรฉrie de bases de sรฉquences rรฉelles. Le chapitre 5 redรฉfinit quelques notions liรฉes ร lโextraction de motifs sรฉquentiels sous contrainte de gap. Ensuite, il dรฉtaille notre deuxiรจme contrainte globale GAP-SEQ qui permet de faire lโextraction des motifs sรฉquentiels sans et avec cette contrainte. Enfin, il valide expรฉrimentalement notre approche, et montre quโelle est nettement meilleure que les approches dรฉclaratives, et concurrence les approches spรฉcialisรฉes et que dans un nombre de cas notre approche est meilleure. Le chapitre 6 porte sur le deuxiรจme problรจme, ร savoir la dรฉcouverte de sous-graphes frรฉquents dans une base de graphes. Il dรฉtaille notre approche par intervalle qui se base sur deux encodages non canoniques : un encodage infรฉrieur et un encodage supรฉrieur. Il introduit deux instances de ces deux encodages, et montre que ces derniers permettent respectivement de gรฉnรฉrer un sous-ensemble et un sur-ensemble de lโensemble exact des sous-graphes frรฉquents. Les expรฉrimentations menรฉes sur des jeux de donnรฉes synthรฉtiques et rรฉelles montrent que notre approche est efficace dans le cas des bases de graphes denses lorsque le nombre de sous-graphes cycliques frรฉquents est รฉnorme
Objectifs et motivations
Lโutilisation de la PPC pour exprimer des problรจmes de fouille de donnรฉes offre un cadre dรฉclaratif et gรฉnรฉrique de rรฉsolution. Toutefois, la contrepartie ร cette grande gรฉnรฉricitรฉ est la relative faiblesse des approches dรฉclaratives existantes pour la fouille de motifs sรฉquentiels qui ne passent pas ร lโรฉchelle comparรฉes aux mรฉthodes spรฉcialisรฉes. En effet, lโencodage PPC utilisรฉ constitue une limitation forte sur la taille des bases qui peuvent รชtre traitรฉes. Les observations ci-dessous expliquent plus en dรฉtail les raisons de cette limitation : โ Les approches courantes encodent le problรจme EMS ร lโaide des contraintes rรฉifiรฉes. Pour cela, pour chaque sรฉquence de la base, une contrainte rรฉifiรฉe est dรฉfinie indiquant si le motif ร extraire est une sous-sรฉquence (ou non) de cette sรฉquence. Mais, un tel encodage prรฉsente un inconvรฉnient majeur car si la base contient m sรฉquences, on aura besoin de m contraintes rรฉifiรฉes pour encoder toute la base de sรฉquences. โ Lโencodage de la relation de sous-sรฉquence utilise un ensemble de variables additionnelles pour dรฉterminer les positions oรน le motif apparaรฎt dans chaque sรฉquence de la base. Un tel encodage nรฉcessite un grand nombre de variables intermรฉdiaires (m ร l), sachant que m est la taille de la base et โ est la longueur maximale des motifs. Par ailleurs, et comme nous lโavons indiquรฉ prรฉcรฉdemment, cette problรฉmatique de passage ร lโรฉchelle se pose รฉgalement de maniรจre accrue pour les algorithmes spรฉcialisรฉs dรฉdiรฉs ร la fouille de sous-graphes frรฉquents dans de grandes bases de graphes denses. Lโobjectif de cette thรจse est dโune part, de rรฉpondre au verrou du passage ร lโรฉchelle des approches dรฉclaratives existantes pour lโextraction de motifs sรฉquentiels qui reposent sur un encodage boolรฉen, et dโautres part de proposer dโautres dรฉmarches afin de traiter efficacement lโextraction de sous-graphes frรฉquents dans de grandes bases de graphes denses. Lโoriginalitรฉ de nos travaux consiste ร introduire des techniques utilisรฉes en fouille de donnรฉes pour amรฉliorer les encodages PPC pour la fouille de sรฉquences. Malgrรฉ les multiples dรฉfis algorithmiques posรฉs par la fouille de sรฉquences, ce travail fondateur a contribuรฉ ร repenser la maniรจre dont les approches PPC pouvaient tirer bรฉnรฉfice de mรฉthodes de fouille. Il a permis de montrer, pour la premiรจre fois, quโune approche PPC pouvait concurrencer (et mรชme surpasser) les algorithmes spรฉcialisรฉs de lโรฉtat de lโart.
|
Table des matiรจres
Introduction
1 Contexte
2 Objectifs et motivations
3 Contributions
4 Organisation du mรฉmoire
1 Extraction de motifs frรฉquents
1.1 Problรจme dโextraction de motifs frรฉquents
1.1.1 Description du problรจme
1.1.2 Techniques de rรฉsolution .
1.2 Extraction de motifs sรฉquentiels
1.2.1 Notations et dรฉfinitions
1.2.2 Extraction de motifs sous contraintes
1.2.3 Approches de rรฉsolution
1.2.4 Discussion
1.3 Extraction de sous-graphes frรฉquents
1.3.1 Terminologie liรฉe aux graphes
1.3.2 Appariement de graphes
1.3.3 Problรจme de dรฉcouverte de sous-graphes frรฉquents
1.4 Conclusion
2 Fouille dรฉclarative par programmation par contraintes
2.1 Principes de la programmation par contraintes (PPC)
2.1.1 Problรจme de satisfaction de contraintes
2.1.2 Contraintes globales
2.1.3 Contraintes rรฉifiรฉes
2.1.4 CSP dynamiques
2.1.5 Discussion
2.2 Approches PPC pour lโextraction de motifs sรฉquentiels sous contraintes
2.2.1 Premiรจre approche basรฉe sur la contrainte regular
2.2.2 Un modรจle basรฉ sur une nouvelle contrainte globale
2.2.3 Discussion
2.3 Conclusion : vers une nouvelle approche PPC plus performante
5 Extraction de motifs sรฉquentiels sous contrainte de GAP
5.1 Dรฉfinitions
5.2 La propriรฉtรฉ de prรฉfixe anti-monotonie de gap[M, N]
5.3 Extensions droites dโun motif
5.4 Contrainte globale GAP-SEQ
5.4.1 Modรฉlisation de EMSG
5.4.2 Principes du filtrage .
5.4.3 Algorithme de filtrage .
5.4.4 Complexitรฉs temporelle et spatiale de lโalgorithme de filtrage
5.5 Expรฉrimentations
5.5.1 Protocole expรฉrimental
5.5.2 GAP-SEQ vs. mรฉthodes PPC .
5.5.3 GAP-SEQ vs. mรฉthodes spรฉcialisรฉes
5.5.4 รvaluation du passage ร lโรฉchelle de GAP-SEQ
5.5.5 Traitement de contraintes additionnelles
5.5.6 Rรฉsolution du problรจme EMS avec GAP-SEQ
5.6 Conclusion
6 Une approche par intervalle pour lโextraction des sous-graphes frรฉquents
6.1 Exemple illustratif
6.2 Encodage par intervalle
6.2.1 Dรฉfinitions
6.2.2 Une instance dโencodage infรฉrieur
6.2.3 Une instance dโencodage supรฉrieur
6.3 Expรฉrimentations
6.3.1 Protocole Expรฉrimental
6.3.2 รvaluation sur des bases de graphes synthรฉtiques
6.3.3 รvaluation sur des bases rรฉelles de graphes .
6.3.4 Synthรจse
6.4 Conclusion
III Conclusion et perspectives
7 Conclusion
8 Perspectives
Bibliographie
Tรฉlรฉcharger le rapport complet