Extraction d'associations lexicales fortes dans les commentaires

La recherche d’ information suscite de plus en plus l’ intérêt des chercheurs dans le monde de la fouille de données. Un intérêt croissant et inévitable des chercheurs se porte sur cette thématique. Il est question de retrouver de l’ information pertinente à partir de données fortement ambiguës et de sources non homogènes. Là où les algorithmes de recherche classiques ont échoué, les techniques d’intelligence artificielle offrent une meilleure réponse. En l’occurrence, adopter les méthodes de data Mining, plus précisément les règles d’association, pour extraire de l’ information et des connaissances cachées souvent très pertinentes à partir d’un grand volume de données.

Effectivement, il existe plusieurs travaux de recherche qui se sont penchés sur l’application des règles d’association pour l’ extraction d’ information, comme l’équipe de recherche du professeur Ismail Biskri à l’ Université du Québec à Trois-Rivières qui travaille sur ce concept depuis plusieurs années. Leurs travaux principaux se sont portés sur l’ application de la classification textuelle pour l’analyse et le traitement d’ information tel que la plateforme SATIM [1].

Les données de recherche sont représentées dans des matrices. Une matrice représente les occurrences et absences d’une information donnée dans un document donné. Cette matrice est souvent volumineuse, il est alors essentiel de doter notre système d’ algorithmes d’optimisation. Ces algorithmes engendreront un moindre coût computationnel.

Évolution du Web

Le Web représente une application d’ internet qui permet d’ accéder à des pages de sites éparpillées un peu partout dans le monde, grâce à un navigateur qui interprète ces données échangées en s’ appuyant sur un protocole de donnés.

L’expansion du Web ne cesse d’accroître et est toujours en perpétuelle évolution, Le Web ou communément appelé la toile est construit de pages et d’ applications qui contiennent en abondance des photos, des vidéos et du contenu interactif, par le biais de l’ interaction entre les technologies Web et les navigateurs.

Les technologies Web ont permis aux développeurs de rendre le Web plus performant, utile et plus attrayant. La communauté Open Web ne ménage pas ses efforts nombreux dans la définition des technologies Web, telles que HTML5, CSS3, et font en sorte qu’elles soient prises en charge par tous les navigateurs.

Les interactions entre les technologies Web et les navigateurs sont à l’origine des puissantes applications Web d’ usage actuel [1].

Le Web Passif

Le Web passif, appelé souvent Web statique ou Web 1.0 est axé sur la distribution d’informations. Aussi, les sites sont plus orientés produits. Ils présentent donc une interaction moindre avec l’ utilisateur du Web, qui limite l’ intervention des utilisateurs. Il se caractérise par le coût exorbitant et énorme des programmes et logiciels.

Le Web classique utilise la technologie hypertexte HTML, qui est un langage de structuration et de balisage spécifiant le contenu d’ un document, sans spécifier le document original. Ce choix a été fait pour favoriser l’ interportabilité. Un même document HTML peut être interprété par différents navigateurs. Ainsi, l’ interprétation dépend du navigateur qui donne une transcription dépendamment du navigateur utilisé [2] .

Le Web social

Avec l’ arrivée du Web social, le web devient beaucoup plus axé sur le partage et l’échange d’ informations. On retrouve du contenu divers tel que les images, textes, vidéos et encore plus. Le réseau internet est régi par le flux d’ utilisation des nouvelles technologies mobiles des réseaux sociaux et des blogues. Il existe une relation intrinsèque entre l’ avis de l’ utilisateur et ses préférences, on parlera de socialisation virtuelle et de révolution technicocommerciale [3].

Web2.0 ou Web participatif et Web collaboratif sont les appellations données à un même et unique concept, un concept qui évoque marketing pour les autres, mais apriori qui représente une solution efficiente d’ouverture et de partage.

Ce n’ est que vers la fin de l’ année 2005 que l’ appellation Web 2.0 fut adoptée. Et cela, lors d’une conférence organisée par l’ éditeur de manuels informatiques O’Reilly. Le terme a été inventé par Tim O’Reilly et John Battelle. Ils le définissent comme étant un ensemble de plates-formes logicielles en ligne indépendantes des systèmes d’exploitation et des données qu’elles utilisent. En effet une telle couche logicielle favorise les interactions entre internautes à partir des sites Web. Il représente un atout de forte marge qui propulse l’ utilisation du Web et aussi le développement du Web [4].

Le Web 2.0 tire sa philosophie du modèle Peer to Peer, donc la performance du système dépend fortement du nombre et de l’ interaction des utilisateurs et des données, le tout sous une plateforme participative. Il faut donner pour recevoir. Le système s’améliore au fur et à mesure que l’ utilisation augmente. Comme exemple le crowdsourcing, la création et modification de contenus, les publications telles que les plates-formes d’échange d’ information, de partage et enfin les réseaux sociaux .

Le Web sémantique

Les technologies de représentation du contenu représentent la plateforme du Web sémantique. Elles offrent aux programmes et logicielles l’accès et l’utilisation des ressources d’ information. Elles représentent la couche qui s’ajoute au Web actuel. Communément ce type de système est appelé métadonnées formelles. Les standards d’échange de données permettent l’interopérabilité, de ce fait elles contribuent à rendre le Web plus accessible. La différence entre le Web actuel et le Web sémantique réside dans l’interprétation par machine versus l’ interprétation humaine pour ce qui est du Web actuel. Ce type de Web utilise plus les technologies de formalisation et de représentation des données [7].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre 1 – Introduction
Chapitre 2 – Le Web
2.1 Introduction
2.2 Évolution du Web
2.3 Le Web Passif.
2.4 Le Web social
2.5 Le Web sémantique
2.6 Les réseaux sociaux
2.6.1 Twitter
2.6.2 Facebook
2.6.3 TripAdvisor
2.7 Fonctionnalités dans les réseaux sociaux
2.8 Utilisation des réseaux sociaux pour le data Mining
2.9 Conclusion
Chapitre 3 – Les règles d’association
3.1 Introduction
3.2 Notions et définitions sur les règles d’association
3.2.1 Représentation des données
3.2.2 Item et support [53]
3.2.3 Support d’un Itemset
3.2.4 Itemset Fréquent
3.3 Règles d’association
3.3.1 Définition
3.3.2 Support et confiance d’une règle d’association
3.4 Extraction des règles d’association
3.4.1 Préparation des données
3.4.2 Algorithme d’extraction des règles d’association
3.5 Les règles d’association maximales
3.5.1 Définition [80,72, 64]
3.5.2 Algorithme des règles d’association maximales
3.5.3 Avantages et inconvénients des règles d’association maximales
3.6 Conclusion
Chapitre 4 – Implémentation
4.1 Introduction
4.2 Environnement logiciel et matériel de développement
4.2.1 Langage de programmation du système d’extraction des règles
d’association
4.2.1 Choix du langage de programmation
4.3 Architecture du système développé
4.4 Fonctionnement du système développé
4.4.1 Création du corpus
4.4.2 Prétraitement des tweets
4.4.3 Générations des règles fortes
4.5 Notre logiciel
4.5.1 Paramétrage du système
4.6 Fonctionnement du système
4.6.1 Récupération des Tweets
4.6.2 Traitement et nettoyage des commentaires
4.6.3 Extraction des règles d’association fortes
4.7 Conclusion
Chapitre 5 – Expérimentations et discussions
5.1 Introduction
5.2 Résultats des expérimentations:
5.2.1 Expérimentation 1
5.2.2 Expérimentation 3
5.2.3 Expérimentation 4
5.2.4 Expérimentation 5
5.3 Discussion et interprétation de résultats
5.4 Conclusion
Chapitre 6 – Conclusion