Techniques de visualisation
Les progrรจs effectuรฉs par la thรฉorie de la visualisation, en informatique graphique et ses algorithmes ont donnรฉ naissance ร de nouvelles techniques de visualisation plus performantes capables de faire ressortir les tendances dans des donnรฉes multivariรฉes et les reprรฉsenter corrรฉlations entre les variables. Malgrรฉ ces avancรฉes, la visualisation des donnรฉes multidirectionnelles se heurte ร plusieurs contraintes dont les plus importantes sont la reprรฉsentation tridimensionnelle de lโespace de reprรฉsentation ainsi que lโutilisation efficace du systรจme de perception visuel humain, qui ne peut concevoir facilement un espace de plus de trois dimensions. Pour ces raisons, la reprรฉsentation graphique des donnรฉes de quatre dimensions et plus nรฉcessite lโintroduction de mรฉtaphores, ร savoir des couleurs, des formes, et bien dโautres. Beaucoup de travaux ont mis lโaccent sur lโintรฉrรชt et lโutilitรฉ des techniques de visualisation dans lโexploration des donnรฉes, mais rares sont les auteurs qui se sont intรฉressรฉs ร les classer et en dresser un bilan. Nรฉanmoins, une taxonomie de ces techniques reprรฉsente une bonne mรฉthode pour dโidentifier ce qui se fait couramment et par consรฉquent un point de dรฉpart intรฉressant pour la mise au point dโun nouveau systรจme de visualisation.
Dans la littรฉrature, il existe deux travaux principaux de taxonomie concernant les techniques de visualisation : le travaux de (Chi, 2000) et de Keim (Keim, 1997). Dans ce qui suit, lโaccent est mis sur la classification de Keim. La premiรจre classification des techniques de visualisation des donnรฉes multidimensionnelles a รฉtรฉ proposรฉe par Keim (Keim, 1997, 2002). Elle distingue six catรฉgories de techniques de visualisation:
Techniques gรฉomรฉtriques
Les techniques gรฉomรฉtriques visent ร trouver des transformations intรฉressantes des donnรฉes multidimensionnelles (Keim, 2002). En effet, elles permettent de projeter les donnรฉes multidimensionnelles dans un nouvel espace de reprรฉsentation, gรฉnรฉralement de deux dimensions. Elles sont utilisรฉes pour traiter des jeux de donnรฉes de grande taille, principalement pour dรฉtecter les donnรฉes aberrantes et les corrรฉlations entre les attributs, notamment avec lโintroduction des techniques dโinteractions. Une multitude de possibilitรฉs de projection dans les espaces de deux dimensions peuvent รชtre imaginรฉes, mais il est important que les nouvelles reprรฉsentations doivent restituer fidรจlement lโinformation pertinente contenue dans les donnรฉes explorรฉes. En plus, des techniques issues du champ des statistiques exploratoires, typiquement la matrice de dispersion (scatter matrix), lโanalyse en composantes principales et lโanalyse factorielle, cette catรฉgorie comprend dโautres techniques permettant de reprรฉsenter des donnรฉes multidimensionnelles entre autres les coordonnรฉes parallรจles (Inselberg, 2009).
Techniques iconiques Les techniques iconiques se basent sur les formes gรฉomรฉtriques et les icรดnes pour reprรฉsenter les donnรฉes multidimensionnelles dans un espace de deux dimensions. Elles mappent chaque observation ร une forme gรฉomรฉtrique (glyphe) dont les caractรฉristiques visuelles (les arrรชts, les angles, etc.) varient en fonction des valeurs des attributs des donnรฉes (Keim, 2002). Cette approche rend possible la reprรฉsentation des donnรฉes multidimensionnelles dans lโespace traditionnel. Bien que le nombre de dimensions qui peut รชtre visualisรฉ reste limitรฉ, ces techniques sont trรจs utiles dans ce contexte. Quand les attributs des donnรฉes sont relativement nombreux, par rapport aux dimensions de la reprรฉsentation (deux dimensions de lโespace de reprรฉsentation plus le nombre de caractรฉristiques visuelles du glyphe), la visualisation rรฉsultante prรฉsente des motifs visuels qui varient en fonction des caractรฉristiques des donnรฉes et qui peuvent รชtre dรฉtectรฉs par la perception prรฉattentive (Keim, 2002). Cette catรฉgorie inclut plusieurs techniques, entre autres, Chernof (Glazar, Marunic, Percic, et Butkovic, 2016), stick figure (Peter J. Sackett, M. F. Al-Gaylani, Ashutosh Tiwari, et Williams, 2016), et bien dโautres.
Techniques orientรฉes pixel Les techniques orientรฉes pixel ne permettent pas de visualiser seulement les donnรฉes multidimensionnelles, mais aussi celles qui sont en grande en quantitรฉ. Elles consistent ร reprรฉsenter chaque valeur de donnรฉes par un pixel colorรฉ. Pour un jeu de donnรฉes de dimension n*n, les pixels sont utilisรฉs pour reprรฉsenter une seule observation oรน les valeurs de chaque attribut sont arrangรฉes dans une fenรชtre sรฉparรฉe. Cette classe de technique se dรฉcline en deux approches principales ; ยซquerry-dependantยป et ยซquerry-independant techniquesยป (Keim, 1996).
Systรจmes de visualisation
La littรฉrature relative ร ce sujet liste un nombre important de travaux proposant des systรจmes de visualisation pour la gestion des rรฉseaux. En effet, la visualisation de lโinformation a รฉtรฉ utilisรฉe dans ce contexte depuis les annรฉes 80 et 90, mais elle nโa pas รฉvoluรฉ au mรชme rythme que celle des rรฉseaux de communication (Gilbert et Kleinรถoder, 1985). Cette รฉvolution des technologies de rรฉseaux a rendu nรฉcessaire la surveillance et la gestion de lโinfrastructure. Depuis, le nombre de publications portant sur la visualisation du trafic pour la gestion des rรฉseaux a augmentรฉ considรฉrablement. Toutefois, une รฉtude (Guimarรฃes et al., 2015) dรฉmontre que 78,28 % des travaux effectuรฉs entre 2004 et 2013 traitent de problรจmes de sรฉcuritรฉ voir Figure 2.6. Dans ce qui suit lโaccent est mis sur un ensemble de travaux de recherche effectuรฉs dans le contexte de la visualisation du trafic pour la surveillance et le contrรดle des rรฉseaux. Les sections qui suivent prรฉsentent plusieurs exemples dโoutils existants. Lโoutil Visual (Ball, Fink, et North, 2004) est un systรจme permettant de visualiser les communications et les flux entre un rรฉseau local et un rรฉseau externe afin de dรฉtecter rapidement le trafic malicieux, par lโanalyse de lโintensitรฉ des activitรฉs des hรดtes.
Dans ce systรจme, le rรฉseau local est reprรฉsentรฉ par une matrice oรน chaque cellule reprรฉsente un hรดte interne et les hรดtes distants sont reprรฉsentรฉs par des carrรฉs dont les tailles reflรจtent le niveau dโactivitรฉs. La connexion entre un hรดte interne et un autre distant est reprรฉsentรฉe par une simple ligne. Ce systรจme offre des fonctionnalitรฉs de filtrage pour afficher les activitรฉs dโune machine particuliรจre et ainsi รฉviter de surcharger les graphes, ce qui les rend difficile ร analyser. Lโoutil TNV (Goodall, Lutters, Rheingans, et Komlodi, 2005) a รฉtรฉ conรงu pour รฉviter la perte de la vue dโensemble du rรฉseau lorsque lโutilisateur analyse en dรฉtail le trafic malicieux au niveau des paquets. La composante principale de cet outil est une matrice visualisant les communications de rรฉseau en fonction du temps. Le temps (timestamp) est reprรฉsentรฉ par lโaxe des abscisses et les adresses IP sont listรฉes tout au long de lโaxe des ordonnรฉes. Chaque colonne de la matrice reprรฉsente un intervalle de temps et chaque ligne dรฉsigne un hรดte. Les paquets visualisรฉs dans une cellule (i, j) correspondent ร ceux รฉmis/reรงus dans lโintervalle j de lโhรดte i. Les flux entre deux hรดtes, dans chaque pรฉriode, sont reprรฉsentรฉs par des lignes (voir Figure 2.7). Une analyse de ports est dรฉveloppรฉe รฉgalement afin de dรฉtecter plus facilement une activitรฉ de balayage de ports.
Dโautres mรฉtaphores sont aussi utilisรฉes, notamment la couleur pour mettre en รฉvidence des informations supplรฉmentaires telles que la densitรฉ des paquets et le type de protocole. Cet outil permet aussi de supporter la gestion de la sรฉcuritรฉ du rรฉseau. Nรฉanmoins il nโest pas conรงu pour une visualisation en temps rรฉel car lโanalyse des donnรฉes ne sโeffectue pas au cours de la capture du trafic, mais, en lot, ร partir des traces prรฉalablement collectรฉes.
Lโoutil NVisionIP (Lakkaraju, Yurcik, et Lee, 2004) permet de visualiser le trafic dans un rรฉseau de classe B (ref) pour des finalitรฉs de sรฉcuritรฉ. Il offre la possibilitรฉ dโanalyser lโรฉtat du rรฉseau de trois maniรจres diffรฉrentes ร travers son cadre principal de visualisation nommรฉ vue Galaxy ou Galaxy View. Dans la premiรจre configuration de visualisation, les hรดtes de tous les sous-rรฉseaux sont reprรฉsentรฉs dans une grille ou une matrice. Les sous-rรฉseaux sont listรฉs au long de lโaxe des abscisses tandis que les hรดtes sont reprรฉsentรฉs sur lโaxe des ordonnรฉes. Chaque hรดte est colorรฉ en fonction de caractรฉristiques telles que le volume de trafic. La deuxiรจme possibilitรฉ de visualisation consiste ร regrouper les machines ayant les mรชmes services dans des regroupements (Web, DNS, etc.). La troisiรจme configuration visuelle permet de reprรฉsenter les machines par des rectangles dont les tailles indiquent lโimportance des caractรฉristiques dโintรฉrรชt. Ce cadre de visualisation est supportรฉ par deux fenรชtres de visualisation ; 1) SMV ; pour (Small Machine View) qui visualise les caractรฉristiques de plusieurs machines dโune rรฉgion particuliรจre de (Galaxy view), 2) MV (pour machine View) qui permet de reprรฉsenter les dรฉtails dโune machine spรฉcifique. Lโoutil VizFlowConnect (Yin, Yurcik, Treaster, Li, et Lakkaraju, 2004) et VizFlowConnect_IP (Yurcik, 2006) utilisent la technique de coordonnรฉes parallรจles afin de visualiser les communications entre les hรดtes internes et externes.
Il consiste en trois axes parallรจles dont lโaxe central correspond aux adresses IP des hรดtes internes, le premier axe reprรฉsente les hรดtes externes source du trafic envoyรฉ aux hรดtes internes, le troisiรจme axe correspond aux hรดtes externes destination du trafic provenant du rรฉseau interne. Bien que cette solution soit simple et permette dโobtenir une vue dโensemble sur lโรฉtat des activitรฉs du rรฉseau, en particulier la dรฉtection du trafic malicieux, elle ignore lโanalyse du trafic interne qui peut รชtre aussi malicieux. Lโoutil RTA (Keim, Mansmann, Schneidewind, et Schreck, 2006) est un systรจme de visualisation orientรฉe hรดte. Il vise ร visualiser la distribution des paquets au niveau dโune machine particuliรจre. Pour parvenir ร cet objectif, RTA utilise une approche de visualisation radiale. Ainsi, dans la configuration par dรฉfaut, il utilise quatre cercles concentriques pour reprรฉsenter les attributs dโun paquet (IP_src, IP_dst, Port_src, Port_dst). Le cercle interne reprรฉsente les adresses IP sources, le deuxiรจme correspond aux adresses IP destination, les deux derniers cercles correspondent respectivement aux ports sources et ports destination. Dรฉpendamment du but de lโanalyse, le nombre de cercles composant ce cadre peut รชtre rรฉduit ร trois ou deux. Bien que; RTA constitue un systรจme efficace qui permet de surveiller les activitรฉs des hรดtes et de dรฉtecter le trafic malicieux, il se base sur le nombre de ports pour identifier le type dโapplication (HTTP โ >80) ce qui peut entraรฎner de mauvaises conclusions, notamment avec lโรฉmergence des applications non standards.
|
Table des matiรจres
CHAPITRE 1 INTRODUCTION GรNรRALE
1.1 Contexte
1.2 Problรฉmatique
1.3 Les objectifs de la recherche
1.4 Plan du mรฉmoire
CHAPITRE 2 REVUE DE LA LITTรRATURE
2.1 Introduction
2.2 Visualisation du trafic
2.2.1 Dรฉfinitions
2.2.2 Processus de visualisation
2.2.3 Techniques de visualisation
2.2.4 Systรจmes de visualisation
2.3 Classification du trafic
2.3.1 Taxonomie des mรฉthodes de classification de trafic
2.3.1.1 Classification basรฉe sur les ports
2.3.1.2 Classification par lโinspection de charge
2.3.1.3 Approche comportementale
2.3.1.4 Approche statistique
2.3.2 Classification du trafic et mรฉthodes dโapprentissage machine
2.3.2.1 Arbre de dรฉcision
2.3.2.2 Forรชts dโarbres dรฉcisionnels (RandomForest Classifier)
2.3.2.3 Machine ร vecteurs de support (SVM)
2.3.3 Travaux connexes
2.4 รchantillonnage de trafic
2.4.1 Techniques dโรฉchantillonnage de trafic
2.4.1.1 รchantillonnage systรฉmatique
2.4.1.2 รchantillonnage Alรฉatoire
2.4.1.3 รchantillonnage alรฉatoire adaptatif
2.4.2 Standard sFlow
2.4.3 Netfow
2.5 Conclusion
CHAPITRE 3 MรTHODOLOGIE DE RECHERCHE
3.1 Introduction
3.2 Description gรฉnรฉrale de la plateforme de visualisation de trafic
3.2.1 Modules de la plateforme de visualisation de trafic
3.2.2 Niveaux dโanalyse
3.2.2.1 Mรฉtriques gรฉnรฉrales
3.2.2.2 Caractรฉristiques de la couche transport
3.2.2.3 Caractรฉristiques de la couche application
3.3 Modรจle dโรฉchantillonnage adaptif
3.4 Classification des donnรฉes massives en temps rรฉel
3.4.1 Approche de classification
3.4.2 Gรฉnรฉration des caractรฉristiques de flux
3.4.3 Sรฉlection de caractรฉristiques
3.5 La visualisation des donnรฉes multidimensionnelles
3.6 La visualisation de trafic en temps rรฉel
3.7 Conclusion
CHAPITRE 4 EXPรRIMENTATION ET RรSULTATS
4.1 Introduction
4.2 Protocole dโexpรฉrimentation et banc dโessai
4.2.1 Environnements de tests
4.2.2 Scรฉnarios de tests
4.2.2.1 Scรฉnario 1 : Test de lโanalyse de base des rรฉseaux
4.2.2.2 Scรฉnario 2 : Test de lโanalyse de flux
4.2.2.3 Scรฉnario 3 : Test de lโanalyse dโapplication
4.2.3 Outils et bibliothรจques
4.3 Rรฉsultats
4.3.1 Fonctionnalitรฉs du premier niveau
4.3.2 Fonctionnalitรฉs au niveau transport
4.3.3 Fonctionnalitรฉs au niveau application
4.4 Analyse de performances et รฉvaluation
4.4.1 Analyse de CPU et mรฉmoire
4.4.2 Comparaison de fonctionnalitรฉs
4.5 Conclusion
CONCLUSION
ANNEXE I CARACTรRISTIQUES DE FLUX
LISTE DE RรFรRENCES BIBLIOGRAPHIQUES
Tรฉlรฉcharger le rapport complet