Télécharger le fichier pdf d’un mémoire de fin d’études
La cuisson d’aliments à l’aide du traitement de don-nées
En plus de méthodes basées sur la physique, des techniques utilisant des don-nées expérimentales ont été introduites dans le passé. Avant de publier le brevet [Tomohiro 1999] présenté dans la section précédente, la société Matsushita Electric Industrial Co présente un brevet en février 1995 pour le contrôle des cuissons dans un four [Nishii 1995]. Le modèle utilisé est un réseau de neurones artificiels (voir sous-section 2.1.6) capable de calculer la température en surface et au cœur des ali-ments. Les variables d’entrée du réseau sont la température dans le four à l’instant du calcul et une minute avant, le temps écoulé depuis le début de la cuisson et le type d’aliment, représenté par un nombre entier (figure 1.1). Les aliments gérés par ce brevet sont principalement des poissons sous forme de filets. Certains résultats sont présentés mais il n’est pas possible de déterminer les conditions de réalisation de ces expériences. On note toutefois que la technique des réseaux de neurones a été abandonnée dans le brevet qui a suivi.
Plus récemment, un four nommé « June » a été pré-commercialisé [June ]. Ce four se présente comme un produit haute technologie équipé d’une caméra haute définition pour transmettre l’image du produit dans le four sur un téléphone. Tou-tefois, pour réaliser le contrôle de la température à cœur, une sonde est utilisée pour venir mesurer directement la température.
Le projet dans lequel se base la présente thèse a pour objectif de réaliser un suivi d’état à cœur sans avoir recours à une sonde de température.
Présentation du projet Open Food System
Cette thèse se place dans le cadre d’un projet industriel du nom d’ « Open Food System » (OFS). L’objectif global de ce projet est de créer un environnement numérique pour le cuisinier, en mettant à disposition des recettes numériques, des services ou par la création d’appareils de cuisine connectés et intelligents. Ce projet est porté par le groupe SEB autour duquel gravitent vingt-cinq partenaires privés et publics, dont deux entreprises, six PME technologiques, quinze laboratoires de recherche et une association. Deux axes de travail majeurs sont présents dans ce cadre, le programme « Nos recettes » et le programme « Opticook ».
« Nos recettes » comporte différents travaux sur l’intégration du numérique dans la cuisine quotidienne. Ceci inclut la définition d’un ensemble de recettes nu-mériques, la compréhension par des algorithmes du contenu des recettes et l’intégra-tion des points précédents dans un environnement complet avec plusieurs appareils capable de communiquer. Un des grands développements de cette partie porte sur la création d’un système de conseil personnalisé de recettes relié à une base de don-nées et capable d’interpréter des mots clés pour agir dynamiquement sur la recette.
« Opticook » est un projet de développement d’appareils de cuisson capables de suivre de manière automatique la cuisson d’un aliment, sans capteur au contact et sans intervention humaine. C’est au sein de ce projet que s’est déroulée cette thèse. À ce projet ont participé : Alpha MOS, une entreprise Toulousaine spécialisée dans la conception de capteurs olfactifs, l’Agence Nationale de Sécurité Sanitaire de l’Ali-mentation, de l’Environnement et du Travail (ANSES), Bonnet Thirode Grande Cuisine (BTGC), fabriquant de matériel de grande cuisine pour les professionnels, l’institut Franche-Comté Electronique, Mécanique, Thermique et Optique – Sciences et Technologies (FEMTO-ST), l’Institut d’Electronique, Micro-électronique et de Nanotechnologie et le Laboratoire d’Automatique, Génie Informatique et Signal (IEMN-LAGIS), spécialisés dans le traitement d’informations thermiques, le La-boratoire Informatique, Electronique et Vision (LE2I), responsables des capteurs visuels, l’unité de recherche Procédés Alimentaires et Microbiologiques (PAM), rat-tachée à l’étude des réactions physico-chimiques durant la cuisson, le groupe SEB, chef de file du projet et enfin le Laboratoire d’Analyse et d’Architecture des Sys-tèmes (LAAS), chargé du traitement des données issues des expériences.
Aujourd’hui, la cuisson des aliments se fait principalement de manière empirique. Le cuisinier utilise l’expérience pour déterminer l’état d’un plat à partir de trois paramètres principaux : l’odeur, la texture et la couleur. Les professionnels ont néanmoins depuis plusieurs années des outils qui permettent de suivre la cuisson à l’aide de mesures chiffrées, comme notamment la sonde de cuisson à cœur qui permet de mesurer la température au cœur des aliments. L’objectif est donc de fournir aux utilisateurs un moyen de contrôler la cuisson des viandes et des poissons sans capteur au contact ni intervention humaine, les capteurs au contact des produits pouvant causer des problèmes d’hygiène ou de déstructuration du produit. Au moment où ce projet fut lancé, il n’existait aucun appareil dans le commerce capable de remplir ces objectifs.
Ces objectifs passent par quatre grandes étapes :
– Identifier les paramètres de mesures à suivre durant la cuisson pour identifier différents niveaux de qualité des aliments
– Définir des nouveaux barèmes de cuisson en fonction des attentes des consom-mateurs et des utilisateurs
– Développer des capteurs capables de suivre les paramètres identifiés dans la première étape avec des contraintes de coût et pouvant être intégrés dans un four (contraintes de taille et de températures)
– Produire des appareils de cuisson automatisés
Analyse discriminante linéaire et quadratique
L’analyse discriminante linéaire (LDA, aussi appelée LDA de Fisher) est une méthode de base en classification qui consiste à utiliser un hyperplan pour séparer les données qui appartiennent à des classes différentes. Dans le cas où le nombre de classes est égal à deux, un seul hyperplan est utilisé et le résultat de la classification est donné par le coté de l’hyperplan dans lequel se situe la donnée à classer. Cette méthode fait l’hypothèse que les données sont distribuées selon une loi normale et que la covariance de chacune des classes est identique. L’hyperplan est alors construit de manière à maximiser la distance entre l’hyperplan et la moyenne des classes tout en minimisant la variance à l’intérieur des classes.
Le cas de l’analyse discriminante quadratique (QDA) reprend l’hypothèse de distribution normale présente dans la LDA mais ne suppose pas que la covariance est identique dans chaque classe. Le cas quadratique propose une séparation des classes non plus à l’aide d’hyperplan mais avec une surface plus complexe définie comme il suit où x est le vecteur de données à classer et A, B et C sont les matrices des coefficients qui définissent la surface de séparation : xT Ax + Bx + C = 0 (2.1)
En pratique il existe deux manières de procéder pour construire une QDA [Carraro 2007], la première est de calculer les coefficients directement par un calcul complet des termes dans la version quadratique, la seconde en augmentant la di-mension de l’espace des attributs, en y ajoutant notamment le carré des variables puis de procéder à une LDA. Ces deux méthodes donnent des résultats proches en termes de performance. Nous donnons en figure 2.1 et 2.2 les résultats de sépara-tions entre les classes obtenus respectivement par ces deux méthodes dans le cas de la base de données Iris.
Arbres de décision
Les arbres de décision sont une méthode de classification qui partitionne les données de manière hiérarchique sous forme d’un arbre dont les feuilles sont les différentes classes [Lee 2014]. A chaque niveau, un critère de séparation est utilisé pour déterminer dans quelle branche va être placée la donnée en cours de classifi-cation. Il est important lors de la construction de l’arbre de bien choisir les critères de séparation afin de rendre le traitement de données plus efficace et de diminuer le nombre de feuilles. Ces critères peuvent par ailleurs aussi bien concerner un seul attribut de la donnée à classer que plusieurs de ces attributs simultanément.
Afin de séparer au mieux les données à chaque nœud, des fonctions mathéma-tiques telles que le coefficient de Gini ou la mesure d’entropie sont utilisées pour quantifier le pouvoir de discrimination du nœud. Pour ces deux fonctions, un mini-mum est recherché pour garantir la meilleure séparation des données.
Les arbres de décision sont intéressants pour leur capacité à pouvoir manipuler différents types de variables, par le fait qu’ils soient facilement compréhensibles et puissent être construits à partir d’un modèle de connaissances et pas uniquement à partir de données. Leur principal défaut est la difficulté potentielle à construire l’arbre dans des cas difficiles, notamment pour des critères multivariables ou en présence de fortes incertitudes sur les données. Les séparations obtenues par l’ap-plication d’une telle méthode sont montrées en figure 2.3.
k-plus proches voisins (k nearest neightbors)
La technique des k-plus proches voisins est une des techniques les plus classiques en classification. Lors de l’introduction d’un échantillon à tester, l’algorithme calcule la distance à chaque point de la base d’apprentissage et conserve les k plus proches [Cunningham 2007], avec k > 0. La classe attribuée à l’échantillon est généralement celle qui est majoritaire parmi les k retenus, le cas trivial étant pour k = 1 où la classe choisie est alors celle du point le plus proche.
Les deux principaux paramètres de cet algorithme sont le choix de k et la fonc-tion de mesure de la distance. Un k trop grand va introduire parmi les proches voisins des candidats qui n’appartiennent pas à la classe de l’échantillon à classer et à l’inverse un k trop petit va ignorer certains points similaires à l’échantillon. Un k optimal dépend principalement de la taille de la base d’apprentissage et de la dispersion des points dans celle-ci [Enas 1986]. Il est également conseillé de prendre un k impair pour éviter les égalités lors de l’assignation de la classe à l’échantillon. Le second paramètre à déterminer, la fonction de distance, est très généralement un cas particulier de la distance de Minkowski (équation 2.2) avec q = 2 et wi = 1 pour tout i (norme euclidienne).
LAMDA (Learning Algorithm for Multivariate Data Analy-sis)
L’algorithme LAMDA a été introduit dans les années 80 par J. Aguilar-Martin [Aguilar-Martin 1982] en collaboration avec plusieurs chercheurs [Desroches 1987, Piera 1989]. C’est une méthode basée sur la logique floue [Zadeh 1965] capable d’effectuer de la classification et du partitionnement sur des grands ensembles de données.
L’apprentissage pour une classe donnée consiste à extraire de la base de données un ensemble de paramètres qui seront ensuite utilisés par des fonctions d’apparte-nance floue. Ces paramètres peuvent être par exemple une moyenne, un écart-type, etc. Une fois l’apprentissage réalisé, l’algorithme se déroule en trois étapes :
– le calcul de l’appartenance de chaque élément (attribut) du vecteur d’entrée à chacune des classes
– l’agrégation des degrés d’appartenances des attributs dans chaque classe
– la décision finale à partir des appartenances globales de la donnée aux diffé-rentes classes L’algorithme est capable de traiter de manière simultanée et sans transforma-tion préalable autre que la normalisation différents types d’ttributs : des variables quantitatives (nombres réels), des variables qualitatives (liste d’étiquettes comme des couleurs, des formes, …) et des intervalles flous ou non-flous. Dans le passage qui suit, seront présentées succinctement des fonctions qui permettent de mesurer l’appartenance d’une donnée par rapport à des paramètres d’entrainement.
Données quantitatives
La fonction distance :
La fonction distance mesure linéairement la proximité d’un attribut xi à la moyenne ρc,i de l’ensemble des éléments du ième attribut de la c-ième classe. Elle se calcule comme suit : µ(xi) = 1 − |xi − ρc,i| (2.6)
Le fait que xi et ρc,i appartiennent à l’ensemble [0 ;1] garantit que le résultat de la fonction sera sur l’ensemble [0 ;1].
La fonction binomiale :
La fonction binomiale ne requière la connaissance que de la moyenne ρc,i des données d’une classe c pour un attribut xi et se calcule de la manière suivante : µ(xi) = ρc,ixi(1 − ρc,i)1−xi (2.7)
Cette fonction présente l’avantage d’avoir peu de paramètres et a un réel intérêt dans les problèmes à deux classes, sans quoi elle se montre souvent moins efficace que la binomiale centrée.
La fonction binomiale centrée :
La fonction binomiale centrée est une extension de la fonction binomiale qui a la particularité de présenter un maximum à 1 en un point fixé, ce qui présente plus d’intérêt dans les cas multi-classes. µ(xi) = φc,i1−|xi−ρc,i|(1 − φc,i)|xi−ρc,i| (2.8)
Les méthodes filtrantes
Ces techniques se basent sur l’usage de critères indépendants de toute technique de classification pour écarter les attributs moins pertinents. Ils incluent notamment des indices tels que le coefficient de Gini, la mesure d’entropie ou encore le score de Fisher, également utilisés dans la construction des arbres de décision.
Prenons par exemple, le score de Fisher (dans le cas continu). Soit un problème de classification donné composé de C classes, le score de Fisher pour le ième attribut se calcule alors par :
P C c=1 Ncσi,c2 Si = c=1 Nc(µi,c − µi) (2.19)
avec :
Nc le nombre d’échantillons dans la classe c
µi la moyenne globale du ième attribut
µi,c la moyenne du ième attribut dans la classe c σi,c l’écart-type du ième attribut dans la classe c
Plus les scores calculés à l’aide de cette formule pour des attributs donnés sont élevés, plus la classification sera aisée si on utilise ces mêmes attributs.
Il existe d’autres approches statistiques qu’il est possible de rattacher aux mé-thodes filtrantes, comme par exemple l’utilisation de l’analyse par composantes principales (ACP). L’ACP est une technique statistique de réduction de l’espace. Un espace est construit en effectuant des combinaisons linéaires des différents axes de l’espace d’origine, de manière à exprimer au mieux la variance des données. L’algorithme construit autant d’axes qu’il en existe dans l’espace d’origine et c’est l’utilisateur qui choisit combien il souhaite en conserver (généralement deux ou trois pour permettre une représentation graphique). Chaque axe étant une combinaison linéaire de l’espace original, il est possible d’effectuer une sélection en conservant uniquement les attributs dont les poids possèdent les plus grandes valeurs abso-lues. Il existe néanmoins d’autres méthodes pour réaliser des sélections d’attributs comme celle proposée par [Lu 2007].
Les méthodes filtrantes ont le grand avantage d’être très peu couteuses en temps de calcul et de donner un résultat indépendant de tout algorithme de classification. Néanmoins, l’indépendance par rapport à la classification peut amener à suppri-mer des variables qui auraient pu apporter de l’information dans certains cas. Par exemple, le score de Fisher va donner des scores faibles aux données non convexes alors que de telles informations peuvent être traitées par certains algorithmes de classification. De plus, dans le cas de traitements mono-variables (un seul attribut est analysé à la fois), il n’est pas possible de détecter des éléments redondants.
Les méthodes d’encapsulation
La sélection d’attributs par encapsulation se base intégralement sur les résultats d’un algorithme de classification donné, utilisé avec un sous-ensemble de l’ensemble des attributs. Le sous-ensemble optimal est obtenu de la manière suivante :
1. Un sous-ensemble d’attribut est isolé
2. La classification est effectuée sur le sous-ensemble choisi lors de l’étape 1
3. On boucle sur 1 et 2 avec d’autres sous-ensembles jusqu’à trouver le sous-ensemble qui donne les meilleurs résultats de classification
Ce procédé est intéressant car il permet d’obtenir un sous-ensemble adapté à l’algorithme de classification qui sera utilisé par la suite. Néanmoins, ceci est très souvent couteux en temps de calcul puisque la recherche du sous-ensemble optimal passe par un parcours combinatoire des attributs initiaux, ce qui peut être très long si la dimension de l’espace de base est grande.
Toutefois, il existe une autre solution introduite en 2011 par Lyamine Hedjazi [Hedjazi 2011] pour réaliser une sélection par encapsulation de manière non combi-natoire. Cette méthode se nomme MEMBAS (MEmbership-Margin Based feAture Selection) et se base sur l’existence d’un « score » pour chaque attribut (degré d’appartenance, fonction de distance, …). Soit un problème de classification qui comporte I attributs. On définit µci(xi) le score d’appartenance du ième attribut à la classe c, ce score étant dépendant de la méthode de classification utilisée. De là, on construit un vecteur d’appartenances à la classe c, Mc = {µc1(x1), …, µcI (xI )} à partir de l’entrée X = {x1, …, xI }. Si l’on se place dans un problème à deux classes c et nc, sachant que X appartient à la classe c, l’objectif de l’algorithme est de déterminer les poids W = {w1, …, wI } tels que :
max(W Mc − W Mnc) (2.20) i=1 wi = 1 et ∀i ∈ [1…I], wi > 0. Ceci se traduit par le fait que les attributs qui sont discriminants auront un poids plus fort que les attributs P dont la différence est faible ou négative.
L’avantage majeur de cette solution est que la recherche de l’optimal du pro-blème possède une solution analytique (voir annexe A). Dans le cas de l’exploitation d’une base de données avec beaucoup d’individus à classer, il est préférable de prendre la solution qui calcule les poids au fur et à mesure du traitement des individus. Il est possible de réaliser l’algorithme comme il suit :
1. Initialiser W = 0I
2. Calculer s = Mc − Mnc
3. W = W + s
4. Boucler sur l’étape 2 avec un nouvel échantillon
5. W = max(W, 0)/I
Les méthodes hybrides
Les méthodes hybrides utilisent à la fois les méthodes filtrantes et d’encapsula-tion. On procède généralement par l’usage des filtres pour extraire un sous-ensemble d’attributs issu de l’ensemble initial puis dans un second temps on applique une mé-thode d’encapsulation sur le sous-ensemble.
L’hybride offre donc un bon compromis entre les méthodes filtrantes qui sont peu couteuses en calcul mais également peu spécifiques et les méthodes d’encapsulation, qui sont quant à elles très couteuses en temps de calcul.
Les méthodes embarquées
Lors de l’utilisation de certains algorithmes de classification, il est possible d’ob-tenir une sélection de variable durant la phase d’entrainement, on parle alors de méthodes embarquées. On peut citer par exemple les arbres de décisions puisque leur construction intègre les mêmes calculs qu’une sélection par filtrage ou encore l’utilisation des poids de l’hyperplan avec les machines à vecteur de support.
Ces méthodes ont l’avantage d’offrir une interaction avec l’algorithme de clas-sification et d’être moins couteuses que les processus par encapsulation classiques. Par contre, la sélection obtenue est spécifique à l’algorithme de classification utilisé.
Les techniques de régression
Introduction
Les techniques de régression sont des méthodes statistiques qui ont pour objectif de créer un modèle expliquant l’évolution d’une variable aléatoire Y en fonction d’une variable X. Il s’agit d’un problème proche de la classification, la principale différence étant que la sortie d’une méthode de classification est qualitative là où une technique de régression a pour but d’exprimer une variable quantitative. Cette section présente les principales méthodes de régression pour des variables continues.
Comme dans beaucoup de problèmes statistiques, il est souvent nécessaire de mener une étude des données avant de tenter une modélisation par régression afin de détecter si des données aberrantes sont présentes, ou s’il existe des non linéarités évidentes qui peuvent être ramenées à un cas linéaire par une transformation.
Régression linéaire simple
Il s’agit du modèle de régression le plus simple et le plus élémentaire. L’objectif est de rechercher si une variable aléatoire Y peut être expliquée par une autre variable X à l’aide d’une fonction affine, X étant dans le cas présent composé d’une seule variable. Pour être plus précis, c’est l’espérance E(Y) qui est fonction de X sous la forme : E(Y)=β0+β1X (2.21)
Les paramètres du modèle β0 et β1 peuvent être déterminés en minimisant l’erreur quadratique entre le modèle et les observations. Pour un ensemble de valeurs {Xn, Yn} avec n = 1, …, N, le problème d’optimisation est le suivant : n=1 sXYminβ0,β1 (Yn − β0 − β1Xn)2 (2.22)
Il est montré que ce problème est résolu par : β1 = et β0 = Y − β1X sX2 sachant que sX2 = 1 PnN=1(Xn − )2 et sXY = 1 PnN=1(Xn − )(Yn − ). X X Y X N −1 N −1 (respectivement Y ) représente la valeur moyenne du vecteur X (respectivement Y ).
Régression linéaire multiple
La régression linéaire multiple étend le cas simple vu précédemment aux cas où X est composé de plusieurs variables [Besse 2013]. On étudie donc dans ce cas un ensemble de variables Xn, Yn avec n = 1, …, N et Xn = xn, 1, …, xn,I .
Le problème étant cette fois matriciel, il est plus compliqué d’introduire de ma-nière naturelle un terme constant afin de rendre le modèle affine. Pour contrer cela, la solution la plus simple est d’étendre le vecteur X avec un terme constant, géné-ralement 1. Ce nouveau vecteur nommé P est alors défini par : P = {1, x1, …, xI } et permet alors de calculer E(Y ) de la manière suivante : E(Y ) = P β = β0 + x1β1 + … + xI βI (2.23)
La détermination de l’ensemble des paramètres β est, de manière similaire au cas simple, effectuée à l’aide du critère des moindres carrés : N min n − P k Y − P β X (Y β)2 = min 2 (2.24)
|
Table des matières
1 Mise en contexte : le suivi de cuisson d’aliments à l’aide d’outils numériques
1.1 La cuisson d’aliments à base de modèles physiques
1.2 La cuisson d’aliments à l’aide du traitement de données
1.3 Présentation du projet Open Food System
2 Introduction au traitement des donnée
2.1 Algorithmes de classification
2.1.1 Introduction
2.1.2 Analyse discriminante linéaire et quadratique
2.1.3 Arbres de décision
2.1.4 k-plus proches voisins (k nearest neightbors)
2.1.5 Les machines à vecteurs de support (support vector machines)
2.1.6 Les réseaux de neurones artificiels
2.1.7 LAMDA (Learning Algorithm for Multivariate Data Analysis)
2.2 La sélection d’attributs
2.2.1 Introduction
2.2.2 Les méthodes filtrantes
2.2.3 Les méthodes d’encapsulation
2.2.4 Les méthodes hybrides
2.2.5 Les méthodes embarquées
2.3 Les techniques de régression
2.3.1 Introduction
2.3.2 Régression linéaire simple
2.3.3 Régression linéaire multiple
2.3.4 Régression polynomiale
2.3.5 Réseaux de neurones
3 Sélection d’attributs pour le suivi de cuisson d’aliments à partir de mesures expérimentales
3.1 Introduction
3.2 Matériel et méthodes
3.3 Études sur les composés organiques volatils
3.3.1 Cabillaud
3.3.2 Saumon
3.3.3 Truite
3.3.4 Rosbif
3.3.5 Rôti de porc
3.3.6 Rôti de veau
3.3.7 Blanc de poulet
3.3.8 Cuisse de poulet
3.3.9 Bilan sur les composés organiques volatils
3.4 Mesures spectrales suite à une excitation par lumière fluorescente
3.4.1 Cabillaud
3.4.2 Saumon
3.4.3 Truite
3.4.4 Rosbif
3.4.5 Rôti de porc
3.4.6 Rôti de veau
3.4.7 Blanc de poulet
3.4.8 Cuisse de poulet
3.4.9 Bilan sur l’analyse par fluorescence
3.5 Mesures de réflexion dans le visible et le proche infrarouge
3.5.1 Cabillaud
3.5.2 Saumon
3.5.3 Truite
3.5.4 Rosbif
3.5.5 Rôti de porc
3.5.6 Rôti de veau
3.5.7 Blanc de poulet
3.5.8 Cuisse de poulet
3.5.9 Bilan sur les spectres dans le visible et le proche infrarouge
3.6 Bilan de la sélection d’attributs pour le suivi de l’état de cuisson d’aliments
4 Modélisation des incertitudes pour la classification par l’algorithme LAMDA
4.1 Modélisation d’incertitudes à l’aide d’intervalles
4.1.1 Utilisation d’intervalles non-flous
4.1.2 Intervalles flous pour la modélisation de lois normales
4.2 Utilisation d’agrégation pondérée dans la méthode LAMDA
4.3 Bilan sur la prise en compte d’incertitudes
5 Reconstitution de l’état au cœur d’aliments pendant une cuisson
5.1 Introduction
5.2 Présentation des prototypes et des protocoles
5.2.1 Matériel
5.2.2 Paramètres pour la classification
5.3 Étude par l’équation de la chaleur
5.3.1 Présentation du modèle
5.3.2 Recherche de r à postériori
5.3.3 Recherche de r à priori
5.3.4 Conclusion sur la méthode par calcul de l’équation de la chaleur
5.4 Techniques de classification pour le suivi de cuisson
5.4.1 Présentation
5.4.2 Analyses effectuées sur le prototype v1 première génération
5.4.3 Prototype v1 seconde génération
5.4.4 Analyses sur le prototype v2
5.5 Reconstitution de la température à cœur à l’aide de réseaux de neurones artificiels
Conclusion
A Formulation de l’algorithme MEMBAS
B Explications sur la lecture des matrices de confusion
C Exemples de résolutions de l’équation de la chaleur avec paramètre optimal
D Limites de classes pour la classification du rosbif et du saumon sur le prototype v2
Bibliographie
Télécharger le rapport complet