ChimiométrieChimiométrie
La chimiométrie est l'application d'outils mathématiques, en particulier statistiques, pour obtenir le maximum d'informations à partir de données chimiques[1],[2]. La chimiométrie est une discipline très appliquée. Son objectif est d'améliorer le contrôle et l'optimisation des procédés ainsi que la qualité des produits fabriqués. Son développement a été fortement accéléré par celui de la spectrométrie proche infrarouge dans les laboratoires de chimie analytique[3]. La chimiométrie se distingue des statistiques par le fait que :
La chimiométrie regroupe notamment[4] :
Les plans d'expériences ont pour objectif d'organiser mathématiquement les conditions expérimentales pour choisir les plus informatives, ce qui permet de minimiser le nombre d'expériences tout en maximisant l'information obtenue. Données étudiéesL'une des grandes aires d'application de la chimiométrie est la spectroscopie infrarouge : proche et moyen infra-rouge (PIR/MIR)[5] sous différentes approches (multi/hyperspectral, spatial ou non). Mais d'autres données peuvent également être étudiées : spectroscopie RMN[6], spectroscopie de masse[7], spectroscopie Raman[8]. Les signaux traités par la chimiométrie ont généralement en commun que chaque variable (chaque intensité à une longueur d'onde données d'un spectre) est peu sensible vis à vis du phénomène étudié, mais l'ensemble des variables peut l'être. La chimiométrie, via des opérations d'algèbre linéaire, consiste alors à combiner les variables du signal, peu sensibles, pour créer de nouvelles variables appelées variables latentes, plus sensibles[9]. Méthodologie générale et bonnes pratiquesNotationsLes matrices seront représentées par des majuscules grasses, comme X. Les vecteurs, par des minuscules grasses, comme xj qui représente la j ième colonne de X, et les scalaires, par des minuscules italiques, comme n indiquant le nombre d'individus ou p indiquant le nombre de variables. Les données contenant les signaux décrits par p variables mesurées sur n individus seront rangées dans une matrice X de n lignes par p colonnes[10]. ApprentissageUn grand nombre de méthodes chimiométriques ont pour but de réaliser un étalonnage (en anglais : calibration), entre un signal x (par exemple un spectre) et des grandeurs à prédire y (par exemple une concentration et une densité), au moyen d'un apprentissage. En apprentissage, on cherche à construire un modèle mathématique à partir d'un ensemble d'échantillons sur lesquels on aura mesuré x et y, regroupés dans deux matrices, X et Y. Pour ce faire, les données sont classiquement séparées en trois groupes : le jeu d'apprentissage (Xc, Yc), le jeu de validation (Xv, Yv) et le jeu de test (Xt, Yt)[11]. Il y a deux phases dans la construction d'un modèle :
La phase 1 emprunte généralement une validation croisée, dans laquelle l'ensemble d'étalonnage et l'ensemble de validation sont tirés de manière répétée. Plusieurs types de validation croisée existent : random blocs, jack-knife, venitian blind, leave-one-out, répétée... Le leave-one-out n'est pas recommandé car il favorise le sur-apprentissage. La validation croisée répétée est préférable. Pendant la construction du modèle, on doit attacher une grande importance à ne pas biaiser artificiellement ses critères de performances. Par exemple, tous les réplicats de mesures d'un même échantillon ne doivent jamais être séparés entre le jeu d'étalonnage et le jeu de validation, et le jeu test doit être le plus indépendant possible et représentatif de l'utilisation future du modèle. Le schéma représente le logigramme typique de la construction d'un modèle d'étalonnage en chimiométrie. Critères de performance et d'évaluation des modèlesLes critères employés pour l'évaluation de la performance : RMSEP, le R2 (et/ou le RPD qui est relié au R2). Les critères employés pour l'évaluation de la qualité : coefficient de Durbin-Watson, le T2 d'Hoteling, le coefficient Q. Techniques et méthodes employéesPrétraitement des donnéesAvant d'être traitées par les méthodes d'exploration ou d'étalonnage, les données ont parfois besoin d'être prétraitées, afin d'éliminer des signaux de fond indésirables, comme les effets des réflexions spéculaires en spectroscopie. De nombreuses méthodes de prétraitement ont été imaginées et développées, tant pour gommer des altérations génériques, comme les effets multiplicatifs ou additifs[12], que pour résoudre des problèmes spécifiques à chaque technique analytique, comme la fluorescence en spectrométrie Raman[13]. Les prétraitements se classent en deux grandes catégories : les prétraitements basés sur des statistiques calculées sur les individus de la base de données (c’est-à-dire sur les colonnes de la matrice) et les prétraitements basés sur le traitement du signal de chaque individu (c’est-à-dire sur les lignes de la matrice). Prétraitements basés sur les statistiques des colonnesLa chimiométrie repose essentiellement sur des calculs statistiques tels que la moyenne, la variance et la covariance. Ces quantités caractérisent l'ensemble des individus sur lesquels le modèle sera construit. Par exemple, une PLS cherche à maximiser la covariance. Toutefois, les unités utilisées pour mesurer les variables peuvent avoir des échelles non comparables. De même, la distribution de certaines variables peut être très asymétrique, ce qui entraîne des biais dans les estimations des moments statistiques. Un certain nombre de prétraitements sont consacrés à la correction de ces distorsions. Les prétraitements basés sur les statistiques des colonnes sont calculés dans l'espace des individus et sont ensuite appliqués sur chaque individu testé par le modèle. Par conséquent ils ne doivent pas être effectués avant le fractionnement de l'ensemble étalonnage / test. Une attention particulière doit également être portée lors de la validation croisée. En effet, le prétraitement doit être "intégré" dans la boucle de validation croisée afin de le calculer et de l'appliquer à chaque itération de la validation croisée. Les méthodes les plus courantes pour corriger la distribution des variables consistent à soustraire et/ou diviser chaque colonne par une statistique calculée sur cette colonne. Centrage par colonneLe centrage par colonne a pour but de définir l'origine par laquelle passe le modèle. Une description détaillée des différents modes de centrage se trouve dans Bro et Smilde[14]. Dans le plus courant, la moyenne de chaque colonne de données est soustraite de toutes les valeurs de cette colonne pour donner une matrice de données où la moyenne de chaque variable prétraitée est nulle. Lorsque le modèle, calculé sur ces données prétraitées, est appliqué à un nouvel individu, il faut appliquer à cet individu le même centrage que celui utilisé par le prétraitement, c'est-à-dire soustraire à cet individu la moyenne du jeu d'étalonnage. Normalisation par colonneLa normalisation des colonnes a pour but d'équilibrer les poids statistiques de toutes les colonnes. Cela revient à rendre les colonnes a-dimensionnelles. Il existe différentes méthodes pour cela. La plus courante consiste à donner la même variance à toutes les colonnes, en les divisant par leur écart-type, après les avoir centrées. Cela signifie que la seule information qui reste est liée aux corrélations entre les variables. Cette opération est appelée également « réduction » ou « autoscaling ». D'autres statistiques que l'écart-type peuvent être utilisées, comme la racine carrée de l'écart-type, dans le Pareto Scaling. Très rarement utilisé en spectrométrie proche infrarouge, l'autoscaling est très utile lorsque les signaux porteurs d'information sont faibles et non corrélés à d'autres signaux plus forts. Ces cas peuvent se produire par exemple avec des signaux de spectrométrie de masse. Prétraitements basés sur le traitement du signalLes méthodes de traitement du signal sont largement utilisées pour des applications spectroscopiques, afin de corriger les données spectrales des effets de taille et de se concentrer sur la forme du signal. Contrairement aux méthodes basées sur les statistiques des colonnes, les prétraitements basés sur le signal s'appliquent à chaque individu, indépendamment des autres. Ils peuvent donc en général être effectués avant le fractionnement des ensembles d'étalonnage et de test et ne nécessitent aucune précaution en ce qui concerne la validation croisée. Correction des lignes de baseLes spectres peuvent contenir des signaux d'arrière-plan structurés qui sont généralement appelés lignes de base. Les lignes de base sont censées être des signaux continus et à basse fréquence qui s’ajoutent au signal mesuré. Il existe différents modèles de ligne de base : constante, linéaire, polynomiale, etc., qui ont donné lieu à différentes méthodes de correction. De plus, certains filtres de traitement du signal ont été adaptés au prétraitement des spectres chimiométriques. Il y a donc de nombreuses méthodes, le choix de la meilleure dépend fortement de l'application[15]. Les méthodes de correction de ligne de base les plus courantes sont :
Correction de l'échelle (scaling)Un signal mesuré x peut être affecté par un effet multiplicatif, ce qui signifie que ax peut être mesuré au lieu de x, avec a ≠ 1. Dans le domaine de la chromatographie, l'effet multiplicatif peut être dû à la quantité de produit analysé. Dans le domaine de la RMN, la dilution du produit analysé est responsable de l'effet multiplicatif. Dans le domaine du PIR, l'effet multiplicatif peut être dû à la géométrie de l'appareil de mesure ou à la taille des particules du produit. L'effet multiplicatif est incompatible avec les outils de l'algèbre linéaire. En effet, tout traitement de x par l'algèbre linéaire aboutit à une ou plusieurs opérations matricielles comme, par exemple, t = xTP, où P est une matrice de loadings. Si x est multiplié par a, le résultat t sera également multiplié par a. En d'autres termes, les effets multiplicatifs passent à travers les modèles linéaires. L'effet multiplicatif peut être traité en appliquant un logarithme au signal mesuré. Il faut pour cela qu'aucun autre effet tel qu'une ligne de base ne soit inclus dans le signal à traiter. L'utilisation de la normalisation est plus courante. La normalisation consiste à diviser toutes les variables du signal x par une fonction d de x, de telle sorte que d(ax) = ad(x). Ainsi, chaque ax conduira au même signal corrigé z = ax/d(ax) = x/d(x), quelle que soit la valeur de a. Bien que des méthodes de normalisation spectrale soient appliquées à chaque spectre individuel, certaines d'entre elles nécessitent l'ensemble des données pour calculer les facteurs de correction ; dans ce cas, le prétraitement ne doit pas être effectué avant la définition des ensembles d'étalonnage et de test et une attention doit également être portée en effectuant une validation croisée. Il existe différentes méthodes de normalisation :
Correction combinée de la ligne de base et de l'échelleLes méthodes combinant la réduction de ligne de base et la mise à l'échelle des spectres sont très utilisées. Ainsi :
De la même manière que pour les méthodes de scaling, les méthodes SNV et MSC ont tendance à diluer les zones porteuses d'information, comme les pics chimiques, sur l'ensemble des spectres. Ce problème est connu sous le nom de « fermeture » (en anglais : closure)[20]. Pour pallier ce problème, différentes méthodes alternatives ont été proposées[21],[22]. Elles reposent toutes sur l'idée d'estimer les effets additifs et multiplicatifs sur les parties des spectres affectées seulement par ces effets. Analyse de données (EDA = analyse exploratoire des données) : méthodes non superviséesLes méthodes non-supervisées ont pour but d'explorer un jeu de données, en mettant en avant les sources principales de variabilité, et en définissant les groupes formés par les échantillons. Méthodes de réduction de dimensionACPLa spécificité de l'ACP dans le cadre de la SPIR[Quoi ?], est de représenter les poids (loadings) de chaque composante principale sous forme de spectre. Autres méthodesCANDECOMP/PARAFAC (en)[style à revoir] ClusteringPrédiction d'une variable quantitative à partir de spectresLinéairesNon linéairesPLS locale (LWPLS, local PLS), ANN, CNN, SVM. Prédiction d'une variable qualitative à partir de spectres (reconnaissance, classification, discrimination)LinéairesPLS-DA. Non linéaireskNN, CAH, RF, SVM. Décomposition et résolution spectrale (inversion du modèle de Beer Lambert)Multivariate Curve Resolution - Asymmetric Least Squares (MCR-ALS)SIMPLEX. Méthode traitement signalICA. Méthodes issues de la télédétectionSIMPLEX. Sélection de variablesMéthodes particulièrement adaptées aux spectresCovSel, VIP, UVE. Détection de points atypiques dans le multi-variéUtilisation du T2 et Q. Quelques exemples d'applicationsUtilisation de la SPIR pour caractériser des matières complexes (plantes, aliments, déchets organiques, sols)
Références
|
Portal di Ensiklopedia Dunia