Qu’est-ce que la Chimiométrie ?

Qu’est-ce que le Machine Learning ?

Quelles sont les différences et les similitudes entre la Chimiométrie et le Machine Learning ?

De notre point de vue, la définition de la Chimiométrie est un ensemble d’outils mathématiques et de méthodes statistiques permettant d’analyser des données multivariées, instrumentales ou non, et principalement de répondre à des problématiques multilinéaires, ou montrant une faible non linéarité.

La définition du Machine Learning pourrait se résumer à un ensemble de méthodes mathématiques et statistiques avancées pour l’analyse des données présentant des problématiques plus complexes, et en particulier grâce à des méthodes non linéaires.

A ce titre, la Chimiométrie peut être considérée comme un sous-ensemble du domaine du Machine Learning, qui est lui-même inclus dans le domaine de l’Intelligence Artificielle.

Machine LeaArning vs Chimoimétrie

La Chimiométrie

La Chimiométrie est une discipline qui utilise des méthodes mathématiques et statistiques pour analyser des données de manière optimale. Elle inclut les domaines de la modélisation mathématique (analyse de données multivariées) et les plans d’expériences.

Le développement historique de la chimiométrie depuis une vingtaine d’années s’est fait de pair avec le développement de nombreux capteurs, en particulier la spectroscopie proche infrarouge, et l’obtention de masses de données (spectroscopiques, physico-chimiques, sensorielles, etc).

Les méthodes de d’analyse de données linéaire (Analyse en Composantes Principales – ACP -, régression multivariée de type PLS, etc) ont toujours constitué le cœur de la Chimiométrie.

La chimiométrie englobe deux types de méthodes d’analyse de données multivariées :

  1. des méthodes dites exploratoires, ou non supervisées ou de « data mining », qui permettent de dégager des tendances ou des regroupements en clusters dans des données de façon non supervisée, c’est-à-dire seulement sur les données d’entrée, par exemple des mesures optiques,
  2. des méthodes supervisées, c’est-à-dire dans lesquelles les modèles sont basés sur les données d’entrée et de sortie (par exemple, les spectres vibrationnels et la composition chimique de l’échantillon à prédire) ; ces méthodes chimiométriques peuvent fournir des prédictions quantitatives (exemple : prédiction de concentrations chimiques) ou des prédictions qualitatives (exemple : discrimination de catégories de produits).

Ces dernières méthodes supervisées fournissant des prédictions qualitatives, appelées également méthodes d’identification, ont pour objectif de différencier des classes en fonction de mesures instrumentales réalisées sur des échantillons. Diverses méthodes existent dont les plus utilisées sont SIMCA (Soft Independent Modelling Class Analogy) ou la  PLS-DA (Partial Least Square Discriminant Analysis).

Le Machine Learning

Depuis quelques années, avec l’arrivée de base de données massives (Big Data, Objets connectés IoT – Internet of Things), de nombreuses méthodes de Machine Learning (en français, Apprentissage Automatique ou Apprentissage Machine) ont fait leur apparition.

Le Machine Learning s’est développé dans de nombreux domaines d’application, pour résoudre une tâche pratique, comme par exemple pour la reconnaissance d’objets (Pattern Recognition) en imagerie ou dans des textes (visages, schémas, langages naturels, écriture, formes syntaxiques…), pour l’aide aux diagnostics dans différents domaines (médical, analyse financière, industrie pharmaceutique, pétrochimique, agroalimentaire… ).

Ainsi, le Machine Learning peut être appliqué à différents types de données, tels que des graphes, des arbres, des courbes, ou plus simplement des données continues ou discrètes, mais aussi des données instrumentales, notamment celles issues de spectroscopie vibrationnelle (spectroscopie visible-proche infrarouge, infrarouge, Raman, etc). Généralement, ces bases de données sont constituées de très nombreuses observations (appelées objets, exemples ou échantillons), tellement nombreuses qu’on parle dans certains cas de « Big Data », et d’un grand nombre de variables observées.

Parmi les méthodes supervisées issues du Machine Learning, on retrouve notamment : les méthodes Support Vector Machines (SVM), les méthodes d’arbres de décision (CART, Forêts Aléatoire/Random Forests) ou encore les Réseaux de Neurones Artificiels (Artificial Neural Networks, ANN) , appelés maintenant « Shallow networks » en opposition aux « Deep networks » du Deep Learning.

Ils en parlent


« Ondalys, pour valider notre façon de travailler »

Jean GUILMENT, Arkema

Notre expertise au service de l’analyse de vos données

Forts d’une expérience de plus de 15 ans en chimiométrie et Machine Learning, en particulier appliquée aux mesures spectroscopiques, données analytiques, paramètres procédés et descripteurs sensoriels, les experts de nos équipes vous accompagnent à chaque étape de vos projets.

Besoin d’une formation sur mesure ?

Nos équipes étudient votre demande en détail pour vous proposer une formation personnalisée.

Inscrivez-vous
à la newsletter Ondalys

Français