Thèse de Maxime Metz : Application des méthodes du « big data » pour l’amélioration des algorithmes de PLS locales en chimiométrie

Thèse en cours

Application des méthodes du « big data » pour l’amélioration des algorithmes de PLS locales en chimiométrie

  • Date de démarrage : octobre 2018
  • Université : MUSE Montpellier Université d’Excellence / Montpellier SupAgro
  • Ecole doctorale :  GAIA, Montpellier
  • Discipline / Spécialité : Chimiométrie
  • Directeur(s) de thèse : Jean-Michel Roger, Irstea ITAP et Matthieu Lesnoff, Cirad SELMET
  • Encadrant(es)  : Nathalie Gorretta, Irstea ITAP, M. Lesnoff, Cirad SELMET, Florent Masseglia, Inria Zenith
  • Financement : #DigitAg – Irstea

Mots-clés : Agriculture de précision, Optimisation du rendement, échantillonage spatial

Résumé :

La spectrométrie proche infrarouge peut fournir d’énormes quantités de données à l’agriculture numérique. L’outil principal utilisé pour analyser les spectres NIR, est la régression PLS, qui permet de construire des modèles à partir d’un grand nombre de variables, même fortement corrélées. La méthode a prouvé sa pertinence pour les petites bases de données homogènes. Son extension aux bases de taille moyenne (<10 000 individus) est la «local-PLS» : elle détermine un voisinage de l’individu à prédire, puis réalise une PLS usuelle sur ce voisinage. Cette méthode combine la puissance de la méthode des k plus proches voisins et de la PLS. Cependant, elle n’est pas capable de traiter de grandes bases de données qui apparaîtront dans un futur proche. Les algorithmes local-PLS actuels utilisent tous des algorithmes k-NN séquentiels pour lesquels les temps de calcul deviennent irréalistes; d’autres algorithmes doivent être considérés. Paradoxalement, très peu de recherches ont été effectuées sur ce défi en chimiométrie. Notre idée est que les algorithmes d’indexation utilisés dans les big data pourraient lever ce verrou méthodologique. Nous proposons de considérer deux algorithmes de réduction de dimension et de recherche rapide utilisés par l’équipe Zenith du Lirmm-Montpellier pour traiter de grands ensembles de séries chronologiques (ayant une structure de données similaire aux spectres NIR) : le hachage (calcul de sketches) et l’iSax (Approximation Symbolic Aggregate). Le travail consistera en deux étapes: (1) une intégration “business as usual” des deux algorithmes dans l’algorithme local-PLS, (2) une optimisation des algorithmes prenant en compte la spécificité chimiométrique des spectres NIR. Les nouveaux algorithmes développés dans cette thèse amélioreront la capacité à prédire les variables physico-chimiques à partir de grandes bases de données NIRS hétérogènes, et trouveront des applications directes dans de nombreux domaines (plantes, aliments, sols, etc.).