Talks and posters

HyperPCA : à l’interface entre la théorie des matrices aléatoires et la spectroscopie du plasma induit par laser

July 05, 2023

Talk, SFPT-GH 2023, Paris, France

La spectroscopie du plasma induit par laser (« Laser-Induced Breakdown Spectroscopy », ou LIBS, en anglais) est une technique pour la cartographie multiélémentaire rapide et directe d’échantillons sous pression ambiante, sans aucune limitation quant à l’élément ciblé. Les données représentent des images hyperspectrales de la surface d’un échantillon : chaque pixel est un spectre d’émission élémentaire, où le nombre de canaux peut être très important (1k à 100k canaux). Cependant, les données de cartographie LIBS présentent deux particularités : un rapport signal/bruit intrinsèquement faible en raison des mesures uniques, et une dimensionnalité élevée en raison du grand nombre de spectres acquis pour l’imagerie. Ceci est d’autant plus vrai que la résolution latérale augmente : dans ce cas, le diamètre du spot d’ablation est réduit, de même que la masse ablatée et le signal d’émission, tandis que le nombre de spectres pour une surface donnée augmente. Par conséquent, l’extraction efficace d’informations physico-chimiques à partir d’un ensemble de données bruitées et volumineuses est un problème majeur. Des approches multivariées ont été introduites par plusieurs auteurs comme moyen de traiter de telles données, en particulier l’analyse en composantes principales (« Principal Components Analysis », ou PCA, en anglais) [1-2]. Cette technique est utile pour analyser les corrélations entre différents éléments, mais elle est limitée aux faibles rapports signal/bruit.

Trustworthiness of Laser-Induced Breakdown Spectroscopy Predictions via Simulation-based Synthetic Data Augmentation and Multitask Learning

June 13, 2023

Poster, ANIMMA 2023, Lucca, Italy

Laser-induced breakdown spectroscopy is a technique able to perform fast measurements in ambient air without any limitation on the targeted elements. It consists in focusing a laser beam on the surface of a sample in order to form a plasma and in analyzing the radiation emanating from its cooling. It is a versatile procedure used in various scenarios, such as nuclear decommissioning or fundamental physics experiments, for qualitative and quantitative spectral analyses. For the latter, the objective is usually to build a model relating experimental spectra to the concentration of the species of interest. This is based on the availability of a calibration set of known samples and can be done through a variety of supervised techniques. However, in the most straightforward implementation, models do not estimate to which extent an unknown sample is well represented by the calibration set. Hence, we do not know, in general, how reliable the prediction is. For this purpose, we build robust calibration models using deep convolutional multitask learning architectures to predict the concentration of the analyte, alongside additional spectral information as auxiliary outputs. Due to the experimental lack of training samples, we introduce a simulation-based data augmentation process to synthesize an arbitrary number of spectra for training, statistically representative of the experimental data. The secondary predictions are finally used to validate the model’s trustworthiness by taking advantage of the mutual dependencies of the parameters of the multitask neural networks: a statistical analysis of the outputs can be directly performed through a comparison with ground truth quantities. Such an end-to-end pipeline has a good ability in detecting anomalies and out-of-distribution samples without the need for a separate elemental analysis. Results on different types of materials, such as cement samples and alloys, show an improvement in the robustness (seen as homoscedasticity) and the trueness of the predictions, especially in the presence of noise and strong spectral interference in the spectra.

Machine Learning for Complete Intersection Calabi-Yau Manifolds

December 03, 2022

Poster, NeurIPS 2022 (workshop Machine Learning and the Physical Sciences), Ernest N. Morial Convention Center, New Orleans, USA (hybrid)

We describe the recent developments in using machine learning techniques to compute Hodge numbers of complete intersection Calabi-Yau (CICY) 3- and 4-folds. The main motivation is to understand how to study data from algebraic geometry and solve problems relevant for string theory with machine learning. We describe the state-of-the art methods which reach near-perfect accuracy for several Hodge numbers, and discuss extrapolating from low to high Hodge numbers, and conversely.

Helping AI Understand Physics. Trustworthy Approaches to Hyperspectral Imaging

October 15, 2022

Talk, Séminaire LVML, Palaiseau, France

Can trust be measured? Does a computer always know what to do? When dealing with experimental measurements of any kind, the ability to assess stability and trustworthiness of a machine learning model is key to create efficient analysis tools. In the case of hyperspectral data, knowledge of the physics underlying their generation is an inductive bias useful to assess the confidence of quantitative predictions. However, the reconstruction of a hyperspectral signal is often prevented by the presence of noise and strong spectral interference. Recent developments show that, under sensible assumptions, mathematical transformations of the data can ease the automatic extraction of information in complicated situations. In this talk, we review the state-of-the-art in applications of near-infrared and laser-induced breakdown spectroscopy, with a specific focus on trustworthy AI issues and semantic segmentation of hyperspectral images.

Computer Vision for Physics. Theory and Experiments

June 15, 2022

Talk, Webinaire AllegrIA, Saclay, France

Ces dernières années ont été marquées par un nombre toujours croissant d’applications de techniques basées sur l’apprentissage automatique à différents domaines théoriques et expérimentaux. Les progrès des algorithmes non supervisés ont permis l’exploration de certaines structures invisibles, tandis que les progrès de l’apprentissage profond ont rendu possible l’analyse de systèmes complexes. Un exemple de cette incroyable évolution est l’aptitude des ordinateurs à effectuer des tâches de détection et de segmentation d’objets imitant la vision humaine. Récemment, l’étude du comportement des algorithmes, que l’on trouve typiquement dans le cadre de la vision par ordinateur, a ouvert la possibilité d’applications dans les analyses qualitatives et quantitatives en physique. Dans ce séminaire, nous montrons le lien entre la théorie sous-jacente à certaines techniques supervisées et non supervisées et leur application aux données de la physique expérimentale. Nous préparons d’abord le terrain avec une application de vision par ordinateur de l’apprentissage profond à un problème mathématique afin de mieux illustrer les possibilités de l’intelligence artificielle. Nous passons ensuite à l’analyse de données expérimentales, avec une attention particulière pour la spectroscopie du plasma induit par laser. En détail, nous traitons de l’extraction non supervisée de cartographies élémentaires en présence d’un fort bruit de fond, et de la quantification de la confiance dans l’apprentissage profond en utilisant des réseaux de neurones multitâches pour l’étalonnage supervisé.

HyperPCA. Une méthode d’analyse innovante pour l’imagerie hyperspectrale

May 16, 2022

Poster, Journées Scientifiques de l’ISAS, Saclay, France

Contexte

Le projet CAMELIA (CArtographie Multi-Élémentaire par LIBS et Intelligence Artificielle, PTC-ID 2021-2022) porte sur la cartographie multi-élémentaire à l’échelle micrométrique d’échantillons par spectroscopie de plasma induit par laser (« Laser-Induced Breakdown Spectroscopy », ou LIBS, en anglais). Cette technique utilise un faisceau laser focalisé sur la surface d’un échantillon pour créer un plasma dont l’émission est caractéristique des éléments présents. Des cartographies en deux dimensions de la surface sont obtenues en déplaçant l’échantillon à chaque tir du laser : chaque pixel de la cartographie correspond à un spectre, qui contient l’information sur les éléments présents dans le plasma d’ablation. Cependant, cette technique a un rapport signal/bruit intrinsèquement faible, dû à l’utilisation d’un seul tir laser par cratère pour augmenter la résolution latérale. Elle présente également une dimensionnalité très élevée, liée au nombre de cratères nécessaires pour cartographier une surface donnée. Par conséquent, l’extraction de l’information physico-chimique de ces données fortement bruitées et de grande dimension, est un enjeu majeur.

Objectifs

Dans CAMELIA, on développe des techniques basées sur l’apprentissage automatique et l’intelligence artificielle, pour exploiter efficacement le signal. L’objectif est de mettre au point une méthode pour s’affranchir au maximum du bruit des données et pour extraire le signal spectroscopique. Cette technique doit permettre la reconstruction de la distribution des éléments chimiques sur la surface de l’échantillon. Par ailleurs, la méthodologie doit être interprétable sur le plan spectroscopique et physico-chimique, et non supervisée, car aucune connaissance a priori des échantillons ne doit être requise.

Méthodologie

Dans le domaine de la cartographie LIBS, outre la méthode usuelle d’exploitation des spectres à partir l’intensité de raies prédéfinies, l’Analyse en Composantes Principales (ACP) a été proposée par plusieurs auteurs car elle permet de fournir des résultats interprétables et de façon non supervisée [1]. Cette méthode permet de cartographier en deux dimensions la distribution des éléments chimiques. La méthodologie proposée est basée sur des développements récents de l’ACP [2], qui ont montré des résultats prometteurs pour la réduction du bruit et la reconstruction du signal. Pour résoudre les problèmes soulevés par la spécificité des données de cartographie LIBS, nous avons proposé dans CAMELIA la technique HyperPCA [3, 4], basée sur le couplage d’une transformée en ondelettes pour la création d’une représentation parcimonieuse des données et la résolution des interférences spectrales, et d’une approche basée sur une fonction noyau pour la réduction du bruit. Cette procédure permet de s’affranchir de la présence d’une distribution du bruit aléatoire pour des jeux de données de grande dimensionnalité : cette configuration est typique de la cartographie LIBS et de l’imagerie hyperspectrale, ce qui permet l’exploitation de cette méthode. Notre démarche a donc consisté à comparer les résultats obtenus par l’approche univariée usuelle, par l’ACP et par l’HyperPCA, sur des jeux de données simulées et expérimentales.

Résultats

L’HyperPCA fournit une plus grande quantité d’information, avec une meilleure qualité, par rapport à la méthode usuelle et par rapport à l’ACP : on obtient un grand nombre de composantes lisibles même en présence d’un rapport signal/bruit très faible. De plus, l’utilisation d’une transformée en ondelettes permet de capturer les propriétés physiques des profils des raies d’émission. On observe enfin que les composantes calculées par HyperPCA sont souvent mono-élémentaires, ce qui permet d’obtenir des cartographies plus facilement interprétables.

Conclusion et perspectives

L’HyperPCA a été introduite dans le projet CAMELIA pour l’analyse des données hyperspectrales (LIBS en particulier). L’algorithme proposé montre des améliorations significatives par rapport aux méthodes de l’état de l’art, pour l’extraction de l’information physico-chimique, puisqu’il peut être employé en présence d’un rapport signal/bruit très faible. La quantité d’information récupérée et la qualité des composantes principales sont les avantages les plus évidents de cette technique. L’HyperPCA permet de grouper les raies d’émission dans les composantes par élément chimique, ce qui donne des cartographies facilement interprétables en termes de contributions mono-élémentaires. En perspective, on peut envisager d’appliquer cette approche à l’analyse quantitative par LIBS, car elle offre une méthode de réduction de dimensionnalité et d’extraction de composantes de très bonne qualité. Il serait également intéressant d’explorer d’autres applications de l’HyperPCA pour des tâches de segmentation d’image, ou encore d’étudier des méthodes plus avancées, comme l’ACP tensorielle, pour tenir compte de la distribution spatiale des données dans les cartographies.

Références

  • [a] R. Finotello, M. Tamaazousti and J.-B. Sirven, « Méthodes d’analyse en composantes principales innovantes pour l’imagerie hyperspectrale », Séminaire des 60 ans de la CETAMA, 19 – 21 octobre 2021, Nîmes, France
  • [b] R. Finotello, M. Tamaazousti and J.-B. Sirven, « HyperPCA: An Advanced Framework of Principal Components Analysis for Hyperspectral Images », Séminaire annuel PE-PTC, 22 – 24 novembre 2021, Grenoble, France
  • [c] R. Finotello, M. Tamaazousti and J.-B. Sirven, « Sparse Representations and Kernel-based PCA », EMSLIBS 2021, 29 novembre – 2 décembre 2021, Gijón, Espagne
  • [1] L. Jolivet et al., “Review of the recent advances and applications of LIBS-based imaging,” Spectrochimica Acta Part B: Atomic Spectroscopy 151 (2019) 41–53. doi:10.1016/j.sab.2018.11.008.
  • [2] M. E. A. Seddik, M. Tamaazousti, and R. Couillet, “A kernel random matrix-based approach for sparse PCA,” 2019. https://openreview.net/forum?id=rkgBHoCqYX

Deep Multi-task Mining Calabi-Yau Manifolds

April 27, 2022

Talk, Learning to Discover 2022, Orsay, France

Computing topological properties of Calabi-Yau manifolds is a challenging mathematical task. Recent years have witnessed the rising use of deep learning as a method for exploration of large sets of data, to learn their patterns and properties. This is specifically interesting when it comes to unravel complicated geometrical structures, as well as in the development of trustworthy AI methods. Motivated by their distinguished role in string theory for the study of compactifications, we compute the Hodge numbers of Complete Intersection Calabi-Yau manifolds using deep neural networks. Specifically, we introduce a regression architecture, based on GoogleNet and multi-task learning, capable of mining information to produce highly accurate simultaneous predictions. This shows the potential of deep learning to learn from geometrical data, and it proves the versatility of architectures developed in different contexts.

Applying Machine Learning to String Theory

December 22, 2021

Lecture, XVII Avogadro Meeting, Firenze, Italy

In these lectures, we present an introduction to neural networks and their interest for physics and mathematics. We also show several relevant applications of deep learning in the field of theoretical physics. More information can be found in the GitHub repository.

Sparse Representations and Kernel-based PCA: Powerful Tools to Extract Elemental Maps from Noisy Data Obtained in LIBS Mapping of Materials

November 30, 2021

Talk, EMSLIBS 2021, Online session

Laser-induced breakdown spectroscopy (LIBS) is a preferred technique for fast and direct multielemental mapping of solid samples under ambient pressure, with a lateral resolution of a few µm. LIBS mapping data have two peculiarities: an intrinsically low signal-to-noise ratio due to single-shot measurements, and a high dimensionality due to the elevated number of spectra acquired. The extraction of physico-chemical information from a noisy and large dataset is therefore a major issue. Multivariate approaches were introduced as a means to cope with such data, particularly using Principal Component Analysis (PCA). Yet, PCA is known to present theoretical constraints to the consistent reconstruction of the dataset, and it is therefore limited to efficiently interpret LIBS mapping data. We introduce a new analysis strategy, called DWT-kPCA, based on a sparse representation of the data using Discrete Wavelet Transform and kernel-based sparse PCA to remove noise from the data and consistently reconstruct the spectroscopic signal. We show that the method presents advantages both in quantity and in quality of the information recovered, thus improving the physico-chemical characterisation of analysed surfaces.

Algebraic Geometry and Computer Vision: Inception Neural Network for Calabi-Yau Manifolds

August 26, 2021

Talk, DANGER Workshop, Online session

Computing topological properties of Calabi-Yau manifolds is, in general, a challenging mathematical task: traditional methods lead to complicated algorithms, without expressions in closed form in most cases. At the same time, recent years have witnessed the rising use of deep learning as a method for exploration of large sets of data, to learn their patterns and properties. This is specifically interesting when it comes to unravel complicated geometrical structures, as it is a central issue both in mathematics and theoretical physics, as well as in the development of trustworthy AI methods. Motivated by their distinguished role in string theory for the study of compactifications, we compute the Hodge numbers of Complete Intersection Calabi-Yau (CICY) manifolds using deep neural networks. Specifically, we introduce new regression architectures, inspired by Google’s Inception network and multi-task learning, which leverage the theoretical knowledge on the inputs with recent advancements in AI. This shows the potential of deep learning to learn from geometrical data, and it proves the versatility of architectures developed in different contexts, which may therefore find their way in theoretical physics and mathematics for exploration and inference.

Computer Vision and Algebraic Geometry: AI for Theoretical Physics

July 20, 2021

Poster, IDAI 2021, Online session

We rephrase a central problem in algebraic geometry and theoretical physics as a computer vision task. Leveraging knowledge of the physical data with the introduction of architectures inspired by Google’s Inception network, we reach almost perfect accuracy on the predictions. We thus prove the versatility of the AI models and their reliability in making accurate physical predictions.

Intelligenza Artificiale tra Geometria e Fisica

May 27, 2021

Talk, Pop Science Encounters for High Schools, Online Session

Seminar on Artificial Intelligence for students of the Italian high school Escuela Alessandro Manzoni in Buenos Aires, Argentina.

Algebraic Geometry and Computer Vision: Inception Neural Network for Calabi-Yau Manifolds

May 05, 2021

Talk, Seminari di Algebra e Geometria Algebrica - Dipartimento di Matematica dell'Università di Torino, Online session

Computing topological properties of Calabi-Yau manifolds is, in general,a challenging mathematical task: traditional methods lead to complicated algorithms, without expressions in closed form in most cases. At the same time, recent years have witnessed the rising use of deep learning as a method for exploration of large sets of data, to learn their patterns and properties. This is specifically interesting when it comes to unravel complicated geometrical structures, as it is a central issue both in mathematics and theoretical physics, as well as in the development of trustworthy AI methods. Motivated by their distinguished role in string theory for the study of compactifications, we try to compute the Hodge numbers of Complete Intersection Calabi-Yau (CICY) 3-folds using deep neural networks. We focus on architectures involving convolutional layers, as most modern applications (both in research and in the industry) profit from having the shared parameters for feature creation and recognition of patterns in the input. As such, we map the original task to a computer vision problem, reminiscent of object identification. We introduce a new regression neural network, inspired by Google’s Inception network, which leverages the theoretical knowledge on the inputs, with the recent advancements in AI. As a result, we reach 97\% of accuracy in the prediction of h1,1 with just 30\% of the available data for training, and almost perfect accuracy with 80\% training ratio, outperforming by a large margin previous results. This shows the potential of deep learning to learn from geometrical data, and it proves the versatility of architectures developed in different contexts, which may therefore find their way in theoretical physics and mathematics for exploration and inference.

An AI Perspective on Phenomenology and Strings

March 11, 2021

Talk, ISAS seminars - CEA, Paris-Saclay, Saclay, France

Particle physics and cosmology are fascinating topics both from an experimental point of view and a theoretical perspective. The balance between theoretical predictions and physical evidence is however delicate and usually requires contributions from several research areas. In the effort to find a unified description of fundamental forces of nature, the framework of String Theory provides some of the needed tools. We present how hints of experimental evidence of particle physics might be recovered using different mathematical models, and how cosmological singularities such as the Big Bang can find some explanations inside a string theory.

Inception Neural Networks for Calabi-Yau Manifolds

December 21, 2020

Talk, XVI Avogadro Meeting, Online session

In this talk, still online due to the COVID-19 pandemic, we introduce a new neural network architecture, inspired by Google’s Inception network, capable of predicting the Hodge number $h^{1,1}$ with more than $99\%$ of accuracy. The results represent a large improvement on previous attempts at the same task, by increasing the reached accuracy by more than $20\%$.

Time Dependent Defect CFT and Excited Spin Fields

May 27, 2020

Poster, Cortona Young 2020, Online session

In this video-poster, presented online due to the COVID-19 pandemic, we present a new method to compute amplitudes in the presence of excited spin fields, without resorting to bosonisation. We introduce point-like defects on the open superstring worldsheet, and we show that, though time dependent, the theory is still conformal.

Spin Fields as Point–like Defects on the Worldsheet

December 19, 2019

Poster, XV Avogadro Meeting - Università Federico II, Napoli, Italy

We show a new method to compute the correlator of an arbitrary number of (excited) spin fields based ona time dependent defect CFT procedure, with the possibility to extend it to (excited) twist fields, both in the Abelian and non Abelian cases

Exploring Particle Physics in 2D BCFT: D-branes, Twist Fields and Defect CFT

September 30, 2019

Talk, Ph.D. midterm seminar - UniTO, Torino, Italy

In this short seminar for the midterm of the Ph.D. programme, we explore topics on particle physics seen from the perspective of 2D BCFT and open strings. We build a Standard Model-like scenario with semi-phenomenological properties using intersecting D-branes in $\mathrm{SO}(4)$ at angles and time-dependent defects. We then study the properties of the arising non Abelian twist fields and Abelian spin fields.