Jacques-Henri SUBLEMONTIER (CEA Saclay à Gif-sur-Yvette )

En résumé

[jh.sublemontier.free.fr] (mise à jour asap)

Je suis actuellement docteur en informatique (thèse soutenue le vendredi 07 décembre 2012) dans le domaine de la fouille de données, en particulier l'analyse exploratoire et la classification. Mes recherches portent sur le développement d'outils permettant de synthétiser une multitude d'informations en un plus petit ensemble cohérent avec les données d'origine et plus interprétable pour un utilisateur confronté à sa masse de données.

Mot-clés : Classification non supervisée (Clustering), Analyse de données, Multi-vues, Multi-way (Tableaux multiples), Techniques d'ensemble (en classification non supervisée), Clustering semi-supervisé, Clustering alternatif, Clustering collaboratif (Clustering = Segmentation)

Mes compétences :
Apprentissage automatique
Réseaux
Reconnaissance de formes
Intelligence artificielle
Analyse de données
Développement logiciel
Web sémantique
Optimisation
Clustering
Programmation
Analyse numérique
Recherche opérationnelle
Statistiques
Bureautique
Architecture des ordinateurs
Théorie des graphes
Système d'information
Bases de données
Compilation
Algorithmique
Génie logiciel
Théorie des langages
Parallélisme
Systèmes

Entreprises

CEA Saclay - Ingénieur Chercheur
Gif-sur-Yvette 2014 - maintenant [Spécialiste en Fouille de données et Big Data - ouvert aux collaborations]

- Analyse non supervisée de traces GPS ; définir des comportements et des ruptures de comportements spatio-temporels, les détecter et les visualiser (KML) pour l'analyse de la mobilité (volume)
- Analyse non supervisée de métagénomes (analyse de séquences ADN) ; dresser une cartographie bactérienne du microbiote dans le contexte de la détection d'espèces pathogènes pour la santé (volume)
- Analyse supervisée en classification et régression pour le contrôle qualité et la sûreté (nucléaire) ; prédiction de rebuts en maintenance prédictive, contrôle de l'intégrité de tubes de générateurs de vapeur de centrales nucléaires par courants de Foucault
- Traitement temps-réel de paquets (Electronic Product Codes) ; calcul à la volée d'inventaires et tracking en logistique (vélocité et volume)
- Analyse de tweets ; établir des profils de pannes pour les anticiper dans le secteur ferroviaire (H2020, ingestion de tweets, analyse de textes, analyse de graphes, détection de communautés, interactions pannes-stations, profils temporels de déclarations/clôtures de pannes)
- Animation de groupes de travail et contribution à des projets H2020, rédaction de rapports scientifiques et techniques, d'articles de recherche, encadrement de thèse
CEA Saclay - Ingénieur Chercheur en Big Data Mining
Gif-sur-Yvette 2013 - 2014 [Mission -- Implémentation efficace d'algorithmes d'analyse de données]
Sujet : Fouille de données spatiales et temporelles massive pour l'analyse de données télécoms
- CDD
- Statut : Ingénieur de Recherche
- Responsabilité du projet : Michaël Aupetit
- Travail au sein du LADIS (Laboratoire d'Analyse de Données et d'Intelligence des Systèmes) du département DM2I de l'institut LIST de la DRT (Direction de la Recherche Technologique)

L'objectif du contrat était de mettre en place un ensemble d'outils d'analyse à grande échelle pour données de télécommunications en se basant sur l'écosystème Hadoop et MapReduce.
Université d'Orléans, LIFO - Attaché Temporaire d'Enseignement et de Recherche
2011 - 2013 [Mission -- Thèse de doctorat]
Sujet : Classification non-supervisée : de la multiplicité des données à la multiplicité des analyses

Fort des études bibliographiques réalisées ainsi que de la proposition de quelques contributions en Fouille de Données multi-vues (classification non-supervisée), j'ai choisi d'élargir légèrement mon sujet de thèse. Je m'intéresse désormais à la classification non-supervisée (clustering) dans un contexte de multiplicité en général :
- la multiplicité des données, sujet d'origine ;
- la multiplicité des analyses et la collaboration entre celles-ci.

Des propositions concernant ce second point, conscientes des applications concrètes, sont apparues il y a plus d'une décennie en Apprentissage Automatique à travers le problème du clustering d'ensemble. L'idée est de construire un ensemble de classifieurs non supervisés sur des données, et de fusionner les différents résultats par vote, afin d'atteindre un consensus. Cela permet dans certains cas, d'améliorer la robustesse de l'analyse, et de respecter des principes de décentralisation des calculs et de respect de la confidentialité des données. Cette problématique est en réalité une réactualisation de problèmes plus anciens de recherche de partition médiane parmi un profil de partitions, étudié très tôt déja, notamment par la communauté de Recherche Opérationnelle. Suivant l'actualité, et avec pour objectif d'exploiter au mieux les descriptions des données, les problématiques de clustering d'ensemble se sont développées davantage pour devenir des méthodes collaboratives, autorisant la réévaluation des clusterings maintenus dans l'ensemble. Ces approches permettent d'atteindre plusieurs solutions de consensus simultanément, mais laisse la possibilité d'envisager d'autres objectifs. Ainsi, j'ai étudié notamment l'utilisation de tels mécanismes de collaboration afin d'obtenir des clusterings alternatifs. Ce domaine vient d'émerger en fouille de données et consiste à apporter à un utilisateur de la diversité dans l'analyse de ses données.
LIFO - Université d'Orleans - Département d'informatique - Vacataire BIATOSS
2008 - 2008 [Mission -- Etude/Analyse]
- Stage de recherche de Master 2 mention Informatique, spécialité IPVGCA : Informatique, Parallèlisme, Vérification, Graphes, Contraintes et Apprentissage.
- Financement par l'ANR (Agence Nationale pour la Recherche) dans le cadre du projet GD2GS (from Genomic Data To Graph Structure).
- Statut : Assistant ingénieur
- Encadrement : Guillaume Cleuziou (MCF), Lionel Martin (MCF)
- Travail au sein de l'équipe CA (Contraintes et Apprentissage) du LIFO (Laboratoire d'Informatique Fondamentale d'Orléans).

L'objectif de ce stage de recherche a été de réaliser une étude bibliographique de plusieurs approches de classification automatique non-supervisée multi-modales ou multi-vues. Fort de cette étude, l'étape suivante a été de réfléchir à une nouvelle approche pour traiter les données multi-vues. Les différentes tâches réalisées ont alors été les suivantes :
- analyse en profondeur de plusieurs approches de classification multi-vues.
- acquisition de différents formalismes et type de modélisation et de résolution pour le traitement de données multi-vues : optimisation (convexe et non convexe, et algorithmes classiques), statistique (modèles de mélanges, modèle graphiques (champs combinatoires de Markov) et estimation par Espérance/Maximisation) et ensembles flous (clustering flou).
- conception d'une nouvelle approche multi-vues basée sur le clustering flou, preuve de convergence et optimalité locale.
- rédaction scientifique d'un rapport de stage complet décrivant l'état de l'art réalisé ainsi que le nouveau modèle proposé.

Ces travaux furent l'occasion d'apporter à l'équipe Contraintes et Apprentissage du LIFO un premier ensemble de référence pour une problématique nouvelle et furent les prémisses de ma thèse de recherche débutée peu de temps après.
LIFO - Université d'Orleans - Département d'informatique - Doctorant et allocataire moniteur
2008 - 2011 [Mission -- Thèse de doctorat (en cours)]
Sujet : Méthodologies de classifications sur données multimodales.

La tâche de classification non supervisée est fondamentale en informatique, et dans bien d’autres domaines où l’analyse de données tient une place prépondérante. Les techniques de classification n’ont cessé de se développer depuis les travaux fondateurs des années 60, mais ces techniques visaient à regrouper des données dites classiques décrites par une unique représentation. La prise en compte de données complexes de type multi-représentées, où les données sont décrites par plusieurs représentations ou points de vues, n’a été introduite que récemment.
Or le besoin d’analyser ces données ne cesse de croître, par exemple en biologie, où l'on cherche à retrouver des ensembles de gènes qui se co-expriment, ou encore en recherche d’information sur le web.

Le sujet de ma thèse concerne le regroupement de ce type de données. C'est une tâche d’apprentissage automatique, de reconnaissance de formes, de fouille de données, délicate, ambitieuse et d’actualité. Le développement de modèles, d’algorithmes et plus généralement de formalisation originale et fondamentalement solide est nécessaire pour faire de cette étude une contribution significative dans le domaine.
LIFO - Université d'Orléans - Vacataire BIATOSS
2007 - 2007 [Mission -- Etude et Développement]
- Mission non obligatoire financée comblant la période libre entre la fin du Master 1 et le début du Master 2 recherche
- Financement par l'ANR (Agence Nationale pour la Recherche) dans le cadre du projet GD2GS (from Genomic Data To Graph Structure).
- Statut : Assistant ingénieur
- Encadrement : Guillaume Cleuziou (MCF)
- Travail au sein de l'équipe CA (Contraintes et Apprentissage) du LIFO (Laboratoire d'Informatique Fondamentale d'Orléans).

La mission qui m'a été accordée consistait en l'étude et le développement d'une approche de classification automatique recouvrante. j'ai ainsi réalisé un travail d'étude et de recherche comprenant :
- l'étude approfondie d'un algorithme de recouvrement MOC (Model-based Overlapping Clustering) afin d'enrichir la base de connaissance de l'équipe sur le domaine de la classification automatique recouvrante.
- l'étude et la pratique (en autodidacte) d'un nouveau langage de programmation : R, connu des statisticiens comme une alternative libre au langage S et non utilisé auparavant par l'équipe.
- l'implémentation de MOC en R, ainsi que OKM (K-moyennes recouvrant), algorithme conçu par l'équipe.
- la réalisation d'un protocole expérimental pour l'application de MOC et OKM sur des données génomiques d'expression de gènes (puces à ADN) issues du projet ANR.

L'ensemble de ces travaux a conduit à une publication dans la communauté scientifique d'extraction et gestion de connaissances (EGC 2008), actée en début de ma seconde année de Master. Ces travaux ont aussi été l'occasion de participer, au sein de l'équipe, à la découverte et maîtrise d'outils issus de la Statistique (les modèles de mélanges et l'estimation par Espérance-Maximisation).
LIFO - Université d'Orléans - Département d'informatique - Stagiaire
2007 - 2007 [Mission -- Etude et Développement]
- Stage d'initiation à la recherche de Master 1
- Pas de financement.
- Encadrement : Guillaume Cleuziou (MCF)
- Travail au sein de l'équipe CA (Contraintes et Apprentissage) du LIFO (Laboratoire d'Informatique Fondamentale d'Orléans).

Durant ce stage, j'ai réalisé une étude bibliographique de deux approches de clustering inconnues de l'équipe :
- DBScan : Density Based Scanning qui est une approche par partitionnement strict.
- CbC : Clustering by Committee qui est une approche recouvrante (l'intersection des parties de la partition objectif est non vide).

Les travaux réalisés pendant ce stage concernaient :
- l'étude approfondie des deux approches.
- la proposition d'une extension recouvrante à DBScan, ainsi qu'un ensemble de résultats prouvant les limitations de ce recouvrement.
- l'implémentation de CbC en JAVA ainsi que des tests expérimentaux préliminaires sur des données textuelles.
- la réalisation d'un rapport d'étude et de recherche sur les différents concepts acquis et réalisations effectuées.

Ce stage fût ma première expérience de recherche et a grandement contribué à m'investir dans cette voie, ainsi que dans cette thématique de recherche : Apprentissage automatique (Machine Learning) et Fouille de données (Data Mining).
AFI 45 - Stagiaire en Développement Internet/Intranet
2006 - 2006 [Mission -- Développement]
Réalisation d'un espace intranet à accès restreint accessible en ligne, pour une Fédération d'associations (la Fédération Nationale des Jardins Familiaux). L'espace intranet devait s'intégrer parfaitement au coeur d'un site basé sur le CMS (content management system ou SGC pour système de gestion de contenu) Joomla! basé sur l'environnement de développement et déploiement WAMP (Windows, Apache, MySQL, PHP). Le travail fût notamment réalisé en collaboration avec un graphiste pour concevoir les bannières respectant la charte graphique de la Fédération.

Formations

Université Orléans
Orleans 2006 - 2011 Informatique

Master/Doctorat
Université Le Havre (Le Havre)
Le Havre 2005 - 2006 Informatique

Licence 3
Université Tours Francois Rabelais (Tours)
Tours 2002 - 2005 Mathématiques/Physique/Informatique

DEUG MIAS

Jacques-Henri SUBLEMONTIER

En résumé

Entreprises

CEA Saclay - Ingénieur Chercheur

CEA Saclay - Ingénieur Chercheur en Big Data Mining

Université d'Orléans, LIFO - Attaché Temporaire d'Enseignement et de Recherche

LIFO - Université d'Orleans - Département d'informatique - Vacataire BIATOSS

LIFO - Université d'Orleans - Département d'informatique - Doctorant et allocataire moniteur

LIFO - Université d'Orléans - Vacataire BIATOSS

LIFO - Université d'Orléans - Département d'informatique - Stagiaire

AFI 45 - Stagiaire en Développement Internet/Intranet

Formations

Université Orléans

Université Le Havre (Le Havre)

Université Tours Francois Rabelais (Tours)

Réseau

Armelle LECAS

Aurore DUPONT-CHAUVET

Delphine TAFFLET

Jean Christophe PITTET

Sofia BOUCHDOUG

Sophie VERGÈS

Zied JRAB