Menu

Caroline COLLET

ROUEN

En résumé

Je travaille actuellement chez PERTIMM où je participe à l'amélioration fonctionnelle et technique du moteur de recherche interne. J'ai acquis un savoir avancé en linguistique et en optimisation.

Compétences :

TAL

✔ Recherche d'information
✔ Orthographe et distance de Levenshtein
✔ Lemmatisation (Hunspell, Snowball)
✔ Interprétation du langage naturel
✔ Opinion mining
✔ Text tiling et text mining

Moteur de recherche

✔ ElasticSearch (développement de plugins), Lucene, Solr
✔ Bonne connaissance des moteurs de recherche en général

Optimisation

✔ Parallélisation de systèmes
✔ Architectures MAP Reduce
✔ Gestion de files d'attentes
✔ Réduction mémoire de systèmes

R&D

✔ Rédaction de Crédit Impôt Recherche
✔ Lecture et exploitation de brevets (spécifications d'algorithmes, veille)
✔ Rédaction d'articles de recherche

Langages : C, Java, Ruby, Perl, Matlab, Flex/Bison

Environnements : Linux, Eclipse, SVN, GIT, Jenkins

Méthodologies : Cycle en V, Agile

Mes compétences :
Data mining
Java
C
Sémantique
Design Pattern
Big Data
Machine learning
Eclipse
Méthodes agile
Environnement
Jenkins
Svn
Matlab
Flex/bison
Ruby
Redaction d'articles
CIR
Brevets (veille et algorithmes)
Map reduce
Réduction mémoire
Files d'attente
Parallelisation
Solr
Lucene
Optimisation des moteurs de recherche
Elasticsearch
Orthographe
Recherche d'information
Snowball
Text tiling
Hunspell
Levenshtein
Github
Sentiment analysis
Text mining
Opinion mining
Perl
Linux

Entreprises

  • Pertimm - Ingénieure développement en linguistique et optimisation

    2014 - maintenant Projet moteur de recherche : Amélioration du moteur de recherche interne de PERTIMM au niveau de la linguistique et des performances. Développement dans le cœur même du moteur de recherche. Acquisition d'une expertise très forte dans le fonctionnement et la façon de développer et d'améliorer des moteurs de recherche.

    Développement sur le moteur de recherche d'ElasticSearch en vue de reproduire la linguistique et les performances du moteur interne de PERTIMM.

    Optimisations :

    ✔ Parallélisation de certaines parties du code existant
    ✔ Mise en place d'architectures MAP-REDUCE
    ✔ Gestion de files d'attente socket
    ✔ Réduction de l'utilisation mémoire du moteur de recherche

    Linguistique :

    ✔ Amélioration de la correction orthographique
    ✔ Amélioration de l'algorithme de distance de Levenshtein
    ✔ Lemmatisation du chinois
    ✔ Interprétation du langage naturel : gestion des dates, prix, tailles…
    ✔ Amélioration des algorithmes de recherche du moteur PERTIMM

    ElasticSearch :

    ✔ Développement d'un plugin de requête avec correction orthographique optimisée et désactivation du TF-IDF et de la normalisation
    ✔ Amélioration de la lemmatisation

    Environnement technique : Linux, C, Java, Flex/Bison, Eclipse, SVN, GIT, Jenkins,

    Organisation : Agile

    Article de recherche : C Collet, C Berland, SB Hamou and T Simonnet. "Toward a semantic based signage digital system: Mediactif." ICNS 2015 (2015): 25.
  • Cassidian - Stage Ingénieure en Machine Learning

    Blagnac 2013 - 2013 Projet de fin d'étude: Dans le cadre du projet européen TWIRL, détection d'opinion dans des tweets en vue de recommander des sites touristiques et des restaurants.

    Algorithmes asynchrones : Collecte de tweets

    Machine Learning :

    ✔ Tests d'opinion Mining : SVM, K-Means, Bayes
    ✔ Mise en place d'un système de détection d'opinion

    Environnement technique : Linux, Java, Eclipse, SVN, Gate,

    Organisation : Cycle en V

    Article de recherche : C Collet, A Pauchet and K Khélif. "Détection d’opinions sur des lieux touristiques dans des tweets." EGC 2014.
  • Qunb - Stage en linguistique

    2012 - 2012 Projet : Enrichissement des données en entrée du moteur de recherche utilisé par QUNB via une base de concept.

    Linguistique :

    ✔ Identification et extraction des noms propres et noms communs
    ✔ Recherche de concepts associés dans la base de connaissances DBpedia
    ✔ Enrichissement grâce aux synonymes et hyperonymes extraits de Dbpedia

    Environnement technique : Linux, Java, Solr, Eclipse, GIT

    Organisation : Agile
  • INSA de Rouen et CHU de Rouen - Projet scolaire de linguistique

    2012 - 2012 Projet certifié ISO 9001: Amélioration de la qualité du moteur de recherche interne

    Linguistique :

    ✔ Amélioration du processus de prétraitement des données
    ✔ Correction des erreurs liées au stemming, aux mots vides et aux doubles sens
    ✔ Mise en place d'une indexation statistique de documents complets

    Environnement technique : Linux, Java, Eclipse, SVN

    Organisation : Cycle en V

Formations

Réseau

Annuaire des membres :