Data4job

Ressources humaines | 5 abonnés

Stage R&D - compréhension automatique de cvs photo

92000 Nanterre, France Stage
Publié le 13/03/2019

Description du poste

Nous avons développé un parseur de CV, c'est-à-dire un service capable d'analyser tout type de document (pdf, doc, docx, html, etc.) contenant un CV et d'en extraire le contenu structuré (JSON). En particulier toutes les informations de contact, les formations et expériences avec leurs dates et durées, les intitulés de postes, les écoles et entreprises. Ce composant est essentiel à nos produits, et nous le perfectionnons continuellement.


Un des axes d'amélioration est la gestion de contenus textuels enregistrés en tant qu'image.


Par exemple les CVs pris en photo, photocopiés, des fragments dont il est difficile d'extraire le texte (WordArt et titres stylisés, certains PDFs). Dans ce cas nous souhaitons utiliser des techniques d'OCR (optical character recognition) afin de « lire » le texte visuellement.





L'objectif du stage est de développer et intégrer cette chaîne d'OCR, en passant par les étapes suivantes :


- Recherche sur l'état de l'art et les problématiques en OCR,


- Prise en main, expérimentation et adaptation de l'algorithme retenu,


- Evaluation de la performance sur des bases de documents,


- Amélioration des performances par calibration et apprentissage,


- Développement d'une étape de traitement d'images pour préparer les photos à l'OCR,


- Intégration de l'OCR au parseur existant, pour le cas des document images pleine page,


- Intégration de l'OCR au parseur existant, pour le cas des documents mixtes (texte + images),


- Evaluation des performances sur la chaîne complète et améliorations itératives.

Profil recherché

Passionné d'informatique, curieux et autonome, vous souhaitez intégrer l'aventure d'une Startup, relever de nouveaux challenges et apprendre chaque jour. Nous apportons une importance particulière aux projets personnels que vous avez pu réaliser.





Le stagiaire idéal devra :


- Connaître les bonnes pratiques de développement et architecture logicielle,


- Avoir une appétence pour la recherche : curiosité et persévérance,


- Avoir déjà réalisé un projet logiciel d'un mois ou plus,


- Maîtriser au moins un langage de programmation,


- Maîtriser l'anglais technique à l'écrit,


- De préférence, avoir déjà utilisé linux, connaître le langage C et avoir réalisé un projet de recherche d'un mois ou plus (stage, projet scolaire...).

Présentation de l’entreprise

Chez Data4Job, notre vision est de simplifier le marché du travail grâce aux technologies de l'intelligence artificielle et de Big Data.





Lancée en 2015, l'équipe compte aujourd'hui 13 personnes basées à Châtillon (M13). Nous développons un outil de recrutement pour les entreprises et un coach virtuel de carrière pour les salariés, en nous appuyant sur une stack logicielle moderne : Node.JS, MongoDB, C++17 et Meteor.
Cette offre vous intéresse ?

Créez votre profil et envoyez directement votre candidature au recruteur.

Se connecter
Partager l’offre
Rechercher une autre offre
Vous n'êtes pas visible des recruteurs

Devenez visible des recruteurs pour être démarché sur des projets de recrutement et ajouter un CV à votre compte pour postuler plus rapidement.

Localisation de l’entreprise
Vous recrutez ?
Diffusez vos offres d’emploi auprès d’une large audience.
Recherchez des talents parmi nos 6,4 millions de membres.
En savoir plus