Role overview
Data Scientist (H/F)
Stage
*Rejoignez le Groupe INTESCIA, leader de la Business Intelligence en Europe !
What you'll work on
- Un groupe en pleine expansion, reconnu pour son expertise et ses solutions à forte valeur ajoutée.
- Une culture d’innovation, où la créativité et l’amélioration continue sont au cœur de notre ADN.
- Des équipes passionnées et engagées, évoluant dans un environnement stimulant et collaboratif.
What we're looking for
OCR – Extraction et structuration de texte
Étudier et comparer différentes solutions OCR : Tesseract, EasyOCR, Google Vision API, etc.
Mettre en place une pipeline robuste d’extraction depuis des PDF hétérogènes
Nettoyer, structurer et normaliser les textes extraits
Gérer des cas complexes :
- Documents scannés
- Signatures
- Tableaux
- Colonnes multiples
- Qualité variable des scans
NER – Extraction d’entités juridiques
Développer un modèle de Named Entity Recognition (NER) pour identifier automatiquement :
- Dénomination sociale
- Numéro SIREN / SIRET
- Dirigeants
- Dates d’événements
- Types d’actes (création, modification, dissolution, fusion, etc.)
Tester et comparer différentes approches :
- Modèles pré-entraînés (SpaCy, HuggingFace, etc.)
- LLM récents (ex : Gemma)
- Méthodes hybrides inspirées d’approches modernes d’extraction structurée
Évaluer les performances (précision, rappel, F1-score) et proposer des optimisations