Role overview
Tu rejoins la squad produit d'une grande entreprise pharma en charge d'un système IA agentique qui génère des insights marketing stratégiques en croisant plusieurs sources de données (littérature scientifique, veille concurrentielle, web analytics).
Ta mission : construire les frameworks d'évaluation et garantir la qualité des outputs à mesure que le produit scale.
Expérience hands-on en prompt engineering, évaluation LLM, fine-tuning
Maîtrise des systèmes RAG
What you'll work on
- Construire un golden dataset et une méthodologie de scoring (précision, pertinence, nouveauté, hallucination)
- Mettre en place un benchmark reproductible pour détecter les régressions
- Optimiser les prompts et l'architecture multi-agents
- Concevoir des méthodes de détection de nouveauté et de synthèse cross-sources
What we're looking for
- Python
- AWS (S3, Lambda, SageMaker, Bedrock)
- Snowflake
- LangChain / LlamaIndex
- Un plus : W&B / Weave, Docker, TypeScript, Cursor / Claude Code