Scalian
AI

Data Scientist Stagiaire – Génération de tests fonctionnels avec LLMs F H

Scalian · Toulouse, O, FR

Actively hiring Posted 17 days ago

Role overview

Vous êtes en Master 2 et cherchez un stage de Data Scientist (F/H) de 6 mois ?

Nous disposons au sein de chez Scalian d’un Lab Innovation nommé Insights. Il est le catalyseur des projets de R&D du groupe et est réparti sur l’ensemble de la France.

Contexte :

Les recherches sur l’utilisation des Grands Modèles de Langage (ou Large Language Models, LLMs) ont montré des résultats prometteurs dans la génération de code source ainsi que dans la création de cas de tests unitaires. Dans le domaine du software testing, l’un des défis encore non résolus consiste à exploiter les LLMs pour les activités précoces du cycle de vie des tests, telles que les tests fonctionnels. Malgré leurs succès initiaux, il n’est pas encore clairement établi quelle est l’efficacité réelle de ces modèles pour générer des tests fonctionnels conformes aux exigences.

SCALIAN Insights a mené plusieurs travaux visant à répondre à cette question, notamment en étudiant des facteurs tels que la stratégie de prompting (ou prompt engineering) et l’évaluation des tests générés sur des jeux de référence (benchmarks). La poursuite de ces travaux vise à explorer de nouvelles approches pour intégrer davantage de contexte - par exemple à partir de l’expression des besoins ou des spécifications fonctionnelles - en s’appuyant sur des techniques comme GraphRAG (Retrieval-Augmented Generation avec graphe de connaissances) ou encore sur la collaboration entre agents dotés de rôles spécifiques basés sur des LLMs (Mixture of Agents, MoA) et Model Contex Protocol (MCP).

[1] Junjie Wang et al., « Software Testing with Large Language Models: Survey, Landscape, and Vision » (arXiv, 4 mars 2024), http://arxiv.org/abs/2307.07221.

[2] Junlin Wang et al., « Mixture-of-Agents Enhances Large Language Model Capabilities » (arXiv, 7 juin 2024), http://arxiv.org/abs/2406.04692.

[3] https://modelcontextprotocol.io/docs/getting-started/intro

Vos missions s'articuleront autour des axes suivants :

  • Contribution au développement d’un pipeline pour générer des tests fonctionnels pour le framework Cypress avec des modèles LLMs
  • Développement d’un système de RAG pour enrichir les stratégies de prompt avec des documents fonctionnels (expression de besoins, spécifications fonctionnelles)
  • Développement d’un système d’agents basés sur des LLMs inspirés de l’architecture MoA appliqué à la génération de tests fonctionnels Cypress

What we're looking for

Elève ingénieur ou universitaire en dernière année de cursus BAC+5 en data science :

  • Connaissances en utilisation des modèles LLMs
  • Connaissances techniques : Python : Hugging Face Transformers, LangChain, AutoGen, MCP
  • Vous êtes curieux, méthodique, rigoureux et autonome

*Informations supplémentaires

Quelles seront les prochaines étapes ?**

  • 1er entretien avec le N+1
  • 2nd entretien avec la N+2

#LI-CM4

Tags & focus areas

Used for matching and alerts on DevFound
Fulltime Data Science Generative Ai Ai