Stagiaire - Large Language Models pour la recherche d’information en language naturel (H/F)

Toulouse, France Stage (6 mois)

Le recrutement est fermé pour cette offre

À propos de IRT Saint Exupéry

À propos de IRT Saint Exupéry

L’Institut de Recherche Technologique (IRT) Saint Exupéry est un accélérateur de science, de recherche technologique et de transfert vers les industries de l’aéronautique et du spatial pour le développement de solutions innovantes sûres, robustes, certifiables et durables.

Nous proposons sur nos sites de Toulouse, Bordeaux, Sophia Antipolis et Montréal un environnement collaboratif intégré composé d’ingénieurs, chercheurs, experts et doctorants issus des milieux industriels et académiques pour des projets de recherche et des prestations de R&T adossés à des plateformes technologiques autour de 4 axes : les technologies de fabrication avancées, les technologies plus vertes, les méthodes & outils pour le développement des systèmes complexes et les technologies intelligentes.

Nos technologies développées répondent aux besoins de l'industrie, en intégrant les résultats de la recherche académique.

 3 raisons de nous rejoindre

  • Prendre part à des projets de recherche innovants, au service de la recherche technologique française et au profit de l'industrie implantée sur le territoire national et européen.

  • Vivre sa passion pour la technologie, se donner la liberté d’innover et développant son esprit pionnier et d’équipe !

  • Evoluer dans un environnement collaboratif intégré et multiculturel, en travaillant aux côtés des collaborateurs issus de la recherche académique ou de l’industrie: chercheurs, doctorants, ingénieurs, techniciens, etc.

Visitez en 360° nos plateformes technologiques sur Toulouse : https://storage.net-fs.com/hosting/6834310/4/

Le poste

Le stagiaire sera en charge du développement d'un système de recherche documentaire en exploitant les capacités des Large Language Models (LLMs) L'objectif principal est de permettre des interactions en langage naturel avec une base de données, allant au-delà des systèmes de requête conventionnels pour adopter une approche plus intuitive et centrée sur l'utilisateur. Cette initiative est conçue pour améliorer considérablement l'efficacité et la précision des processus de récupération de documents au sein de l'organisation.

Les responsabilités comprennent la création d'une chaîne de traitement de texte pour naviguer avec précision et extraire des informations pertinentes des documents techniques.

Pour mener à bien sa mission, le stagiaire devra explorer les dernières innovation de ces modèles de language,  notamment sur le fine-tunning de ces modèles pour améliorer la qualité des représentations extraites.
Pour optimiser la vitesse d'inférence, la mise en œuvre de certaines techniques sera nécessaire. Des stratégies visant à accélérer le processus d'inférence seront explorées et mises en place pour garantir la récupération rapide de l'information.

Le rôle comprend également l'utilisation de bases de données vectorielles et graphiques. Cela optimisera le processus de recherche, assurant une navigation rapide à travers un vaste éventail de documents.

Si le temps le permet, le projet pourrait s'étendre à la mise en œuvre d'un système de Génération augmentée par Récupération (RAG), qui vise à récupérer et résumer l’information extraite des documents.

Profil recherché

Etudiant(e) de niveau Bac+5 (Ingénieur, Master) en cursus Mathématiques appliquées ou Informatique scientifique, vous recherchez un stage de fin d'études. Vous disposez:

  • d'une grande maitrise de la programmation en Python

  • de solides connaissances en linux

  • de bases solides en Deep Learning

  • de connaissance de Pytorch

Détails sur le poste
Toulouse, France
Stage (6 mois)
Ingénierie
Propulsé parTaleez