Postée il y a 7 heures
Activités
En tant que stagiaire Ingénieur Machine Learning / Data Scientist spécialisé sur NLP H/F, l'objectif du stage serait d'étudier l'état d'avancement des grands modèles de langage (LLM) et des modèles de langage visuel (VLM) adaptés pour effectuer de l'OCR. Vous serez amené à extraire des informations pertinentes à partir de PDF en utilisant des modèles open source, dans le but de conserver une technologie de pointe. Un scénario idéal serait de le tester sur des bases de données internes et externes pour comparer plusieurs modèles et rapporter les résultats dans une publication scientifique à la fin du stage.
Vous évoluerez au sein d'une équipe de professionnels confirmés et auprès d'un tuteur-coach, le référent de votre futur métier. Un accompagnement individualisé vous permettra de favoriser votre autonomie et de vous mener à votre diplôme !
Contexte et environnement
Dans le cadre du projet d'extraction de données à partir de rapports, l'objectif du projet est de créer des modèles pour extraire des données à partir de fichiers PDF, Word, Texte et de tester différents modèles LLM et VLM pour effectuer la tâche OCR. L'étape suivante consistera à extraire des informations à partir de divers types de structures dans les rapports (tableaux, graphiques).
Avec l'évolution des LLM dans le contexte de l'IA documentaire, il est important de comparer différents modèles avant de les utiliser pour la production.
est une compagnie multi-énergies mondiale de production et de fourniture d’énergies : pétrole et biocarburants, gaz naturel et gaz verts, renouvelables et électricité. Ses 105 000 collaborateurs s'engagent pour une énergie toujours plus abordable, propre, fiable et accessible au plus grand nombre. Présent dans plus de 130 pays, TotalEnergies inscrit le développement durable dans toutes ses dimensions au cœur de ses projets et opérations pour contribuer au bien-être des populations.