L'apprentissage auto-supervisé (self-supervised learning - SSL) est un paradigme d'apprentissage automatique utilisant les données elles-mêmes comme source de supervision.
Dans le cas de données audio, les représentations induites par ces modèles peuvent être utilisées comme données d'entrée afin d'entraîner des modèles sur des tâches aussi diverses que la reconnaissance automatique de la parole, la reconnaissance de locuteur, ou la détection d'événements sonores.
Les données audiovisuelles de l'INA, bien que non annotées mais possédant une volumétrie conséquente, pourraient bénéficier de la construction d'un modèle auto-supervisé. Celui-ci permettrait de tirer parti de la spécificité de ces données afin d'entraîner ou de finetuner des modèles supervisés sur des problématiques audios.
L'objectif de ce stage est de réaliser un état des lieux sur l'apprentissage et l'évaluation de modèles SSL appliqués aux données de l'INA. Ce projet inclut l’évaluation de modèles pré-existant mais aussi l'entraînement de nouveaux modèles à partir d’architectures de réseaux de neurones et de paradigmes d’apprentissage soigneusement sélectionnés. Les évaluations passeront, entre autres, par l'apprentissage de petits modèles dédiés à la détection d'activité vocale, à la reconnaissance de locuteur, ainsi qu'à la reconnaissance automatique de la parole. Ces derniers pourront enfin être évaluer sur des bases de données dédiées (publiques ou privées).
Actuellement en master ou en dernière année d'école d'ingénieur avec une spécialisation en intelligence artificielle.
Solides connaissances en machine learning et en programmation Python.
Base et/ou intérêt pour le traitement du signal audio.
Motivation, curiosité, rigueur et ayant un bon esprit d'analyse et de synthèse.
Un serveur de calcul équipé de plusieurs GPU A30 et A100 sera mis à la disposition du·de la stagiaire, ainsi qu’un accès au cluster de calcul de l’Institut.
EPIC créé en 1975, l’INA est chargé de conserver, de valoriser et de transmettre le patrimoine audiovisuel français. Premier centre d’archives numérisées au monde avec plus de 3 millions et demi d’heures de télévision et de radio auxquelles s’ajoutent chaque année 800 000 heures au titre du dépôt légal, l’INA compte environ 1 000 salariés.
La tribu IA de l'INA est une équipe de 30 personnes dédiée à l'industrialisation de projets orientés intelligence artificielle. Cette équipe travaille sur des projets variés, allant de la reconnaissance vocale à la reconnaissance faciale en passant par la segmentation automatique de contenu dans les archives audiovisuelles. L'objectif de la tribu IA est de transformer les projets de recherche internes, ainsi que les outils open-sources en solutions concrètes facilitant le travail des directions métiers de l'INA. De tels modèles de sujets dynamiques seraient particulièrement précieux pour l'Institut National de l'Audiovisuel (INA), où la surveillance et l'analyse continues des flux de données textuelles (des transcriptions de vidéos) sont essentielles pour la recommandation de nouveau contenu aux utilisateurs ainsi que pour les applications nécessitant une surveillance et une analyse continues des flux de données.