Développer des technologies linguistiques pour les langues minorisées : quand l'expertise et la qualité des données prime sur la quantité.
Les avancées ces dernières décennies des technologies linguistiques et leur démocratisation, malgré leur influence grandissante sur les sociétés, ne concernent au mieux que quelques dizaines de langues parmi les milliers parlées dans le monde. L'extension de ces technologies à plus de langues, et y compris à des langues minorisées qui ne peuvent compter qu'à la marge sur des soutiens officiels, est un des grands enjeux des années à venir. À l'heure actuelle, la plupart des initiatives de ce type reposent sur le postulat qu'il serait possible, comme pour des langues mieux équipées, d'arriver à cette extension par le recours à l'apprentissage automatique sur des jeux de données massifs, et se concentrent sur la génération et la capture de ces données, initialement manquantes. En prenant l'exemple du Breton, en traduction automatique et en reconnaissance de la parole, nos travaux montrent pourtant que ces approches montrent rapidement leur limites si elles ne s'appuient pas sur l'expertise linguistique des locuteurs de ces langues, et en particulier que l'évaluation des modèles produits, quand elle existe, est souvent peu fiable. Nous proposons une approche opposée, en produisant et exploitant des jeux de données de petite taille mais de grande qualité et s'appuyant sur les utilisateurs potentiels et sur les spécialistes d