Nvidia lance un nouvel ensemble de données destiné à soutenir le développement de la traduction par IA pour les pays européens.
Nvidia a publié un ensemble de données ouvert et deux modèles d’IA axés sur la reconnaissance vocale et la traduction multilingues. Le nouvel ensemble de données Granary contient environ un million d’heures d’audio et devrait accélérer le développement d’applications vocales dans 25 langues européennes, dont le néerlandais. Les deux modèles nommés Canary-1b-v2 et Parakeet-tdt-0.6b-v3 sont destinés à montrer comment l’ensemble de données peut être utilisé.
Ensemble de données linguistiques
L’ensemble de données Granary a été développé en collaboration avec l’université Carnegie Mellon et la Fondazione Bruno Kessler. Il se compose d’environ 650 000 heures pour la reconnaissance vocale et de 350 000 heures pour la traduction. Les données sont structurées à l’aide du processeur de données vocales NeMo de Nvidia. Cela a permis d’éviter en grande partie l’annotation manuelle. L’ensemble de données est open source et disponible sur GitHub.
Simultanément à Granary, Nvidia met également deux nouveaux modèles à disposition via Hugging Face. Il s’agit de Canary-1b-v2, un modèle avec un milliard de paramètres, et de Parakeet-tdt-0.6b-v3, un modèle plus petit optimisé pour la transcription rapide.
Les deux modèles prennent en charge 25 langues européennes, dont le néerlandais, mais aussi le bulgare, le tchèque, le danois, l’allemand, le grec, l’anglais, l’espagnol, l’estonien, le finnois, le français, le croate, le hongrois, l’italien, le lituanien, le letton, le maltais, le néerlandais, le polonais, le portugais, le roumain, le slovaque, le slovène, le suédois, l’ukrainien et le russe.
Environnements de production
Les modèles sont destinés à être utilisés dans des applications telles que les chatbots multilingues, les services de traduction en temps réel et l’assistance clientèle à commande vocale. Parakeet se concentre sur la faible latence et peut traiter des segments audio de plus de 20 minutes en une seule fois. Selon Nvidia, Canary offre une grande précision pour les tâches de transcription et de traduction plus complexes.
Selon les tests de l’équipe, Granary nécessite jusqu’à la moitié moins de données d’entraînement pour atteindre la même précision qu’avec les ensembles de données existants. Grâce à cet ensemble de données et à ces modèles, les développeurs peuvent créer plus rapidement des solutions d’IA vocale, y compris pour les langues sous-représentées.
