Mistral lance Voxtral : reconnaissance vocale IA open-source

La start-up française d’IA vise une intelligence vocale ouverte et économique pour les entreprises.

Mistral présente Voxtral, son premier modèle audio ouvert qui, selon l’entreprise, rend « l’intelligence vocale réelle » utilisable en production. La start-up française défie ainsi les systèmes fermés des grands acteurs comme OpenAI.

Ouvert, abordable et multilingue

Voxtral peut transcrire jusqu’à 30 minutes d’audio et comprendre jusqu’à 40 minutes grâce à l’intégration de Mistral Small 3.1, un modèle de langage compact. Les utilisateurs peuvent poser des questions sur le contenu, générer des résumés ou exécuter des actions en temps réel basées sur des commandes vocales. Le modèle fonctionne dans plusieurs langues, dont le néerlandais, l’anglais, le français, l’espagnol, l’allemand et l’hindi.

Voxtral est disponible en deux variantes : Voxtral Small (24 milliards de paramètres) pour les échelles de production, et Voxtral Mini (3 milliards de paramètres) pour les applications locales. Une API de transcription distincte est axée sur la rapidité et les faibles coûts, et serait plus performante que Whisper pour moins de la moitié du prix.

Alternative aux systèmes coûteux

Selon Mistral, Voxtral est moins cher que les solutions comparables. Les entreprises peuvent tester gratuitement l’API via Hugging Face ou Le Chat. L’intégration dans les applications commence à partir de 0,001 dollar par minute.

Voxtral fait suite à l’introduction récente de Magistral, le modèle de raisonnement de Mistral.