Le modèle d’IA DeepSeek R1 fait l’objet d’éloges pour ses performances à faible coût d’entraînement. Plusieurs détails concernant son fonctionnement sous le capot sont désormais connus, ce qui compromet le rôle de Nvidia dans l’écosystème de l’IA. Entre-temps, des questions se posent également sur l’ouverture réelle du modèle et sur l’utilisation créative possible de GPT-4 pendant l’entraînement.
La start-up chinoise Scale AI a surpris le monde de la technologie avec la percée de son modèle R1 AI. Ce modèle offre des performances similaires à celles des OpenAI à un coût nettement inférieur. Cela est possible grâce à des optimisations intelligentes et à une méthode de programmation spéciale. Outre les louanges, il y a aussi des critiques : ScaleAI a-t-elle développé le modèle elle-même ou a-t-elle pris la moutarde ailleurs ?
Comment fonctionne le modèle d’IA de DeepSeek ?
DeepSeek utilise un mélange d’experts (MoE), avec 671 milliards de paramètres, entraîné sur à peine 2048 modestes GPU Nvidia H800. De plus, l’entreprise n’a pas utilisé Nvidia CUDA, mais son propre DeepSeek PTX (Parallel Thread Execution). Il s’agit d’un langage de programmation de niveau intermédiaire qui permet des optimisations fines pour le GPU. Par exemple, 20 des 132 processeurs de streaming du Nvidia H800 ont été utilisés pour la communication entre les serveurs. Cela permet à la R1 de travailler plus rapidement et plus efficacement.
Elle peut ainsi offrir des performances similaires à celles des grands acteurs de l’IA, avec des coûts de développement de seulement 5,6 millions de dollars. Les entreprises américaines investissent souvent des milliards dans leurs modèles d’IA, une approche dont la nécessité est aujourd’hui fortement remise en question.
Il ne faut pas non plus sous-estimer le fait que même CUDA n’est plus essentiel. Nvidia a une forte emprise sur le développement de l’IA grâce à son propre écosystème CUDA. CUDA est en quelque sorte un monopole que les concurrents veulent briser, mais sans grand succès. DeepSeek montre ici que d’autres solutions fonctionnent également.
lire aussi
Inside DeepSeek – L’intelligence artificielle agite les esprits : comment fonctionne-t-elle et qu’est-ce qui est volé ?
L’IA Scale a-t-elle commis un plagiat ?
Des questions se posent toutefois quant à la méthodologie utilisée pour la formation de DeepSeek. OpenAI affirme que DeepSeek a utilisé la « distillation », selon le Financial Times. Il s’agit d’une méthode couramment utilisée, selon laquelle un modèle d’IA plus petit apprend à partir des résultats d’un modèle plus grand et plus performant. DeepSeek aurait utilisé des données de GPT-4, selon OpenAI, violant ainsi les conditions d’utilisation d’OpenAI.
La distillation n’est donc pas nouvelle et, selon un initié, il est courant que les laboratoires d’IA utilisent les résultats d’entreprises d’IA telles qu’OpenAI. Mais quand commettez-vous un plagiat ? Les grandes entreprises comme OpenAI investissent beaucoup de temps et d’argent dans l’amélioration de leurs modèles d’IA à l’aide de commentaires humains. Si d’autres entreprises utilisent ces résultats améliorés pour construire leurs propres modèles, elles bénéficient d’un avantage sans fournir les mêmes efforts.
La marmite contre la bouilloire
D’autre part, OpenAI a commis le plus grand vol de propriété intellectuelle de l’histoire de l’humanité avec la formation de ses modèles GPT. Pour ce faire, l’entreprise a collecté des données sur l’ensemble de l’internet sans se soucier de la protection des droits d’auteur. ChatGPT existe grâce à ce que des journalistes, des chercheurs, des blogueurs et de simples internautes actifs ont publié sur le web au fil des ans.
Si DeepSeek est effectivement formé à l’aide d’un modèle plus grand, cela montre qu’il est encore nécessaire de développer des modèles de départ de cette taille. Dans ce cas, le coût total du développement de DeepSeek devrait être ajouté au prix des modèles précédemment développés. Si les allégations d’OpenAI sont vraies, celles de DeepSeekr doivent être assorties d’un astérisque important. OpenAI peut également jouer la carte de la propriété intellectuelle et des conditions d’utilisation, bien que cela ressemble encore un peu à l’histoire d’une marmite.
Plus d’ouverture
De son côté, le site de logiciels libres HuggingFace souhaite reproduire le modèle R1, dans le but de mettre à la disposition de la communauté de l’IA une version entièrement libre du modèle. Selon HuggingFace, DeepSeek n’est pas entièrement open-source car une grande partie des données et du code n’est pas accessible au public. Si l’utilisation du modèle est gratuite, il n’est pas complètement ouvert. C’est pourquoi l’entreprise souhaite créer un environnement encore plus transparent et accessible.
Quoi qu’il en soit, DeepSeek a provoqué un glissement de terrain dans le domaine de l’IA. Même avec ses réserves en matière d’ouverture, et même si les affirmations d’OpenAI sont vraies, le système d’IA chinois montre que la voie à suivre pour le développement de l’IA-LLM peut être plus efficace que ce que l’on pensait auparavant. Aujourd’hui, Scale AI renforce cette affirmation avec le lancement de Janus-Pro-7B. Ce modèle peut générer des images par analogie avec Dall-E et la diffusion stable. Une fois de plus, le modèle ne semble pas inférieur aux alternatives beaucoup plus coûteuses.