Sur la plateforme de comparaison LLM Chatbot Arena, Claude 3 Opus a surpassé pour la première fois GPT-4. C’est une relève de la garde ?
« Le roi est mort », annonce-t-on sur X. GPT-4 n’est plus leader sur la plateforme LLM Chatbot Arena et doit laisser sa place à Claude 3 Opus. Sur cette plateforme open source, on peut comparer les LLM côte à côte, un par un, pour évaluer les réponses qu’ils donnent à une même question. Les utilisateurs votent ensuite pour le modèle qui leur plaît le plus : Chatbot Arena est un peu le « palmarès » des chatbots LLM.
Magnus Opus
Depuis le lancement de GPT-4 au printemps 2023, le LLM d’OpenAI a toujours été en tête du classement. Mais depuis le 26 mars, un nouveau numéro un brille : Claude 3 Opus, le nouveau modèle phare d’Anthropic. Claude 3 Opus est sorti en mars et lors de son lancement, Anthropic a présenté des tests de référence montrant que le modèle était supérieur à GPT-4 et à Google Gemini. Il semble maintenant que ces paroles soient exactes.
Et Anthropic aura besoin de plus de papier d’impression pour décorer le bureau avec ces bons résultats. Le modèle Claude 3 Haiku, plus petit et plus rapide, a également le vent en poupe et occupe la sixième place. Claude Sonnet partage la quatrième place avec Google Gemini Pro.
lire aussi
Concurrent français de ChatGPT, Mistral lance Le Chat
Relève de la garde ?
Chatbot Arena est un outil populaire pour les chercheurs qui comparent les capacités des LLM, et le fait que Claude 3 soit mieux noté que GPT-4 est révélateur. Les LLM d’OpenAI ont longtemps été la référence en matière d’IA générative, mais Anthropic se présente de plus en plus comme un adversaire de poids.
OpenAI a également compris ce message. La société travaille actuellement sur une nouvelle version de GPT. La date exacte de sa sortie n’est pas encore claire, mais le bruit court de plus en plus qu’elle aura lieu cette année. De même, on ne sait toujours pas si la nouvelle version s’appellera ou non GPT-4.5 ou GPT-5.