Les grands modèles linguistiques se déclinent de plus en plus en petites variantes axées sur un ensemble de données spécifique. Un SLM n’est-il donc qu’une version allégée d’un LLM, ou y a-t-il autre chose derrière ?
Alors que les Large Language Models (LLM), tels que ChatGPT ou Gemini, affichent de vastes capacités, l’attention se porte de plus en plus sur une alternative plus petite et plus pratique : les Small Language Models (SLM). Il s’agit de petits modèles linguistiques entraînés sur un ensemble de données spécifique.
Arno van de Velde, Principal Solutions Architect Benelux chez Elastic, qualifie ces modèles de « modèles linguistiques spécialisés ». Qu’est-ce qui différencie encore ces petits modèles de leurs grands homologues ? Van de Velde décrit la différence entre un LLM et un SLM et donne un aperçu de ce que les petits modèles linguistiques ont (encore) en réserve.
Modèle linguistique spécialisé
Nous connaissons tous dans les grandes lignes le fonctionnement d’un Large Language Model (LLM), mais quelle est la différence avec un Small Language Model (SLM) ? C’est une question à laquelle van de Velde a deux réponses. « La réponse courte à cette question est qu’un SLM est une forme beaucoup plus petite d’un LLM », mais il ajoute immédiatement que cette définition ne rend pas tout à fait justice à un SLM.
Un SLM est une manière plus spécifique de traiter un certain sous-ensemble d’informations.
Arno van de Velde, Principal Solutions Architect Benelux, Elastic
Selon van de Velde, une meilleure description d’un SLM est « une manière spécifique de traiter un certain sous-ensemble d’informations ». Il appelle cela également un modèle linguistique spécialisé. « Vous entraînez le modèle dans un certain domaine sur des informations spécifiques. »
Van de Velde cite l’exemple des avocats. « Ils utilisent un langage très spécifique pour décrire leur domaine, ce qui crée un autre type de modèle linguistique spécifiquement axé sur un jargon professionnel. »
Rapide et efficace
L’avantage d’un LLM est qu’il peut effectuer des raisonnements plus approfondis et répondre à des questions complexes. Cela exige évidemment plus de puissance de calcul, car le modèle doit effectuer différentes étapes pour fournir une réponse.
« Lorsque vous posez une question à un SLM, qui s’inscrit dans le domaine spécifique sur lequel le modèle est entraîné, vous obtenez une réponse en une milliseconde », explique van de Velde. Un SLM est plus petit, plus rapide et plus léger, ce qui rend le modèle adapté aux tâches directes telles que la fourniture de réponses dans un ensemble de données spécifique.
De plus, les SLM peuvent fonctionner localement sur un ordinateur portable ou dans des environnements sans connexion Internet constante, ce qui les rend intéressants pour des applications dans des domaines tels que la défense ou l’industrie. Contrairement à un LLM, qui a besoin d’une connexion continue.
Petits LLM
Les LLM sont aujourd’hui omniprésents : dans les moteurs de recherche, les logiciels de bureautique, les services clients, mais aussi les appareils mobiles. Google a par exemple développé Gemini Nano, une version réduite de son LLM Gemini qui fonctionne localement sur un smartphone. Cela appartient-il également à la catégorie d’un SLM, ou s’agit-il plutôt d’une « version réduite d’un LLM » ?
Van de Velde estime que cette ligne de démarcation est de plus en plus floue. Pourtant, il classe ces « petits LLM » plutôt comme un SLM. Dans le cas de Gemini Nano, par exemple, sur les Pixel-telefoons les plus récentes, il existe une fonction d’IA générative qui reconnaît les objets au loin et les complète elle-même sur une photo. « Ces petits modèles pourraient plutôt être décrits comme un SLM spécifique axé sur les images », affirme-t-il. Ces SLM sont donc axés sur certaines sous-tâches et ne sont pas appelés « petits LLM ».
Faire soi-même ?
Dans quelle mesure est-il facile pour une entreprise ou un développeur de créer lui-même un SLM ? Van de Velde explique deux manières différentes de créer un SLM. « Vous pouvez prendre un LLM comme point de départ pour en extraire des informations ou des éléments. De cette façon, vous retirez les éléments qui sont moins importants pour le modèle, afin d’arriver à une version plus petite et spécialisée. Une autre façon consiste à entraîner un modèle à partir de zéro sur un domaine spécifique. »
Pour de nombreuses organisations, la valeur ajoutée ne réside pas dans l’entraînement complet d’un SLM, mais dans l’utilisation et l’adaptation intelligentes de modèles déjà disponibles.
Arno van de Velde, Principal Solutions Architect Benelux, Elastic
Dans les deux cas, il reste cependant un grand besoin d’ensembles de données volumineux et d’investissements importants, ce dont la plupart des entreprises ne disposent pas en standard. « Les organisations choisissent donc plus souvent d’affiner et de combiner des modèles compacts existants, dont Llama 3 est un modèle connu, avec des fonctions supplémentaires ou plusieurs petits modèles côte à côte. » « Cela permet de construire des solutions ciblées, telles qu’un accès plus rapide aux informations internes, des résumés automatiques ou une assistance pour les dossiers clients. »
« Pour de nombreuses organisations, la valeur ajoutée ne réside donc pas dans l’entraînement complet d’un SLM, mais dans l’utilisation et l’adaptation intelligentes de modèles déjà disponibles. Le développement de modèles entièrement nouveaux reste surtout le domaine des grands acteurs disposant de budgets de recherche considérables », affirme van de Velde.
Orchestrateur
Van de Velde s’attend à ce que les petits modèles linguistiques jouent un rôle important, surtout en combinaison avec l’essor des agents d’IA. « Au lieu d’un seul modèle qui fait tout, un LLM devient plutôt un orchestrateur qui répartit différentes tâches : appeler un morceau de code, effectuer une recherche hybride, utiliser un SLM pour une tâche spécifique ou activer un outil dédié. »
Selon lui, le plus grand gain à court terme réside dans les applications pratiques à petite échelle où les petits modèles sont intelligemment combinés pour créer une valeur ajoutée directe.
