Qu’est-ce que le RAG ou la génération augmentée par récupération ?

Qu’est-ce que le RAG ou la génération augmentée par récupération ?

Le RAG, abréviation de génération augmentée par récupération, est presque indissociablement lié à l’utilisation de l’IA générative en milieu professionnel. Qu’est-ce que le RAG, et pourquoi est-il un élément si essentiel d’une implémentation utile de l’IA ?

Un assistant d’IA générative sans génération augmentée par récupération (RAG) est comme un stagiaire numérique enthousiaste avec une attitude de bon élève. Si vous lui posez une question, il fera de son mieux pour donner une réponse, même lorsqu’il ne connaît pas la réponse.

L’IA générative combinée au RAG est comme ce même stagiaire zélé, mais cette fois armé d’une encyclopédie remplie de connaissances pertinentes. Posez-lui la même question, pour laquelle les connaissances immédiates sont insuffisantes, et le stagiaire consultera l’encyclopédie à la recherche de la véritable réponse.

Dans le premier cas, nous parlons d’hallucination dans l’IA générative : vous obtenez une réponse qui semble correcte, mais qui ne l’est pas. Dans le second scénario, l’assistant IA a utilisé le RAG pour parvenir à une véritable réponse grâce aux informations correctes.

Pourquoi le RAG est-il nécessaire ?

L’IA générative est construite sur des Modèles de Langage Large (LLM). Les LLM sont des modèles tels que GPT 4.5 d’OpenAI, ou Llama 3.3 de Meta. Ils ont été développés principalement par des géants technologiques américains et entraînés sur d’énormes superordinateurs IA. L’entraînement d’un LLM se fait à l’aide de données d’entraînement. En alimentant un réseau neuronal avec une quantité immense de données annotées, des connexions se forment entre les neurones numériques, permettant au réseau de réagir correctement à de nouvelles données au fil du temps.

Montrez à un tel réseau neuronal des milliers de photos de chats et de chiens, et au fil du temps, il pourra reconnaître lui-même les animaux sur de nouvelles images. Vous pouvez également voir plus grand, comme OpenAI, et utiliser comme données d’entraînement la moitié d’Internet, comprenant des articles, des messages sur des forums, des livres numériques, des blogs et plus encore. Entraînez un réseau avec des données à grande échelle, et vous obtenez un modèle qui rend ChatGPT possible.

Les LLM sont entraînés à l’aide de telles quantités immenses de données générales et historiques. Sur la base de ces données, ils sont capables de formuler des réponses aux questions qui semblent très réalistes. Seulement : dès qu’un modèle comme GPT 4.5 est finalisé, l’entraînement est terminé. Pensez à un étudiant qui obtient son diplôme et commence à travailler. Les cours sont terminés, donc les informations supplémentaires (nouvelles) ne seront plus liées à l’étudiant et au diplôme.

L’étudiant commence à travailler avec les connaissances qu’il a acquises lors de l’obtention de son diplôme. De la même manière, le LLM travaille avec les connaissances qu’il a acquises pendant l’entraînement. L’utilisation d’un réseau neuronal entraîné s’appelle inférence. Dans la phase d’inférence, le LLM n’a plus connaissance des données créées après la finalisation. Par conséquent, un LLM ne peut pas répondre par lui-même à des questions d’actualité.

  • Un LLM est entraîné sur une multitude de données générales et n’a pas connaissance des données spécifiques à l’entreprise ou des informations qui ne faisaient pas partie du processus d’entraînement.

Entraînement avec vos propres données

OpenAI, Meta, Microsoft et d’autres parties n’ont normalement pas accès à vos données d’entreprise spécifiques. Un LLM n’est donc pas entraîné sur ces données. Si vous demandez une description du produit X ou des informations sur le client Y, le LLM dira dans le meilleur des cas qu’il n’a pas cette connaissance, ou dans le pire des cas, il hallucinera une réponse qui semble bonne.

Pour déployer un LLM dans un contexte d’entreprise, le modèle doit avoir connaissance de toutes les données importantes de votre entreprise. Pensez au catalogue de produits, aux clients, aux résultats financiers et plus encore. Vous pouvez pour cela affiner le modèle.

L’affinage est comme une formation supplémentaire du stagiaire sur le lieu de travail même. Vous continuez à entraîner le modèle dans ce cas. Seulement : cela nécessite à nouveau une puissance de calcul IA coûteuse et les connaissances nécessaires. Cela prend du temps et coûte cher. Vous finaliserez à nouveau le modèle à un certain moment. Deux jours plus tard, vous lancez peut-être un nouveau produit ou vous attirez un nouveau client, et vous pouvez recommencer.

L’affinage est pertinent pour donner aux modèles d’IA générative des connaissances de base sur votre entreprise, mais il ne résout pas la base du problème. Vous ne pouvez toujours pas poser une question avec la garantie d’obtenir une réponse correcte et actuelle.

  • L’ajustement ou l’affinement des modèles sur vos données est un processus complexe et coûteux, et ne résout pas le problème : le LLM ne connaît pas les nouvelles données ou les données modifiées qui ne faisaient pas partie de l’entraînement.

Génération Augmentée par Récupération

La RAG adopte une approche différente. La RAG fait référence à une méthode où le LLM n’est pas davantage étendu, mais la question que vous posez l’est. Si vous souhaitez en savoir plus sur les produits de votre organisation, vous posez simplement la question : ‘Quelle est la différence entre le produit X et Y’.

Avant que cette question ne parvienne au LLM, la RAG entre en action. Un autre algorithme détecte dans la requête que votre question concerne les produits. Cet algorithme associe alors votre question au catalogue de produits et à la liste de prix de votre entreprise. Ce n’est qu’ensuite que la question est transmise au LLM.

représentation visuelle de la rag
2453842259

Le LLM recherche maintenant spécifiquement une réponse dans toutes vos données. Le QI de l’assistant IA est le produit de la formation générale, mais la réponse à votre question spécifique provient des données fournies.

Ces sources de données ne sont pas statiques. Elles sont jointes à nouveau à chaque requête. Vous pouvez lier des bases de données, mais aussi des wikis pleins de texte, des e-mails, des factures, et ainsi de suite. Vos données d’entreprise actuelles sont constamment liées à la question, permettant ainsi au LLM d’avoir toujours accès à des informations correctes et récentes.

Il vous faudrait un certain temps pour lire un catalogue de produits de 2 000 pages, le lier aux listes de prix et à leurs évolutions, et rechercher les clients concernés. Pour un LLM, c’est une question de secondes. Avec la RAG, vous enrichissez l’information. Le LLM l’absorbe et formule une réponse. La réponse est générée, après avoir été augmentée avec des données récupérées des systèmes de l’entreprise.

  • Avec la RAG, les capacités du LLM proviennent de l’entraînement, mais les connaissances proviennent de données pertinentes issues de sources actuelles, qui sont intelligemment ajoutées à une requête.

Aspect pratique

La RAG ne nécessite pas d’entraînement coûteux d’un LLM. En fait, vous pouvez implémenter la RAG avec quelques lignes de code. Les fournisseurs de solutions IA peuvent s’en charger. Il vous incombe de mettre vos données en ordre. Comme toutes les applications IA, la RAG ne fonctionne bien que si les données sources sont de qualité.

Lorsque le système RAG a accès à vos données d’entreprise, il les traite dans une base de données vectorielle. C’est un processus continu. Lorsque vous présentez ensuite une requête au LLM, le système RAG y associe des données pertinentes via la base de données vectorielle.

L’association des données n’est pas un processus intensif. Vous n’avez pas besoin de systèmes HPC fous pour cela et cela ne coûte pas des sommes astronomiques. Vous liez les connaissances que vous possédez au cerveau IA que vous avez acquis, et bénéficiez immédiatement des résultats.

Il est toutefois important que vos données et la solution IA soient facilement connectées. Par exemple, il peut être utile de stocker les données dans le cloud lorsque vous utilisez une solution IA dans le cloud, ou de ramener l’inférence vers des serveurs locaux lorsque vos données sont sur site.

  • La RAG est facile à mettre en œuvre et fournit des réponses IA sur mesure, sans engendrer de coûts de formation importants.

Lire et apprendre

Revenons à notre analogie du stagiaire du début. Le système RAG est une sorte d’assistant assis à côté du stagiaire, qui sait où se trouvent approximativement toutes les données importantes. Lorsque vous posez une question, l’assistant murmure à l’oreille du stagiaire quelles bases de données, wikis et autres systèmes sont pertinents pour cette question. Le stagiaire est le même qu’au début, mais la réponse est soudainement unique et précieuse.

Le fonctionnement exact des systèmes RAG dépend des implémentations. Les développeurs cherchent constamment de nouveaux systèmes pour ajouter des données aux requêtes de manière plus précise, plus rapide et plus ciblée. L’essence reste cependant la même : avec la RAG, vous pouvez utiliser un LLM de base pour générer des réponses précises et personnalisées basées sur vos propres données.

La RAG permet de parler à vos données en langage naturel. L’entraînement du LLM fournit ses capacités, vos données fournissent les connaissances réelles. C’est ce qui rend un LLM combiné à la RAG si puissant.

Fournisseurs

La génération augmentée par récupération fait partie des solutions de nombreux fabricants d’IA. Par exemple, le spécialiste de l’IA Nvidia permet aux développeurs d’implémenter la RAG via le NeMo Retriever, qui fait partie de la pile IA de l’entreprise.

Snowflake, qui collecte, sécurise et rend accessibles les données des clients sur une plateforme cloud, a également implémenté le RAG dans ses solutions d’IA. Les utilisateurs peuvent y connecter leurs données à un LLM de leur choix via Cortex AI. De son côté, Snowflake mise sur l’aspect RAG, afin de lier les données appropriées à une invite de manière la plus efficace possible.

Cloudera mérite également d’être mentionné, avec son RAG Studio. Celui-ci permet aux utilisateurs de construire des chatbots qui sont connectés à leurs données actuelles via RAG.

Le RAG joue également un rôle dans l’IA locale. Pensez notamment à l’assistant IA AI Now de Lenovo, l’AI Companion de HP, Nvidia Chat avec RTX, et AMD vous permet également de construire un chatbot qui fonctionne exclusivement sur votre ordinateur. Ces solutions vous permettent de poser des questions à un LLM fonctionnant localement, et pour les réponses, il examine les données et les fichiers dans les dossiers de votre PC. C’est aussi une forme de RAG (moins ciblée).