Qu’est-ce que la Retrieval Augmented Generation (RAG) ?

Olivier
22/09/2024

Olivier
22/09/2024

Le problème de l’IA générative, c’est qu’elle génère… même quand elle n’a pas la réponse. Les modèles de langage peuvent produire du contenu plausible en apparence mais erroné.

En 2023, un avocat New-Yorkais en a fait l’amère expérience après avoir rendu des conclusions truffées d’arrêts qui n’ont jamais existé.

On appelle ce phénomène une hallucination. Il se produit lorsqu’une intelligence artificielle génère des informations incorrectes ou les invente.

On considère qu’environ 3% des réponses fournies par ChatGPT en sont impactées. Avec les biais et les tics de langage, elles sont l’une des raisons de la méfiance de certains utilisateurs envers l’IA.

Le test est facile. Prenez un sujet que vous connaissez vraiment bien et lancez une conversation avec un LLM.

Un rapide exemple. Dans un échange sur ChatGPT 4o, je demande si Michel Platini a déjà gagné une médaille d’or aux Jeux Olympiques.

Sa réponse.

Si Michel Platini n’a effectivement jamais remporté de médaille olympique, il a en revanche bien participé aux JO de 1976. C’est d’ailleurs bien documenté sur sa page Wikipédia.

Au match retour, malgré une défaite 1-0 à Bucarest, la France se qualifie pour les JO de Montréal auxquels participe Michel Platini. [...] Le tournoi olympique 1976 débute pour les Bleus le 19 juillet face au Mexique, balayé quatre buts à zéro. Même score face au Guatemala, avec deux buts signés Michel Platini. La phase de poule s'achève sur un match nul face à Israël ; Michel Platini marque un but sur penalty.

Wikipédia

Comment limiter ces hallucinations inhérentes aux LLM ?

Une technique permet d’obtenir de très bons résultats.

Les principes de base de la technique de RAG

La Génération Augmentée par Récupération, ou RAG (Retrieval-Augmented Generation), est une approche avancée en intelligence artificielle.

Elle combine deux techniques : la récupération d’informations en temps réel et la génération de texte. Cette méthode permet d’améliorer la précision et la pertinence des réponses générées par les modèles de langage, sans le modifier, en s’appuyant sur des données externes.

C’est en quelque sorte un LLM avec une bibliothèque personnalisée. En France, l’acronyme est souvent utilisé au masculin. Nous dirons donc par défaut « un RAG ».

Comment fonctionne le RAG ? Regardons plus en détail les processus, ses avantages et ses limites.

Récupération d'information (Retrieval)

Ce processus consiste à rechercher et à extraire des informations pertinentes à partir d’une base de données externe ou un index de documents.

Les algorithmes de récupération sont conçus pour identifier les documents ou les passages les plus appropriées en réponse à une requête donnée. On appelle ces extraits des chunks. Ils sont transformés en embeddings, comme ceux dont nous parlions dans notre article sur l‘IA générative.

Click here to display content from YouTube.
Learn more in YouTube’s privacy policy.

Always display content from YouTube

Génération de texte (Generation) :

Une fois les informations pertinentes récupérées, un modèle de génération de texte utilise ces informations pour produire une réponse cohérente et contextuellement appropriée.

Séduisant, n’est-ce pas ?

By Turtlecrown - Own work, CC BY-SA 4.0, Link

Avantages, inconvénients des RAG

Les RAG offrent plusieurs avantages significatifs par rapport aux approches de génération de texte présentées précédemment. Ils font également face à certains défis.

Avantages

Limitations

Réduction des hallucinations

Amélioration de la précision des réponses générées, grâce aux informations récupérées de sources externes fiables.

Coût technique

La récupération et le traitement d’informations en temps réel peuvent nécessiter des ressources importantes.

Mise à jour continue

Les bases de données utilisées pour la récupération d’information peuvent être régulièrement mises à jour.

Qualité des sources

L’efficacité du RAG dépend fortement de la qualité et de la pertinence des informations récupérées.

Contexte enrichi

Le mix des informations récupérées et de la requête offre des réponses plus détaillées et nuancées.

Biais dans les données

Les biais présents dans les bases de données peuvent se refléter dans les réponses générées.

Exemples d'applications

Les RAG sont utilisés dans de nombreuses applications pratiques pour améliorer l’interaction utilisateur et la qualité des réponses. Quelques exemples concrets :

Assistants Virtuels :

Les assistants virtuels peuvent utiliser la RAG pour fournir des réponses précises, personnalisées et contextualisées aux questions des utilisateurs.

Moteurs de recherche :

Les moteurs de recherche peuvent intégrer un RAG pour générer des extraits de réponses plus pertinents et détaillés directement dans les résultats de recherche. C’est le cas de Bing Copilot, Perplexity, Google AI Overviews (ex-SGE), ou encore Search GPT d’OpenAI.

La question est donc de comprendre quelles techniques permettent de ressortir dans les réponses des IA basées sur cette technologie.

Chatbots de support client :

Les chatbots utilisés pour le support client peuvent bénéficier de la RAG pour offrir des réponses plus précises et personnalisées, en récupérant des informations pertinentes à partir de bases de connaissances.

Génération de Contenu :

Les systèmes de génération de contenu peuvent utiliser un RAG pour créer des articles, des rapports et des résumés en combinant des informations récupérées de multiples sources fiables.

Le logiciel d’IA juridique Ordalie est un bon exemple de RAG. Directement raccordé à toutes les sources du droit français, il propose des réponses personnalisées et contextualisées sur des sujets juridiques précis.

Regardons maintenant comment les RAG sont en train de challenger le Search Marketing.