Loading...
Loading...
Retrieval Augmented Generation
Architecture d'IA qui combine une base de connaissances (souvent vectorielle) avec un modèle de langage. Lors d'une requête, le système récupère les passages pertinents dans la base, puis les utilise pour générer une réponse sourcée. Permet de réduire les hallucinations, de citer les sources, et de maintenir des connaissances à jour sans réentraîner le modèle. Cas d'usage : chatbot documentaire, support client, knowledge management.
RAG (Retrieval Augmented Generation) est une architecture d'IA qui combine deux composants : une base de connaissances vectorielle (où chaque document, paragraphe ou extrait est encodé en vecteur sémantique) et un modèle de langage (LLM, type GPT, Claude, Gemini, Mistral). Lors d'une requête utilisateur, le système recherche d'abord les passages les plus pertinents dans la base, puis injecte ces passages dans le prompt envoyé au LLM, qui génère une réponse fondée sur les documents récupérés.
Cette architecture présente trois avantages majeurs sur l'utilisation directe d'un LLM : réduction des hallucinations (la réponse est ancrée sur des documents réels), traçabilité (chaque réponse peut citer les sources utilisées), et actualité (la base de connaissances peut être mise à jour sans réentraîner le modèle, ce qui coûterait des centaines de milliers d'euros).
Les composants techniques typiques d'un RAG : un pipeline d'ingestion qui découpe les documents en chunks, les vectorise via un modèle d'embedding (text-embedding-3, all-MiniLM, BGE…) et les stocke dans une base vectorielle (Pinecone, Weaviate, Qdrant, pgvector). Un module de recherche (similarité cosinus, hybride avec BM25, reranker). Un orchestrateur qui assemble le prompt avec les passages récupérés. Le LLM qui génère la réponse. Une couche HITL ou de filtrage selon le niveau de criticité.
Le RAG s'oppose au fine-tuning (ré-entraînement du modèle sur des données métier) et au contexte long (envoyer toute la documentation dans la fenêtre du modèle, ce qui devient possible avec les modèles à 1M+ tokens mais reste coûteux à grande échelle). Pour la majorité des cas d'usage entreprise, RAG reste l'approche la plus pragmatique en 2026.
Le concept de RAG a été formalisé en 2020 par les chercheurs de Facebook AI (Patrick Lewis et al.) dans l'article "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks", publié à NeurIPS 2020. L'idée : combiner un récupérateur dense (DPR, Dense Passage Retrieval) avec un générateur (BART) pour répondre à des questions ouvertes.
Avec l'arrivée de GPT-3 (2020), GPT-4 (2023), Claude et Gemini, l'architecture RAG est devenue le standard de fait pour les applications entreprise. L'écosystème s'est structuré autour de bibliothèques (LangChain, LlamaIndex, Haystack), de bases vectorielles dédiées (Pinecone, Weaviate, Qdrant) ou intégrées aux bases relationnelles (pgvector pour PostgreSQL).
Les évolutions récentes (2024-2025) intègrent : RAG hybride (combinaison sémantique + lexical), RAG agentique (l'IA décide elle-même quelles sources interroger), RAG graphique (graphes de connaissances + vectoriel), et contextual retrieval (technique Anthropic 2024 améliorant la pertinence des chunks).
Pour un dirigeant, le RAG est l'architecture standard pour transformer la documentation interne en assistant intelligent : base de connaissances support client, documentation produit, manuels techniques, dossiers juridiques, FAQ médecin, procédures qualité. Le retour sur investissement est généralement rapide (4 à 6 mois) parce que le RAG ne remplace pas un humain, il l'augmente.
Les coûts à anticiper : infrastructure (base vectorielle, modèle d'embedding, LLM en API ou self-hosted), ingestion initiale de la documentation, maintenance de la base (chaque évolution documentaire doit être réindexée), et conformité (RGPD, secteur santé HDS, secret bancaire).
Le piège : déployer un RAG comme une commodité sans cadre HITL ni contrôle qualité. Une réponse fausse mais fluide d'un chatbot peut faire plus de dégâts qu'un humain qui dit "je ne sais pas". Le RAG sans contrôle qualité est plus dangereux qu'un FAQ statique.
Notre approche RAG se construit autour de trois principes : sources fiables uniquement (la qualité du RAG dépend de la qualité de la documentation indexée — un RAG sur de la documentation périmée est nuisible), citations systématiques (chaque réponse référence les passages utilisés, l'utilisateur peut vérifier), et HITL adapté au niveau de risque (un RAG support client peut être direct, un RAG aide au diagnostic médical doit être HITL pré-décision).
Côté implémentation, nous travaillons avec les briques éprouvées : pgvector pour PostgreSQL si le client a déjà cette base, Qdrant ou Weaviate pour les volumétries plus importantes. Nous évaluons l'usage du modèle d'embedding selon la langue dominante (multilingue ou français spécifique). Nous outillons des benchs automatisés de qualité pour détecter les régressions à chaque mise à jour de la base.
Notre principe : un RAG livré sans bench de qualité est un RAG qui dérive sans qu'on le sache. Le bench est le tableau de bord du RAG.
Modèle de langage à grande échelle entraîné sur des centaines de milliards de mots, capable de comprendre et générer du texte avec un niveau…
Famille de systèmes d'intelligence artificielle capables de produire du contenu nouveau (texte, image, audio, vidéo, code) à partir de promp…
Architecture d'IA qui maintient un humain dans la boucle de décision pour les cas à fort impact. L'IA propose, score, recommande ; l'humain …
Cadrage initial gratuit. Nous évaluons votre contexte et identifions les leviers concrets.