RAG en production : les 3 erreurs qu'on voit le plus

Sortir un prototype de recherche augmentée fonctionne en deux jours. Le mettre en production sérieuse, sur un corpus métier réel, demande d'éviter trois pièges récurrents. Voici les trois erreurs qui plombent la majorité des projets que nous reprenons en cadrage.

Erreur 1 — Le découpage naïf du corpus

L'instinct du développeur qui découvre le RAG : prendre tous les documents, les couper en blocs de 500 ou 1000 tokens, indexer le tout, et appeler ça un système de recherche.

Résultat typique : les requêtes utilisateur retournent des passages qui contiennent les mots-clés mais perdent le contexte. Une section démarre au milieu d'une explication technique, une définition est coupée en deux, un tableau perd ses en-têtes.

Ce qui marche mieux :

Un découpage soigné peut faire passer la précision de 60 à 85 % sur un même corpus, à modèle d'embeddings équivalent. C'est l'investissement avec le meilleur rendement.

Erreur 2 — L'absence de jeu d'évaluation

« Ça a l'air de marcher quand je teste » : la pire phrase à entendre sur un projet RAG en production. Sans jeu d'évaluation systématique, vous naviguez à l'aveugle.

Chaque modification (changement de modèle d'embeddings, nouveau découpage, mise à jour du prompt système) peut améliorer 70 % des cas et casser silencieusement les 30 % restants. Sans mesure, vous n'aurez aucun moyen de le savoir.

Ce qui marche :

Construire un jeu d'évaluation prend 2 à 3 jours-homme au cadrage. C'est le meilleur investissement possible sur un projet RAG. Sans ce filet, tout déploiement en production est un pari.

Erreur 3 — Le pipeline non observable

Un système RAG en production fait beaucoup de choses : reçoit la requête, calcule un embedding, cherche dans une base vectorielle, optionnellement re-classe les résultats, construit un prompt, appelle un modèle de langage, formate la réponse, ajoute des citations.

Quand un utilisateur signale une mauvaise réponse, sans observabilité, vous ne pourrez jamais déterminer où le problème a eu lieu. Mauvais passages retournés ? Bon passage mais le modèle l'a ignoré ? Citation incorrecte ?

Ce qui marche :

L'observabilité ajoute environ 10 % de temps de développement initial. Elle économise 10x ce temps en debugging et en régressions évitées.

Erreur bonus — Optimiser sans mesurer

Beaucoup d'équipes passent des semaines à comparer des modèles d'embeddings, des stratégies de re-ranking, des prompts système, sans jeu d'évaluation. Résultat : elles choisissent ce qui « semble mieux » sur quelques requêtes favorites, qui ne représentent pas l'usage réel.

La séquence saine est inverse : (1) constituer le jeu d'évaluation, (2) déployer une version simple, (3) mesurer, (4) optimiser uniquement ce qui est validé par les chiffres.

Notre approche par défaut

Toutes nos missions RAG suivent la même séquence :

  1. Atelier cadrage : identifier le corpus, les cas d'usage prioritaires, les contraintes
  2. Construction du jeu d'évaluation avec vos équipes métier
  3. Architecture sobre : découpage soigné, observabilité dès la première version
  4. Itération mesurée : chaque optimisation validée par le jeu d'évaluation
  5. Déploiement progressif avec supervision continue
  6. Transfert : documentation, formation, remise du jeu d'évaluation à vos équipes

Pour aller plus loin

Si vous avez un système RAG en cours qui rame ou qui ne donne pas satisfaction, on peut faire un audit rapide en 30 minutes : projects@littlab.com.