Comment évaluer la qualité d'un système de recherche augmentée

Un système RAG sans mesure est un pari. Voici la méthode d'évaluation que nous appliquons à toutes nos missions : indicateurs concrets, processus de mesure, et seuils de décision.

Pourquoi mesurer rigoureusement

Un système RAG enchaîne plusieurs étapes : recherche dans une base vectorielle, sélection des passages, génération de réponse, citation des sources. Une dégradation à n'importe quel étage se traduit par une mauvaise réponse — mais sans mesure, vous ne sauriez pas où chercher.

Pire : les modifications « locales » (changement de modèle, ajustement du prompt, nouveau découpage) peuvent améliorer 70 % des cas et casser silencieusement les 30 % restants. Sans baseline mesurable, vous régressez sans le voir.

Les 4 niveaux de mesure

Niveau 1 — Qualité de la recherche

Mesure si les passages pertinents sont récupérés dans le top-K résultats.

Niveau 2 — Qualité de la réponse

Mesure si la réponse générée à partir des passages est correcte et bien sourcée.

Niveau 3 — Performance opérationnelle

Mesure que le système marche dans la vraie vie, à charge réelle.

Niveau 4 — Satisfaction utilisateur

La mesure qui compte vraiment au final.

Le jeu d'évaluation : pierre angulaire

Pour mesurer Recall@K, Precision@K, fidélité, il faut un jeu d'évaluation. Sans ce jeu, aucun chiffre fiable n'est possible.

Comment le constituer :

  1. Atelier avec les équipes métier pour lister 50 à 200 requêtes typiques
  2. Pour chaque requête, identifier les passages du corpus qui devraient absolument apparaître
  3. Ajouter des requêtes adverses : mal formulées, hors-scope, ambiguës, hostiles
  4. Versionner le jeu (Git) pour suivre son évolution
  5. Rejouer le jeu à chaque modification du système

L'évaluation continue en production

Le jeu d'évaluation initial est nécessaire mais pas suffisant. La qualité doit aussi être mesurée sur les requêtes réelles des utilisateurs.

La dérive silencieuse

Un système RAG en production se dégrade naturellement avec le temps :

Sans audit régulier (trimestriel minimum), un système qui donnait satisfaction à la mise en production peut chuter sans alerte. La supervision continue n'est pas optionnelle.

Notre dispositif standard

Sur chacune de nos missions RAG, nous livrons :

Pour aller plus loin

Si vous avez un système RAG en production sans évaluation formelle, on peut faire un audit rapide pour identifier où en est la qualité réelle : projects@littlab.com.