Technique

Comment évaluer la qualité d'un système de recherche augmentée

Un système RAG sans mesure est un pari. Voici la méthode d'évaluation que nous appliquons à toutes nos missions : indicateurs concrets, processus de mesure, et seuils de décision.

Pourquoi mesurer rigoureusement

Un système RAG enchaîne plusieurs étapes : recherche dans une base vectorielle, sélection des passages, génération de réponse, citation des sources. Une dégradation à n'importe quel étage se traduit par une mauvaise réponse — mais sans mesure, vous ne sauriez pas où chercher.

Pire : les modifications « locales » (changement de modèle, ajustement du prompt, nouveau découpage) peuvent améliorer 70 % des cas et casser silencieusement les 30 % restants. Sans baseline mesurable, vous régressez sans le voir.

Les 4 niveaux de mesure

Niveau 1 — Qualité de la recherche

Mesure si les passages pertinents sont récupérés dans le top-K résultats.

Recall@K : sur les K passages retournés, quel pourcentage des passages vraiment pertinents sont présents ? Cible : 85-95 % sur les requêtes typiques.
Precision@K : sur les K passages retournés, quel pourcentage est réellement pertinent ? Cible : 70-85 %.
MRR (Mean Reciprocal Rank) : rang moyen du premier passage pertinent. Cible : le passage pertinent en position 1 ou 2.

Niveau 2 — Qualité de la réponse

Mesure si la réponse générée à partir des passages est correcte et bien sourcée.

Taux de réponses sourcées : pourcentage de réponses qui citent au moins une source identifiable. Cible : ≥ 95 %.
Fidélité (faithfulness) : pourcentage de réponses dont les affirmations sont effectivement présentes dans les sources citées. Cible : ≥ 90 %.
Pertinence métier : validation humaine ponctuelle sur un échantillon, jugée par les équipes métier.

Niveau 3 — Performance opérationnelle

Mesure que le système marche dans la vraie vie, à charge réelle.

Latence p50, p95, p99 : temps de réponse complet. Cible variable selon le cas, généralement < 3 s en p95 pour une UX correcte.
Disponibilité mensuelle : pourcentage d'uptime. Cible : 99,5 % minimum.
Coût par requête : token IA + infrastructure + stockage. À suivre pour anticiper la facture à l'échelle.

Niveau 4 — Satisfaction utilisateur

La mesure qui compte vraiment au final.

Taux de signalements négatifs : bouton « cette réponse ne m'aide pas » dans l'interface.
Taux de re-formulation : pourcentage d'utilisateurs qui posent une 2ᵉ question proche après une réponse insatisfaisante.
Taux d'usage : qui utilise le système, à quelle fréquence, sur quels sujets.

Le jeu d'évaluation : pierre angulaire

Pour mesurer Recall@K, Precision@K, fidélité, il faut un jeu d'évaluation. Sans ce jeu, aucun chiffre fiable n'est possible.

Comment le constituer :

Atelier avec les équipes métier pour lister 50 à 200 requêtes typiques
Pour chaque requête, identifier les passages du corpus qui devraient absolument apparaître
Ajouter des requêtes adverses : mal formulées, hors-scope, ambiguës, hostiles
Versionner le jeu (Git) pour suivre son évolution
Rejouer le jeu à chaque modification du système

L'évaluation continue en production

Le jeu d'évaluation initial est nécessaire mais pas suffisant. La qualité doit aussi être mesurée sur les requêtes réelles des utilisateurs.

Logger chaque requête, les passages retournés, la réponse
Permettre aux utilisateurs de signaler une mauvaise réponse en un clic
Échantillonner régulièrement des requêtes réelles pour validation humaine
Suivre l'évolution des indicateurs dans le temps (dérive)
Enrichir le jeu d'évaluation avec les cas problématiques rencontrés en production

La dérive silencieuse

Un système RAG en production se dégrade naturellement avec le temps :

Le corpus évolue (nouvelles versions de documents, contenus obsolètes)
Les utilisateurs posent de nouvelles questions inattendues
Les modèles IA sous-jacents évoluent
L'écart entre le jeu d'évaluation initial et l'usage réel grandit

Sans audit régulier (trimestriel minimum), un système qui donnait satisfaction à la mise en production peut chuter sans alerte. La supervision continue n'est pas optionnelle.

Notre dispositif standard

Sur chacune de nos missions RAG, nous livrons :

Un jeu d'évaluation initial validé par vos équipes
Un tableau de bord temps réel : latence, taux de réponses sourcées, signalements
Un script de rejeu automatique du jeu d'évaluation sur demande
Un audit trimestriel inclus dans l'accompagnement mensuel, le cas échéant
Une documentation pour que vos équipes puissent enrichir le jeu de manière autonome

Pour aller plus loin

Si vous avez un système RAG en production sans évaluation formelle, on peut faire un audit rapide pour identifier où en est la qualité réelle : projects@littlab.com.

3 erreurs RAG en production · Livrer un RAG en production · Tous les articles

AI Search

AI Workflow

AI Portal

ERP métier + IA

AI Strategy Sprint