Comment évaluer la qualité d'un système de recherche augmentée
Un système RAG sans mesure est un pari. Voici la méthode d'évaluation que nous appliquons à toutes nos missions : indicateurs concrets, processus de mesure, et seuils de décision.
Pourquoi mesurer rigoureusement
Un système RAG enchaîne plusieurs étapes : recherche dans une base vectorielle, sélection des passages, génération de réponse, citation des sources. Une dégradation à n'importe quel étage se traduit par une mauvaise réponse — mais sans mesure, vous ne sauriez pas où chercher.
Pire : les modifications « locales » (changement de modèle, ajustement du prompt, nouveau découpage) peuvent améliorer 70 % des cas et casser silencieusement les 30 % restants. Sans baseline mesurable, vous régressez sans le voir.
Les 4 niveaux de mesure
Niveau 1 — Qualité de la recherche
Mesure si les passages pertinents sont récupérés dans le top-K résultats.
- Recall@K : sur les K passages retournés, quel pourcentage des passages vraiment pertinents sont présents ? Cible : 85-95 % sur les requêtes typiques.
- Precision@K : sur les K passages retournés, quel pourcentage est réellement pertinent ? Cible : 70-85 %.
- MRR (Mean Reciprocal Rank) : rang moyen du premier passage pertinent. Cible : le passage pertinent en position 1 ou 2.
Niveau 2 — Qualité de la réponse
Mesure si la réponse générée à partir des passages est correcte et bien sourcée.
- Taux de réponses sourcées : pourcentage de réponses qui citent au moins une source identifiable. Cible : ≥ 95 %.
- Fidélité (faithfulness) : pourcentage de réponses dont les affirmations sont effectivement présentes dans les sources citées. Cible : ≥ 90 %.
- Pertinence métier : validation humaine ponctuelle sur un échantillon, jugée par les équipes métier.
Niveau 3 — Performance opérationnelle
Mesure que le système marche dans la vraie vie, à charge réelle.
- Latence p50, p95, p99 : temps de réponse complet. Cible variable selon le cas, généralement < 3 s en p95 pour une UX correcte.
- Disponibilité mensuelle : pourcentage d'uptime. Cible : 99,5 % minimum.
- Coût par requête : token IA + infrastructure + stockage. À suivre pour anticiper la facture à l'échelle.
Niveau 4 — Satisfaction utilisateur
La mesure qui compte vraiment au final.
- Taux de signalements négatifs : bouton « cette réponse ne m'aide pas » dans l'interface.
- Taux de re-formulation : pourcentage d'utilisateurs qui posent une 2ᵉ question proche après une réponse insatisfaisante.
- Taux d'usage : qui utilise le système, à quelle fréquence, sur quels sujets.
Le jeu d'évaluation : pierre angulaire
Pour mesurer Recall@K, Precision@K, fidélité, il faut un jeu d'évaluation. Sans ce jeu, aucun chiffre fiable n'est possible.
Comment le constituer :
- Atelier avec les équipes métier pour lister 50 à 200 requêtes typiques
- Pour chaque requête, identifier les passages du corpus qui devraient absolument apparaître
- Ajouter des requêtes adverses : mal formulées, hors-scope, ambiguës, hostiles
- Versionner le jeu (Git) pour suivre son évolution
- Rejouer le jeu à chaque modification du système
L'évaluation continue en production
Le jeu d'évaluation initial est nécessaire mais pas suffisant. La qualité doit aussi être mesurée sur les requêtes réelles des utilisateurs.
- Logger chaque requête, les passages retournés, la réponse
- Permettre aux utilisateurs de signaler une mauvaise réponse en un clic
- Échantillonner régulièrement des requêtes réelles pour validation humaine
- Suivre l'évolution des indicateurs dans le temps (dérive)
- Enrichir le jeu d'évaluation avec les cas problématiques rencontrés en production
La dérive silencieuse
Un système RAG en production se dégrade naturellement avec le temps :
- Le corpus évolue (nouvelles versions de documents, contenus obsolètes)
- Les utilisateurs posent de nouvelles questions inattendues
- Les modèles IA sous-jacents évoluent
- L'écart entre le jeu d'évaluation initial et l'usage réel grandit
Sans audit régulier (trimestriel minimum), un système qui donnait satisfaction à la mise en production peut chuter sans alerte. La supervision continue n'est pas optionnelle.
Notre dispositif standard
Sur chacune de nos missions RAG, nous livrons :
- Un jeu d'évaluation initial validé par vos équipes
- Un tableau de bord temps réel : latence, taux de réponses sourcées, signalements
- Un script de rejeu automatique du jeu d'évaluation sur demande
- Un audit trimestriel inclus dans l'accompagnement mensuel, le cas échéant
- Une documentation pour que vos équipes puissent enrichir le jeu de manière autonome
Pour aller plus loin
Si vous avez un système RAG en production sans évaluation formelle, on peut faire un audit rapide pour identifier où en est la qualité réelle : projects@littlab.com.