La frontière utile : vérifiable, pas déterministe

En testant mon moteur IA en prod, j’ai fini par réaliser que la frontière utile n’est pas déterministe / non-déterministe. C’est vérifiable / subjectif.

J’ai atterri sur trois couches de tests, chacune avec sa propre philosophie face au non-déterminisme :

E2E sans LLM. Un planner déterministe injecté via la même interface que le vrai. Mêmes flux, mêmes validations, zéro aléatoire. Les tests couvrent le pipeline réel sans jamais toucher un modèle.

Scoring structuré. Une fonction pure avec matchers pondérés. Un IBAN ou un montant en millièmes, c’est exact ou c’est faux, gate binaire. Une reformulation de notification, c’est du contains. On sépare ce qui DOIT être exact de ce qui peut varier.

Evals statistiques. Chaque scénario tourne N fois avec le vrai LLM. Moyenne et variance. “Les copropriétaires ne sont pas mentionnés” au lieu de “Aucun propriétaire trouvé”, ça passe. 196 millièmes au lieu de 195, ça casse.

Bonus : une suite de tests de “ton” vérifie des invariants de marque sur toutes les pages. Pas de tutoiement, pas de jargon comptable, pas d’emojis, pas de noms de modèles. 100% déterministe, 100% utile.

Testez les faits. Scorez les intentions.