Série « Devenir expert de l'automatisation agentique » — Article 5 sur 5 (final). Article précédent : Coder ses propres agents avec Claude Code
Nous y sommes
On a parcouru l'écosystème (article 1), identifié pourquoi tant de POC échouent (article 2), comparé les solutions populaires (article 3), expliqué l'intérêt du sur-mesure (article 4). Il reste la question finale :
Comment savoir qu'un agent est vraiment prêt pour la production ?
La réponse tient en 3 critères. Ils sont universels — valables autant pour l'artisan qui démarre avec Delos que pour l'ETI qui construit ses agents sur Google ADK. Et ils sont ce qu'on vérifie, au quotidien, chez Déclic.
Le niveau « ultra-expert » : API brutes & frameworks enterprise
Petit détour par la couche 4 de la pyramide, rapide.
Les grands groupes, les éditeurs de logiciels, ou les cas critiques (latence, souveraineté, volume massif) appellent les API brutes :
- Anthropic Messages API — le moteur derrière Claude Code, Cursor, et des milliers d'apps
- Google Agent Development Kit (ADK) — le framework Google pour construire des agents enterprise
- OpenAI Responses API — la nouvelle API unifiée d'OpenAI (remplace peu à peu Chat Completions)
- Vertex AI Agents (Google), AWS Bedrock Agents (Amazon) — les offres cloud managées
Pour une TPE, en direct, c'est rarement utile. C'est le niveau où se construisent les plateformes SaaS elles-mêmes. Par contre, comprendre que vos outils reposent dessus est utile pour choisir.
Et surtout : quel que soit le niveau (plateforme ou API brute), les 3 critères d'adoption sont les mêmes.
La roadmap de maturité — et ce que chaque critère doit devenir
Un agent passe par 5 niveaux de maturité :
| Niveau | Description | Signal |
|---|---|---|
| 1. Démo | Ça marche sur 3 exemples choisis | « Regardez comme c'est magique ! » |
| 2. POC | Ça marche sur 30 cas, avec bugs visibles | « On va régler ça vite fait » |
| 3. Pilote | Ça tourne sur 1 client réel, sous surveillance rapprochée | On corrige en live |
| 4. Prod | Ça tourne seul pendant 6 mois, sans drame | On oublie qu'il existe |
| 5. Scale | 10+ clients ou 100+ agents, multi-tenant | On industrialise |
Et à chaque niveau, les 3 critères doivent monter en maturité. On ne passe pas au niveau suivant tant que le niveau courant n'est pas solide.
Critère 1 — Observabilité
La question clé : « En ce moment, là, combien cet agent m'a-t-il coûté ce mois-ci, combien de fois a-t-il tourné, et quel est son taux d'échec ? »
Si la réponse demande plus de 30 secondes, l'observabilité est insuffisante.
Ce qu'il faut voir :
| Métrique | Pourquoi |
|---|---|
| Nombre d'exécutions / période | Savoir si l'agent travaille (ou pas) |
| Coût par exécution (tokens × modèle) | Éviter la facture surprise |
| Latence | Un agent qui met 3 minutes au lieu de 10s, c'est souvent un signal |
| Taux d'échec / retries | Détecter une dégradation avant qu'elle ne casse le service |
| Trace complète (inputs, outputs, outils appelés) | Pouvoir déboguer quand un utilisateur se plaint |
Niveau 1 (démo) : aucune observabilité
Niveau 3 (pilote) : coût par run + logs accessibles
Niveau 4 (prod) : dashboards, alertes, rétention 30+ jours
Niveau 5 (scale) : traces distribuées, corrélation multi-agent
Chez Déclic, toute exécution d'agent est tracée dans la table ops_sessions (statut, tokens, coût, erreurs). Un récap quotidien arrive par email à 6h. C'est le minimum vital.
Critère 2 — Évaluation
La question clé : « Comment je sais qu'une modification du prompt n'a pas cassé ce qui marchait hier ? »
Si la réponse est « on regarde à l'œil », l'évaluation est insuffisante. C'est le critère le plus souvent oublié — et le plus critique.
Les 3 types d'évaluation
- Jeu de tests fixes — une liste de cas d'usage (30-100), avec les sorties attendues. À chaque modification, on rejoue. Si un cas casse, on voit immédiatement.
- Évaluation LLM-as-a-judge — un second agent (souvent plus puissant) note la qualité de la sortie selon des critères (pertinence, ton, exactitude). Permet d'évaluer des tâches à sortie libre.
- A/B testing en prod — deux versions de prompt coexistent, on mesure laquelle performe mieux sur des métriques métier (taux de conversion, temps de traitement...).
Niveau de maturité par niveau :
| Niveau | État de l'évaluation |
|---|---|
| 1-2 | ❌ Aucune, ou « on regarde » |
| 3 | Jeu de tests fixe lancé manuellement |
| 4 | CI qui bloque un déploiement si régression |
| 5 | A/B en prod + évaluation LLM continue |
Quand vous êtes au niveau 3+, une modification du prompt n'est plus un acte de foi : c'est une modification testée, mesurée, validée.
Critère 3 — Human-in-the-loop (HITL)
La question clé : « Qu'est-ce qui empêche l'agent de faire une action que je n'aurais pas validée ? »
C'est la règle n°1 de Déclic : jamais d'envoi automatique. Les agents génèrent des drafts. Mathieu (ou le client) valide. Seulement après, l'action réelle est exécutée.
Les 4 niveaux de HITL
- Humain partout (niveau 1) — l'agent propose, l'humain fait tout. Lent mais sûr.
- Draft → validation (niveau 2-3) — l'agent écrit un brouillon, l'humain approuve en 1 clic. C'est le sweet spot Déclic.
- Seuils automatiques (niveau 4) — pour les actions à faible enjeu (réponse simple, ajout de tag), l'agent agit seul. Pour les actions sensibles (envoi, facturation), validation humaine obligatoire.
- HITL paramétrable (niveau 5) — chaque utilisateur configure ses seuils selon son niveau de confiance.
Les actions qui DOIVENT rester en HITL (toujours)
- Envoi d'emails à des clients
- Facturation / règlement
- Modification ou suppression de données clients
- Signature électronique
- Publication externe (réseaux, site web public)
Les actions qu'on PEUT automatiser (avec garde-fous)
- Classement / tagging / priorisation interne
- Création de brouillons
- Notifications internes
- Lecture / enrichissement de données
- Synchronisation entre outils internes
La check-list d'adoption — 10 questions avant de signer
Avant de valider un projet IA (qu'il s'agisse d'une plateforme SaaS ou d'un prestataire sur-mesure), posez ces 10 questions. Si la réponse à plus de 3 d'entre elles est floue, ce n'est pas prêt pour la prod.
Observabilité
- Où puis-je voir, maintenant, combien l'agent a coûté ce mois-ci ?
- Si un utilisateur se plaint d'une erreur il y a 10 jours, comment je retrouve ce qui s'est passé ?
- Qu'est-ce qui déclenche une alerte pour moi, concrètement ?
Évaluation 4. Comment je teste qu'une modification du prompt n'a pas cassé ce qui marchait ? 5. Avez-vous un jeu de cas de tests documenté pour cet agent ? 6. Quelle est votre procédure quand on détecte une régression en prod ?
Human-in-the-loop 7. Listez toutes les actions que l'agent peut faire sans validation humaine. 8. Où et comment je valide les actions qui en ont besoin ? 9. Si je suis absent 5 jours, que se passe-t-il ?
Propriété & réversibilité 10. Si je veux partir, qu'est-ce que je récupère, en combien de temps, et dans quel format ?
La suite : vos 3 prochaines actions concrètes
1. Auditez votre situation actuelle
Si vous avez déjà un outil IA en place (Zapier, Delos, Dust, autre), notez-le sur les 3 critères :
- Observabilité sur 10 : ___
- Évaluation sur 10 : ___
- HITL sur 10 : ___
Si la moyenne est sous 5, vous n'êtes pas en production. Vous êtes en POC permanent.
2. Priorisez par la douleur
Listez les 3 tâches qui vous bouffent le plus de temps cette semaine. Pas celles dont on parle depuis 6 mois. Celles que vous avez faites cette semaine. C'est par là qu'on commence.
3. Démarrez petit, mesurez, élargissez
La règle Déclic : un agent, un process, bien fait, avant d'en empiler dix mal faits. Mieux vaut un agent relance qui tourne proprement pendant 12 mois qu'une usine à gaz qui plante au bout de 3.
Récap de la série
- Article 1 : L'écosystème de l'automatisation agentique — la carte des 4 couches
- Article 2 : Le problème oublié — un agent a besoin d'une infra — l'iceberg
- Article 3 : Delos, Dust, Make, n8n — comparatif honnête — la matrice
- Article 4 : Coder ses agents avec Claude Code — le niveau expert
- Article 5 (vous êtes ici) — les 3 critères d'adoption
Passez à l'action
Vous avez lu les 5 articles. Vous avez la carte, la check-list, le vocabulaire. Il vous manque peut-être juste quelqu'un qui a déjà fait le chemin pour vous éviter les 3-4 pièges classiques.
C'est précisément ce que propose Déclic : un audit flash gratuit de 30 minutes pour poser les 3-5 tâches à plus fort levier de votre activité, les noter sur les 3 critères, et décider ensemble si un sur-mesure est pertinent — ou si une solution plus simple suffit largement.
Pas de vente agressive. On vous dira honnêtement, y compris, « pour votre cas, Zapier suffit, gardez vos sous ».
Merci d'avoir suivi la série. À dans quelques semaines pour de nouveaux sujets — et d'ici là : automatisez, mais proprement.