Série « Devenir expert de l'automatisation agentique » — Article 5 sur 5 (final). Article précédent : Coder ses propres agents avec Claude Code

Nous y sommes

On a parcouru l'écosystème (article 1), identifié pourquoi tant de POC échouent (article 2), comparé les solutions populaires (article 3), expliqué l'intérêt du sur-mesure (article 4). Il reste la question finale :

Comment savoir qu'un agent est vraiment prêt pour la production ?

La réponse tient en 3 critères. Ils sont universels — valables autant pour l'artisan qui démarre avec Delos que pour l'ETI qui construit ses agents sur Google ADK. Et ils sont ce qu'on vérifie, au quotidien, chez Déclic.

Le niveau « ultra-expert » : API brutes & frameworks enterprise

Petit détour par la couche 4 de la pyramide, rapide.

Les grands groupes, les éditeurs de logiciels, ou les cas critiques (latence, souveraineté, volume massif) appellent les API brutes :

  • Anthropic Messages API — le moteur derrière Claude Code, Cursor, et des milliers d'apps
  • Google Agent Development Kit (ADK) — le framework Google pour construire des agents enterprise
  • OpenAI Responses API — la nouvelle API unifiée d'OpenAI (remplace peu à peu Chat Completions)
  • Vertex AI Agents (Google), AWS Bedrock Agents (Amazon) — les offres cloud managées

Pour une TPE, en direct, c'est rarement utile. C'est le niveau où se construisent les plateformes SaaS elles-mêmes. Par contre, comprendre que vos outils reposent dessus est utile pour choisir.

Et surtout : quel que soit le niveau (plateforme ou API brute), les 3 critères d'adoption sont les mêmes.

La roadmap de maturité — et ce que chaque critère doit devenir

Roadmap de maturité d'un agent IA en 5 niveaux avec progression des 3 critères

Un agent passe par 5 niveaux de maturité :

Niveau Description Signal
1. Démo Ça marche sur 3 exemples choisis « Regardez comme c'est magique ! »
2. POC Ça marche sur 30 cas, avec bugs visibles « On va régler ça vite fait »
3. Pilote Ça tourne sur 1 client réel, sous surveillance rapprochée On corrige en live
4. Prod Ça tourne seul pendant 6 mois, sans drame On oublie qu'il existe
5. Scale 10+ clients ou 100+ agents, multi-tenant On industrialise

Et à chaque niveau, les 3 critères doivent monter en maturité. On ne passe pas au niveau suivant tant que le niveau courant n'est pas solide.

Critère 1 — Observabilité

La question clé : « En ce moment, là, combien cet agent m'a-t-il coûté ce mois-ci, combien de fois a-t-il tourné, et quel est son taux d'échec ? »

Si la réponse demande plus de 30 secondes, l'observabilité est insuffisante.

Ce qu'il faut voir :

Métrique Pourquoi
Nombre d'exécutions / période Savoir si l'agent travaille (ou pas)
Coût par exécution (tokens × modèle) Éviter la facture surprise
Latence Un agent qui met 3 minutes au lieu de 10s, c'est souvent un signal
Taux d'échec / retries Détecter une dégradation avant qu'elle ne casse le service
Trace complète (inputs, outputs, outils appelés) Pouvoir déboguer quand un utilisateur se plaint

Niveau 1 (démo) : aucune observabilité

Niveau 3 (pilote) : coût par run + logs accessibles

Niveau 4 (prod) : dashboards, alertes, rétention 30+ jours

Niveau 5 (scale) : traces distribuées, corrélation multi-agent

Chez Déclic, toute exécution d'agent est tracée dans la table ops_sessions (statut, tokens, coût, erreurs). Un récap quotidien arrive par email à 6h. C'est le minimum vital.

Critère 2 — Évaluation

La question clé : « Comment je sais qu'une modification du prompt n'a pas cassé ce qui marchait hier ? »

Si la réponse est « on regarde à l'œil », l'évaluation est insuffisante. C'est le critère le plus souvent oublié — et le plus critique.

Les 3 types d'évaluation

  1. Jeu de tests fixes — une liste de cas d'usage (30-100), avec les sorties attendues. À chaque modification, on rejoue. Si un cas casse, on voit immédiatement.
  2. Évaluation LLM-as-a-judge — un second agent (souvent plus puissant) note la qualité de la sortie selon des critères (pertinence, ton, exactitude). Permet d'évaluer des tâches à sortie libre.
  3. A/B testing en prod — deux versions de prompt coexistent, on mesure laquelle performe mieux sur des métriques métier (taux de conversion, temps de traitement...).

Niveau de maturité par niveau :

Niveau État de l'évaluation
1-2 ❌ Aucune, ou « on regarde »
3 Jeu de tests fixe lancé manuellement
4 CI qui bloque un déploiement si régression
5 A/B en prod + évaluation LLM continue

Quand vous êtes au niveau 3+, une modification du prompt n'est plus un acte de foi : c'est une modification testée, mesurée, validée.

Critère 3 — Human-in-the-loop (HITL)

La question clé : « Qu'est-ce qui empêche l'agent de faire une action que je n'aurais pas validée ? »

C'est la règle n°1 de Déclic : jamais d'envoi automatique. Les agents génèrent des drafts. Mathieu (ou le client) valide. Seulement après, l'action réelle est exécutée.

Les 4 niveaux de HITL

  1. Humain partout (niveau 1) — l'agent propose, l'humain fait tout. Lent mais sûr.
  2. Draft → validation (niveau 2-3) — l'agent écrit un brouillon, l'humain approuve en 1 clic. C'est le sweet spot Déclic.
  3. Seuils automatiques (niveau 4) — pour les actions à faible enjeu (réponse simple, ajout de tag), l'agent agit seul. Pour les actions sensibles (envoi, facturation), validation humaine obligatoire.
  4. HITL paramétrable (niveau 5) — chaque utilisateur configure ses seuils selon son niveau de confiance.

Les actions qui DOIVENT rester en HITL (toujours)

  • Envoi d'emails à des clients
  • Facturation / règlement
  • Modification ou suppression de données clients
  • Signature électronique
  • Publication externe (réseaux, site web public)

Les actions qu'on PEUT automatiser (avec garde-fous)

  • Classement / tagging / priorisation interne
  • Création de brouillons
  • Notifications internes
  • Lecture / enrichissement de données
  • Synchronisation entre outils internes

La check-list d'adoption — 10 questions avant de signer

Avant de valider un projet IA (qu'il s'agisse d'une plateforme SaaS ou d'un prestataire sur-mesure), posez ces 10 questions. Si la réponse à plus de 3 d'entre elles est floue, ce n'est pas prêt pour la prod.

Observabilité

  1. Où puis-je voir, maintenant, combien l'agent a coûté ce mois-ci ?
  2. Si un utilisateur se plaint d'une erreur il y a 10 jours, comment je retrouve ce qui s'est passé ?
  3. Qu'est-ce qui déclenche une alerte pour moi, concrètement ?

Évaluation 4. Comment je teste qu'une modification du prompt n'a pas cassé ce qui marchait ? 5. Avez-vous un jeu de cas de tests documenté pour cet agent ? 6. Quelle est votre procédure quand on détecte une régression en prod ?

Human-in-the-loop 7. Listez toutes les actions que l'agent peut faire sans validation humaine. 8. Où et comment je valide les actions qui en ont besoin ? 9. Si je suis absent 5 jours, que se passe-t-il ?

Propriété & réversibilité 10. Si je veux partir, qu'est-ce que je récupère, en combien de temps, et dans quel format ?

La suite : vos 3 prochaines actions concrètes

1. Auditez votre situation actuelle

Si vous avez déjà un outil IA en place (Zapier, Delos, Dust, autre), notez-le sur les 3 critères :

  • Observabilité sur 10 : ___
  • Évaluation sur 10 : ___
  • HITL sur 10 : ___

Si la moyenne est sous 5, vous n'êtes pas en production. Vous êtes en POC permanent.

2. Priorisez par la douleur

Listez les 3 tâches qui vous bouffent le plus de temps cette semaine. Pas celles dont on parle depuis 6 mois. Celles que vous avez faites cette semaine. C'est par là qu'on commence.

3. Démarrez petit, mesurez, élargissez

La règle Déclic : un agent, un process, bien fait, avant d'en empiler dix mal faits. Mieux vaut un agent relance qui tourne proprement pendant 12 mois qu'une usine à gaz qui plante au bout de 3.

Récap de la série

Passez à l'action

Vous avez lu les 5 articles. Vous avez la carte, la check-list, le vocabulaire. Il vous manque peut-être juste quelqu'un qui a déjà fait le chemin pour vous éviter les 3-4 pièges classiques.

C'est précisément ce que propose Déclic : un audit flash gratuit de 30 minutes pour poser les 3-5 tâches à plus fort levier de votre activité, les noter sur les 3 critères, et décider ensemble si un sur-mesure est pertinent — ou si une solution plus simple suffit largement.

Pas de vente agressive. On vous dira honnêtement, y compris, « pour votre cas, Zapier suffit, gardez vos sous ».

Réserver votre audit flash →

Merci d'avoir suivi la série. À dans quelques semaines pour de nouveaux sujets — et d'ici là : automatisez, mais proprement.