Claude Opus 4.8

Claude Opus 4.8
Alexandre P. dans News - mis à jour le 29-05-2026

Claude Opus 4.8 est sorti discrètement, présenté comme une mise à jour modeste. Pourtant, deux changements concrets transforment l'usage quotidien en codage agentique.

Anthropic a sorti Opus 4.8 le 28 mai, et la com officielle vend ça comme une "amélioration modeste mais tangible". Sauf que pour quelqu'un qui code avec Claude tous les jours, ce n'est pas du tout là que se joue l'intéressant.

Pourquoi Anthropic sous-vend sa propre release

Lisez l'annonce. Le mot qui revient, c'est "modest". Une montée de benchmarks, un meilleur collaborateur, même prix.

Et c'est vrai sur le papier. Opus 4.8 reprend Opus 4.7 et pousse les scores un cran plus haut, sans toucher au tarif.

Mais le vrai sujet n'est pas dans le tableau de benchmarks. Il est dans 2 trucs que la plupart des gens vont scroller sans lire : l'honnêteté du modèle et le contrôle de l'effort.

L'honnêteté, le seul chiffre qui compte vraiment

Le problème classique d'un LLM en agentique, c'est qu'il fonce.

Il affirme avoir réglé le bug, il dit que le test passe, il conclut que la migration est faite. Et vous, vous découvrez le contraire trois heures plus tard.

Anthropic annonce que Opus 4.8 est environ 4 fois moins susceptible que son prédécesseur de laisser passer un défaut dans du code qu'il a écrit, sans rien signaler.

4 fois, ce n'est pas un gain de benchmark, c'est une baisse du taux de mensonge par omission.

Concrètement, pour un dev :

  • Moins de "c'est bon j'ai fini" alors que rien ne tourne.
  • Plus de remontées spontanées du type "attention, je ne suis pas sûr de cette partie".
  • Moins de temps à repasser derrière pour vérifier ce qu'il prétend avoir fait.

J'ai passé assez de temps à débugger du code généré confiant et faux pour savoir que ce point pèse plus lourd que trois points de SWE-bench.

Le contrôle de l'effort : enfin un curseur

C'est la nouveauté la plus pratique de la sortie. Sur claude.ai et dans Claude Code, vous pilotez maintenant la quantité d'effort que le modèle met dans une tâche.

Le fonctionnement :

  • Effort haut (par défaut) : il réfléchit plus souvent et plus profond, meilleures réponses.
  • Effort bas : il répond plus vite et grignote moins vos rate limits.
  • Niveaux extra (ou "xhigh" dans Claude Code) et max : il crame plus de tokens pour de meilleurs résultats.

La reco d'Anthropic est claire : "extra" pour les tâches dures et les workflows asynchrones longs, le reste en défaut.

Détail qui compte pour le portefeuille : sur du code, l'effort par défaut dépense à peu près autant de tokens que le défaut de Opus 4.7, mais en faisant mieux. Donc à budget constant, vous gagnez en qualité.

Et le contrôle d'effort est dispo sur tous les plans, pas réservé aux abonnements à rallonge.

Dynamic workflows : la migration de codebase à grande échelle

Toujours en research preview, mais c'est le genre de feature qui fait rêver quand on a une vieille codebase à moderniser.

Dans Claude Code, Claude peut maintenant :

  • planifier le travail,
  • lancer des centaines de sous-agents en parallèle dans une seule session,
  • vérifier ses sorties avant de vous rendre la main.

L'exemple donné par Anthropic, c'est une migration à l'échelle de la codebase sur des centaines de milliers de lignes, du kickoff jusqu'au merge, avec la suite de tests existante comme barre de validation.

Réservé aux plans Enterprise, Team et Max. Donc pas pour tout le monde, mais l'orientation est nette: on va vers des sessions très longues et très parallèles.

Pour ceux qui buildent sur l'API

3 infos à retenir côté plateforme.

La Messages API accepte désormais des entrées système à l'intérieur du tableau "messages". En clair, vous pouvez mettre à jour les instructions de Claude en plein milieu d'une tâche sans casser le prompt cache et sans passer par un faux tour utilisateur. Pratique pour ajuster permissions, budget de tokens ou contexte d'environnement pendant qu'un agent tourne.

Le fast mode tourne à 2,5x la vitesse, et il est maintenant trois fois moins cher que sur les modèles précédents.

Et les retombées terrain sont déjà là dans les témoignages :

  • Devin signale que 4.8 corrige les soucis de verbosité dans les commentaires et de tool-calling vus sur 4.7.
  • Cursor note un tool calling plus efficace, moins d'étapes pour la même intelligence.
  • Databricks parle de raisonnement multimodal sur PDF et diagrammes à 61 % moins cher en tokens que 4.7.

Combien ça coûte

Le pricing ne bouge pas par rapport à Opus 4.7 :

  • 5$ / Mt input
  • 25$ / Mt output
  • Fast mode : 10$ / Mt input, 50$ / Mt output

Côté API, le modèle s'appelle "claude-opus-4-8".

Et après ?

Anthropic annonce deux directions.

D'abord, des modèles qui offriront une bonne partie des capacités d'Opus, mais moins cher. Bonne nouvelle pour qui code à grande échelle et regarde sa facture de tokens.

Ensuite, une nouvelle classe de modèle plus intelligente qu'Opus. Pour l'instant, ça s'appelle Claude Mythos Preview, c'est cantonné à de la cybersécurité chez quelques organisations dans le cadre du projet Glasswing, le temps de mettre en place les garde-fous. Anthropic dit vouloir l'ouvrir plus largement dans les semaines qui viennent.

Mon verdict

Si vous attendiez un saut spectaculaire, vous serez déçu, et Anthropic vous a prévenu.

Mais si vous vivez dans Claude Code au quotidien, la combinaison "moins de mensonges sur le travail fait" + "curseur d'effort" change vraiment la sensation d'usage. C'est moins sexy qu'un graphe de benchmark, c'est plus utile.

La vraie question, ce n'est pas Opus 4.8 contre Opus 4.7. C'est : qu'est-ce que vous allez faire d'un agent qui ment quatre fois moins et que vous pouvez régler comme un curseur ?

FAQ

Concrètement, comment activer les différents niveaux d'effort dans Claude Code ?

Dans Claude Code, vous passez le paramètre xhigh pour les tâches complexes ou les workflows longs. Le niveau par défaut reste suffisant pour la plupart des usages quotidiens, et tous les niveaux sont accessibles quel que soit votre plan d'abonnement.

La réduction des "mensonges par omission" est-elle vraiment mesurable ou juste du marketing ?

Anthropic annonce une probabilité environ 4 fois plus faible qu'Opus 4.7 de laisser passer silencieusement un défaut dans du code généré. C'est un chiffre interne, mais les retours de partenaires comme Devin et Cursor mentionnent effectivement moins de comportements erratiques sur le tool-calling, ce qui va dans le même sens.

Les dynamic workflows sont-ils utilisables maintenant, et faut-il un abonnement spécial ?

La fonctionnalité est en research preview, donc pas encore stable pour la production. Elle est réservée aux plans Enterprise, Team et Max, ce qui exclut les comptes individuels de base.

Est-ce que le prix de l'API a changé par rapport à Opus 4.7 ?

Non, le tarif reste identique : 5 dollars par million de tokens en entrée et 25 dollars en sortie. La bonne nouvelle est que le fast mode est désormais trois fois moins cher que sur les versions précédentes.

C'est quoi Claude Mythos et quand sera-t-il accessible ?

Mythos Preview est présenté comme une nouvelle classe de modèle plus capable qu'Opus, actuellement limitée à des organisations partenaires dans le domaine de la cybersécurité. Anthropic prévoit une ouverture plus large dans les semaines à venir, sans date précise annoncée.

#anthropic#code agentique#claude#opus 4.8

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.