Claude Sonnet 5: baisse de prix ?

Anthropic lance Sonnet 5, présenté comme l'équivalent quasi-Opus à prix Sonnet. Mais entre tokenizer plus gourmand et verbosité accrue, la facture réelle mérite qu'on y regarde de près.
Anthropic sort Sonnet 5 et le positionne comme du quasi-Opus à prix de Sonnet.
Sur le papier, l'offre est belle. Dans une vraie facture d'API, elle mérite qu'on regarde de plus près.
Qu'est-ce qu'Anthropic annonce exactement ?
Le modèle est sorti le 30 juin 2026. C'est le Sonnet le plus agentique de la gamme, celui qui planifie, enchaîne des outils (navigateur, terminal) et tourne en autonomie sur des tâches qui, il y a quelques mois, réclamaient un Opus.
Le pitch tient en une phrase. Sonnet 5 se rapproche d'Opus 4.8 en performance, mais à un prix inférieur.
Et Anthropic ne fait pas les choses à moitié côté distribution. Sonnet 5 devient le modèle par défaut sur les plans Free et Pro, il est dispo pour Max, Team et Enterprise, dans Claude Code et sur la plateforme via le modèle claude-sonnet-5.
Le prix de lancement, c'est 2$ le million de tokens en entrée et 10$ en sortie, jusqu'au 31 août 2026. Ensuite ça passe à 3 dollars en entrée et 15 dollars en sortie.
Pour comparaison, Opus 4.8 est à 5$ en entrée et 25$ en sortie.
Donc à première lecture, on paie moitié moins cher pour du presque-Opus. C'est exactement le message qu'on est censé retenir.
Que valent les benchmarks annoncés ?
D'abord une précision qui change tout : les chiffres du billet de lancement sont ceux d'Anthropic, mesurés sur son propre harness. Je les prends donc pour ce qu'ils sont, des benchmarks maison.
Sur les chiffres annoncés au lancement, le tableau est cohérent avec le pitch :
- SWE-bench Pro : 63,2 % contre 69,2 % pour Opus 4.8
- OSWorld-Verified : 81,2 % contre 83,4 % pour Opus 4.8
- Terminal-Bench 2.1 : 80,4 %, et là Sonnet 5 passe devant Opus 4.8 (74,6 %)
- GDPval-AA v2 : 1618 Elo, qui grille de justesse les 1615 d'Opus 4.8
- USAMO (maths olympiade) : 79,5 % contre 96,7 % pour Opus 4.8
Le pattern saute aux yeux. Sonnet 5 recolle sur le travail agentique et le knowledge work, mais reste largement derrière sur le raisonnement lourd et les maths.
Ce n'est pas un détail. C'est la ligne de partage entre les tâches où vous pouvez basculer sans réfléchir et celles où Opus garde sa raison d'être.
Et les chiffres indépendants, ils disent quoi ?
Là on sort du marketing. Artificial Analysis, qui mesure les modèles hors de l'infra d'Anthropic, place Sonnet 5 à 53 sur son Intelligence Index.
Ça le met numéro 5 de leur classement, 6 points au-dessus de Sonnet 4.6, au niveau de GPT-5.5 en high, et derrière Opus 4.7 et 4.8.
Sur le travail agentique de knowledge work précisément (leurs benchmarks AA-Briefcase et GDPval-AA), Sonnet 5 se retrouve juste devant Opus 4.8. Sur le raisonnement lourd, il reste derrière.
Petite transparence utile : Artificial Analysis précise avoir aidé Anthropic à évaluer le modèle avant la sortie. Ce n'est pas un audit surprise, mais leurs mesures tournent sur des API de production, pas en conditions de labo.
Donc jusqu'ici, tout colle. Le discours d'Anthropic tient. C'est plus haut dans la facture que ça se complique.
Alors pourquoi je ne signe pas le chèque tout de suite ?
Parce que le même Artificial Analysis lâche une phrase qui devrait vous refroidir. Hors prix promo, Sonnet 5 coûtera plus cher à la tâche qu'Opus 4.8.
Moins cher au token. Plus cher à la tâche.
Sonnet 5 est verbeux. Pour boucler leur Intelligence Index, il a craché autour de 300M de tokens, quand la moyenne des modèles tourne à 85M.
Et il ne se contente pas de parler plus. Il travaille plus :
- environ 40 % de tokens de sortie en plus que Sonnet 4.6 par tâche
- environ 3 fois plus de tours agentiques que 4.6 sur leurs évals de knowledge work
- en effort maximal, à peu près 6 fois plus de tours qu'en effort minimal sur GDPval-AA
Ce comportement est réglable via le niveau d'effort. C'est justement ce qu'Anthropic vend comme une force, cette capacité à ajuster le curseur coût/perf entre Sonnet 5 et Opus.
Mais le curseur coupe dans les 2 sens. Poussé en effort maximal pour aller chercher les scores d'Opus, Sonnet 5 consomme tellement de tokens et enchaîne tellement de tours que l'avantage prix au token fond.
Le prix au token, c'est un piège à quel point ?
Regardez le raisonnement à froid.
3$ en entrée et 15 en sortie contre 5 et 25 pour Opus, ça ressemble à une remise de 40%. C'est la lecture qu'on veut vous laisser faire.
Sauf qu'une facture ne se paie pas au token, elle se paie à la tâche accomplie. Et sur ce terrain, deux mécanismes viennent grignoter la remise.
Le premier, c'est la verbosité et les tours multipliés dont je viens de parler. Plus de sorties, plus d'allers-retours, plus de tokens facturés pour un même livrable.
Le second est plus discret. Sonnet 5 embarque un nouveau tokenizer. Anthropic le dit noir sur blanc : le même texte peut mapper vers plus de tokens, dans une fourchette d'environ 1,0 à 1,35 fois selon le contenu.
Autrement dit, votre prompt d'hier facturé sur Sonnet 4.6 peut compter jusqu'à 35% de tokens en plus sur Sonnet 5, à texte identique.
Et il y a un aveu qui devrait finir de vous convaincre. Anthropic explique avoir calibré le prix promo pour que le passage à Sonnet 5 soit à peu près neutre en coût par rapport à 4.6.
Traduisez: si le prix de lancement est fixé pour être neutre, c'est que le prix standard, lui, ne l'est pas. La hausse du nombre de tokens est réelle, et c'est la promo qui l'absorbe temporairement.
Donc le vrai KPI à surveiller, ce n'est pas le prix au million de tokens affiché sur la page. C'est votre coût par tâche terminée, mesuré sur votre trafic à vous.
Et côté sécurité, quoi de neuf ?
Sur ce point, l'annonce est plutôt honnête et je ne vais pas jouer les procureurs sur un modèle que je n'ai pas encore stressé moi-même.
Anthropic annonce un taux de comportements indésirables plus bas que Sonnet 4.6, avec moins d'hallucinations et moins de complaisance. Mais toujours au-dessus d'Opus 4.8 et de Mythos Preview sur leur audit comportemental automatisé.
Côté cyber, le modèle part avec les garde-fous temps réel activés par défaut, les mêmes que sur Opus 4.7 et 4.8.
Le détail parlant : sur un test d'exploit sur Firefox mené avec Mozilla, Sonnet 5 n'a jamais produit d'exploit fonctionnel complet. Il montre juste un taux de réussite partielle un peu plus élevé que 4.6, ce qu'Anthropic attribue à la hausse d'intelligence générale plutôt qu'à un entraînement dédié.
Rien d'alarmant. Rien de spectaculaire non plus.
Mais vu que sur les API, Sonnet 4.6 est déjà délisté (bien que toujours accessible pour le moment), j'ai anticipé la décommission et déjà tout redéployé en Sonnet 5 sur mes projets.
FAQ
Le prix promo se termine quand, et est-ce que ça change vraiment quelque chose ?
La promotion à 2$/10$ par million de tokens est valable jusqu'au 31 août 2026, après quoi le prix passe à 3$/15$. Mais même au tarif promo, Anthropic reconnaît que les prix ont été calibrés pour rester neutres par rapport à Sonnet 4.6, ce qui implique que le tarif standard, lui, sera plus élevé en pratique à cause de la verbosité accrue du modèle.
Qu'est-ce que ça veut dire concrètement que le modèle est "verbeux" ?
Sonnet 5 génère environ 40 % de tokens de sortie en plus que Sonnet 4.6 pour une même tâche, et jusqu'à trois fois plus de tours agentiques. En clair, même si le prix affiché au million de tokens est inférieur à Opus, votre facture finale par tâche accomplie peut dépasser celle d'Opus si vous poussez le modèle à effort maximal.
Le nouveau tokenizer peut vraiment gonfler mes coûts sans que je m'en rende compte ?
Oui, c'est un effet discret mais réel : un même texte peut consommer jusqu'à 35 % de tokens supplémentaires sur Sonnet 5 par rapport aux versions précédentes, à contenu identique. Cela signifie que vos prompts existants seront facturés plus cher sans aucune modification de votre côté.
Pour quel type de tâches Opus reste-t-il vraiment indispensable ?
Sur le raisonnement lourd et les mathématiques avancées, l'écart reste significatif, par exemple 79,5 % contre 96,7 % sur l'USAMO. Si votre usage implique ce type de raisonnement, migrer vers Sonnet 5 uniquement pour faire des économies risque de dégrader la qualité des résultats.
Comment savoir si Sonnet 5 est réellement moins cher pour mon usage ?
Le seul indicateur fiable est votre coût par tâche terminée mesuré sur votre propre trafic, pas le prix au million de tokens affiché. Il vaut la peine de faire tourner un échantillon représentatif de vos requêtes réelles sur les deux modèles avant de migrer complètement.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture

