Est-ce vraiment possible de dépenser 500 millions en un mois sans que personne ne s'en rende compte ?

Oui, si aucun plafond ni aucune alerte n'est configuré sur les licences distribuées. Sans tableau de bord ni limite par utilisateur, la facture ne devient visible qu'en fin de cycle de facturation, quand il est trop tard pour agir.

Ce genre de dérapage concerne surtout les grandes entreprises ou aussi les équipes plus petites ?

Le montant est exceptionnel, mais le mécanisme touche n'importe quelle taille de structure. Une équipe de dix personnes qui utilise le modèle le plus cher pour des tâches triviales, sans surveiller sa consommation, peut se retrouver avec une facture disproportionnée bien avant d'atteindre neuf chiffres.

Pourquoi utiliser un modèle haut de gamme pour vérifier la météo ou reformuler un mail ?

Souvent parce que c'est le modèle par défaut dans l'outil déployé, et que personne n'a défini de règle de sélection selon la tâche. Sans politique explicite, les employés prennent l'outil disponible, pas le plus adapté.

Les agents IA en arrière-plan sont-ils vraiment plus dangereux pour le budget que les usages manuels ?

Beaucoup plus, parce qu'ils tournent en continu, en parallèle, avec des contextes souvent surdimensionnés, sans intervention humaine pour freiner. Un workflow agentique mal dimensionné peut générer en quelques heures ce qu'un employé consommerait en plusieurs semaines.

Par où commencer concrètement pour éviter ce genre de situation ?

Traiter la dépense IA exactement comme une facture cloud : plafonds par utilisateur, alertes automatiques à des seuils définis, et revue mensuelle de la consommation par équipe. Ce sont des pratiques FinOps classiques qui n'ont simplement pas encore été transposées à l'IA dans beaucoup d'organisations.

500 millions de dollars de Claude en un mois

Une boîte a laissé ses employés brûler un demi-milliard sans jamais poser de plafond.

Que s'est-il vraiment passé ?

Un consultant IA a balancé l'histoire à Axios. Un de ses clients a dépensé 500 millions de dollars sur Claude. En un seul mois.

La raison officielle ? Aucune limite d'usage sur les licences distribuées aux employés.

Donc tout le monde dans la boîte pouvait taper dans Claude autant qu'il voulait, sans cap, sans alerte, sans rien.

Le détail qui tue, c'est l'usage. Un CTO a confié à Axios que ses équipes utilisaient l'IA pour des trucs comme vérifier la météo, avec un modèle facturé au token.

On ne connaît pas le nom de l'entreprise. Mais vu l'échelle, ça ne peut être qu'un très gros groupe. Et forcément, le doigt se pointe vers Microsoft. 😂

J'y reviens plus bas, parce que cette piste est plus bancale qu'elle n'en a l'air.

33 000Md de tokens, ça représente quoi ?

Numerama a sorti la calculette, et je trouve l'exercice utile. Anthropic facturerait Claude Opus 4.8 comme suit :

5$ / million de tokens en entrée
25$ / million de tokens en sortie

Si on prend ces prix, 500M$ donnent une fourchette :

100 000Md de tokens si tout passe en entrée
20 000Md de tokens si tout passe en sortie

Numerama estime un mix à environ 33 000Md de tokens. Ce qui tombe pile dans la fourchette.

Pour visualiser, un livre c'est grosso modo 100 000 tokens. 33 000Md de tokens, c'est l'équivalent d'environ 330M bouquins avalés en 30 jours.

La vérité c'est que ce genre de volume ne sort pas de quelques prompts par jour. Il sort d'agents qui tournent en boucle, de workflows agentiques lancés en parallèle, de contextes gonflés à bloc.

Pourquoi ce n'est pas un accident isolé ?

Ce cas est extrême, mais il s'inscrit dans une tendance que je vois monter depuis des semaines. Les boîtes qui étaient à fond commencent à serrer la vis.

Microsoft a annulé la plupart de ses licences Claude Code internes, en partie pour des raisons de coût, et bascule vers GitHub Copilot CLI. Chez eux, certains ingénieurs généraient entre 500 et 2000$ de coûts IA par mois et par personne.
Uber a cramé son budget Claude Code 2026 dès le mois d'avril. Le COO dit que les coûts IA sont "de plus en plus difficiles à justifier".
Amazon a mis fin à son classement interne KiroRank, qui poussait les salariés à utiliser l'IA le plus possible.

Et c'est là que la piste Microsoft pour les 500M devient bizarre. Microsoft vient de couper Claude Code pour des questions de coût. Difficile d'imaginer la même boîte laisser filer un demi-milliard sur Claude le même mois.

Soit c'est précisément cette facture qui a déclenché la coupe. Soit ce n'est pas Microsoft. Je me garderais de trancher tant que personne n'a de nom.

L'IA coûte-t-elle vraiment plus cher qu'un humain ?

C'est la question que tout le monde pose. Et je trouve qu'elle est mal posée.

Le problème dans cette histoire, ce n'est pas le prix du token. C'est qu'on a sorti une Ferrari pour aller chercher le pain.

Sophia Velastegui, ancienne responsable IA chez Microsoft, a mis le doigt dessus chez Axios : les gens automatisent en priorité les tâches qu'ils détestent, pas les tâches qui rapportent à la boîte.

Donc on colle de l'Opus 4.8 sur de la météo et de la paraphrase de mails, là où un simple appel à une API gratuite ferait le job.

Le vrai diagnostic, pour moi, c'est ça :

Pas de garde-fous, donc pas de plafond de dépense ni d'alerte
Pas de model selection, donc le modèle le plus cher utilisé partout par défaut
Pas de right-sizing, donc des contextes énormes envoyés pour des tâches triviales
Pas de culture FinOps appliquée à l'IA, donc personne ne regarde la facture avant qu'elle explose

L'IA n'est pas chère. L'IA mal pilotée est ruineuse. Ce n'est pas la même phrase.

Comment éviter de cramer son budget ?

Je code avec ces outils au quotidien, et je sais à quelle vitesse une facture peut grimper si on y va en YOLO. Voilà ce que je retiens concrètement :

Mettre des limites dures par utilisateur et par équipe. Un plafond mensuel et des alertes, comme sur n'importe quel cloud.
Choisir le modèle selon la tâche. Un petit modèle pour le trivial, le gros modèle réservé aux tâches qui le justifient vraiment.
Surveiller la consommation de tokens comme on surveille une note AWS. Un dashboard, pas une découverte en fin de mois.
Couper les agents qui tournent en boucle. Les workflows agentiques en parallèle, c'est puissant, mais c'est aussi le poste de dépense le plus vicieux.
Mesurer le retour. Si une tâche automatisée coûte plus cher que de la faire à la main, on arrête.

Rien de sorcier là-dedans. Ce sont les mêmes réflexes que pour le cloud il y a quinze ans. On a juste oublié de les appliquer à l'IA parce que la peur de rater le train a fait sauter la gouvernance.

Et maintenant ?

La phase "on allume l'IA pour tout le monde et on voit ce qui se passe" est en train de se terminer. La prochaine, c'est celle où il faut prouver le ROI avant de lâcher les agents sur le budget.

La vraie question pour 2026, ce n'est pas "l'IA coûte-t-elle trop cher". C'est : qui, dans ta boîte, regarde la facture token avant qu'elle atteigne sept chiffres ?