Est-ce que 1000 tokens par seconde est vraiment une performance exceptionnelle ?

Non, des solutions comme Cerebras ou Groq dépassent déjà ce seuil depuis un moment. Ce qui est potentiellement intéressant ici, c'est d'atteindre cette vitesse sur du matériel GPU standard plutôt que sur du silicium conçu sur mesure.

Les optimisations techniques annoncées sont-elles crédibles ?

Les approches utilisées (quantification FP4 ciblée, speculative decoding, pipeline résidant en GPU) sont des techniques reconnues. Le problème, c'est que les résultats présentés viennent exclusivement des propres benchmarks de Xiaomi, sans validation indépendante à ce stade.

Dans quels cas le débit de 1000 tps est-il réellement atteint ?

Sur du code et des formats structurés, principalement. Le speculative decoding fonctionne bien quand la sortie est prévisible, mais le taux d'acceptation chute sur des échanges ouverts, ce que Xiaomi reconnaît dans ses propres données.

Comment fonctionne l'accès à ce modèle concrètement ?

L'accès se fait sur candidature, avec un quota de 10 demandes par jour, des sessions limitées à 30 minutes et une fenêtre d'essai de deux semaines. Le tarif est environ trois fois celui de leur modèle précédent, pour un accès très restreint.

Peut-on tester ou vérifier le modèle soi-même ?

Oui, Xiaomi a publié les poids quantifiés et les paramètres du modèle sur HuggingFace, ce qui permet à la communauté de reproduire et de contredire les résultats. C'est la partie la plus solide de l'annonce.

Xiaomi annonce 1000 tokens par seconde

Xiaomi sort un modèle à 1000 tokens par seconde et emballe ça dans un récit sur la chirurgie et la course contre la mort. La prouesse technique est réelle. L'histoire racontée autour... ne l'est pas forcément.

1000 tokens par seconde, c'est vraiment un record ?

Pas vraiment. Et autant le dire tout de suite.

Cerebras tourne déjà à plus de 2600 tokens par seconde sur Llama 4 Scout. Groq pousse son LPU autour de 1200. OpenAI a sorti Codex-Spark à plus de 1000 tps en février, sur du Cerebras.

Donc le chiffre brut de 1000 tps n'a rien d'inédit en 2026.

Quand je vois passer un titre à "1000 tokens par seconde, première mondiale", je ne lis plus le titre. Je lis la note de bas de page.

Alors c'est quoi la vraie info ?

La vraie info, ce n'est pas la vitesse, mais sur quoi elle tourne.

Cerebras et Groq atteignent ces vitesses avec du silicium maison : des wafers géants, de la SRAM dédiée, du matériel pensé uniquement pour ça. Du sur-mesure hors de prix.

Xiaomi, lui, annonce 1000 tps sur un modèle à 1000Md de paramètres, posé sur un simple noeud de 8 GPU du commerce. Pas de puce exotique.

Et ça, si c'est vrai, c'est la seule ligne qui m'intéresse dans tout le communiqué.

Comment ils y arrivent ? Trois leviers :

FP4 : ils quantifient en 4 bits, mais uniquement les experts du MoE (la partie qui encaisse le mieux la perte de précision), le reste du modèle reste intact.
DFlash : du speculative decoding qui prédit un bloc entier de tokens d'un coup au lieu de les deviner un par un.
TileRT : un moteur d'inférence qui garde le pipeline résident sur le GPU pour supprimer les temps morts entre opérations.

Le tout co-conçu modèle et système ensemble, pas empilé après coup. C'est du vrai travail d'ingénierie.

Pourquoi je me méfie quand même des chiffres ?

Parce que tous les benchmarks du communiqué sont les leurs.

Le coup du FP4 "quasi sans perte", c'est Xiaomi qui le dit, sur les tests de Xiaomi. Quantifier un modèle en 4 bits sans rien perdre, c'est le genre d'affirmation que je veux voir validée par un tiers avant de la relayer. Artificial Analysis ou personne.

Ensuite, le 1000 tps est un chiffre de meilleur cas, pas une moyenne.

Regardez leur propre tableau d'acceptance length (le nombre de tokens validés par passe de vérification, sur 8 max) :

Coding : 6.30
Math et raisonnement : 5.56
Agent : 4.29

Et ils admettent eux-mêmes que sur la conversation générale, plus imprévisible, le taux d'acceptation chute. Traduction : le débit s'effondre dès que la sortie devient moins structurée. Le 1000 tps, vous le voyez sur du code et des formats carrés, pas sur une discussion ouverte.

Dernier point qui me fait tiquer : le mot "commodity".

Un noeud de 8 GPU, ça reste du H100 ou du H200. Pour Xiaomi, comparé à un wafer Cerebras, oui, c'est du matériel "standard". Pour vous et moi, c'est une facture à cinq ou six chiffres. Le terme est techniquement défendable et commercialement très pratique.

Et le récit sur la chirurgie ?

Là, il faut s'arrêter 2 secondes.

Le communiqué explique que la vitesse "se transmute en intelligence", que le modèle peut s'insérer dans le bloc opératoire, et que chaque seconde gagnée par l'IA devient "un atout dans la course contre la mort".

C'est une com qui vend une optimisation d'inférence comme une avancée pour l'humanité.

Aller plus vite ne rend pas un modèle plus juste. Ça lui permet juste de produire la même réponse, bonne ou fausse, en moins de temps. Lancer 10 raisonnements en parallèle et en garder un, ça améliore peut-être le résultat, mais ça reste un pari statistique, pas de l'intelligence en plus.

Et brandir la table d'opération pour vendre une API de génération de tokens, c'est exactement le type de glissement rhétorique que je trouve malhonnête. On habille une perf technique avec de l'émotion pour que personne ne regarde les benchmarks de trop près.

La perf se suffisait à elle-même. Pas besoin de convoquer la mort. ☠️ 😂

C'est quoi le vrai modèle économique de cette sortie ?

Une opération de scarcité, autant qu'un lancement technique.

Les conditions parlent d'elles-mêmes :

API à 3 fois le prix du MiMo-V2.5-Pro, pour environ 10 fois la vitesse.
Accès sur candidature, slots limités, priorité aux entreprises.
Fenêtre d'essai de deux semaines seulement (du 9 au 23 juin 2026).
File d'attente plafonnée à 10 entrées par jour, sessions de 30 minutes, déconnexion après 5 minutes d'inactivité.

Donc on a un produit rare, cher, accessible un temps limité, sur dossier. C'est un manuel de marketing de la rareté appliqué à un modèle de langage. Rien d'illégitime, mais il faut le nommer pour ce que c'est.

Concrètement, qu'est-ce que ça change pour un dev ?

C'est paradoxalement là que l'annonce devient sérieuse.

Parce que le seul endroit où le speculative decoding tient ses promesses, c'est précisément le code. 6.30 de tokens acceptés sur 8, c'est leur meilleur score, et il tombe pile sur notre cas d'usage.

Or la friction d'un coding agent, ce n'est pas sa qualité. C'est l'attente. Le moment où vous fixez le terminal en attendant qu'il finisse de cracher sa réponse, et où votre flow se casse.

Un modèle qui répond quasi instantanément, ça change la nature de l'interaction. Vous arrêtez d'attendre un outil, vous itérez avec lui en continu.

Donc la vraie question n'est pas "1000 tps ou pas". C'est : la vitesse est-elle en train de devenir un axe de compétition aussi important que l'intelligence du modèle ?

Le point honnête : ils ont quand même joué le jeu

Et je ne vais pas faire l'inverse de ce que je reproche au communiqué.

Xiaomi a open-sourcé le checkpoint MiMo-V2.5-Pro-FP4-DFlash sur HuggingFace : les poids quantifiés en FP4 et les paramètres du modèle DFlash. Ils ont aussi cité le papier de recherche derrière DFlash.

Ça, c'est concret et vérifiable. La communauté peut tester, mesurer, contredire. C'est exactement ce qui manque au reste du communiqué, et c'est tout à leur honneur de l'avoir mis à disposition.

Donc le verdict est simple. La techno mérite le détour. Le récit autour mérite le scepticisme. Et le meilleur juge de paix, ce sera des benchmarks indépendants dans les semaines qui viennent.

Et vous, qu'est-ce qui pèse le plus dans votre choix d'un modèle aujourd'hui : sa vitesse, ou sa fiabilité ?