Un lancement discret

Un lancement discret
Alexandre P. dans News - mis à jour le 30-06-2026

Deux mois sous un nom de code, des millions de tokens consommés par des devs en aveugle : LongCat-2.0 de Meituan sort du stealth et son histoire dit beaucoup sur la guerre des puces.

Pendant deux mois, un modèle anonyme a squatté le haut des classements OpenRouter sous le nom "Owl Alpha". On vient d'apprendre qui se cachait derrière. Et la réponse dit beaucoup plus sur l'état de la guerre des puces que sur l'état des LLM.

Owl Alpha, ça vous parle ?

Si vous traînez sur OpenRouter, vous avez forcément croisé Owl Alpha ces dernières semaines.

Un modèle "stealth", sans marque, sans papier, sans rien. Le genre de modèle qu'un lab pousse en douce pour voir ce que ça donne en conditions réelles avant de le revendiquer.

Sauf qu'Owl Alpha n'a pas fait de la figuration.

D'après les chiffres relayés au moment de la révélation, le modèle tournait autour de 10 000Md de tokens par mois sur OpenRouter, soit à peu près 559Md de tokens par jour. Avec une croissance de plus de 240% d'un mois sur l'autre.

Donc des dizaines de milliers de devs l'ont utilisé pour coder. Pour de vrai. En production, dans des agents, sur du code qui part chez des clients.

Et là, le 30 juin, le masque tombe : Owl Alpha, c'est LongCat-2.0. De Meituan.

Oui, Meituan. Le géant chinois de la livraison de nourriture.

Avant de balancer un modèle open source de 1,6T de paramètres, Meituan l'a fait adopter en aveugle.

Les devs ont voté avec leurs tokens avant même de savoir d'où venait le modèle. C'est la séquence marketing la plus propre que j'aie vue cette année : pas un benchmark maison à brandir, juste de l'usage réel qui parle tout seul.

Comment on entraîne 1,6 trillion de paramètres sans Nvidia ?

Voilà le vrai sujet.

LongCat-2.0, c'est un Mixture-of-Experts de 1,6 trillion de paramètres au total, avec à peu près 48Md de paramètres activés par token. Une fenêtre de contexte de 1M de tokens. Licence MIT, donc utilisable en commercial sans contrainte de copyleft.

Tout ça, vous l'avez déjà lu chez DeepSeek ou Qwen. Ce qui change ici, c'est le hardware.

Meituan affirme avoir fait tourner l'entraînement complet ET l'inférence sur des clusters de puces chinoises. Pas de l'inférence sur silicium domestique avec un pré-entraînement planqué sur des H100. Le pré-entraînement aussi.

Et le pré-entraînement, c'est la partie qui coûte cher. C'est là que vous brûlez des millions d'heures-accélérateur. C'est là que, normalement, vous avez besoin de l'écosystème Nvidia.

Les chiffres annoncés :

  • plus de 35 000Md de tokens de pré-entraînement
  • un cluster de 50 000 cartes domestiques
  • aucun rollback, aucun pic de perte irrécupérable sur tout le run

Meituan présente ça comme le premier modèle à l'échelle du trillion de paramètres entraîné de bout en bout sur du hardware chinois. Sur ce point précis, ils ont sans doute raison.

Pourquoi je pense que c'est de l'Ascend (sans qu'ils le disent)

Petit point pour ceux qui aiment lire entre les lignes.

Meituan parle de "ASIC superpods" dans sa communication. Jamais du nom du fournisseur. Pas de logo, pas de marque, rien. Comme s'ils ne voulaient surtout pas écrire le mot à voix haute.

Dans la partie sur la stabilité de l'entraînement, ils expliquent avoir réduit de 70% le taux de pannes mensuel grâce à du "HCCL exception handling" et de la récupération de fautes automatique.

HCCL. Huawei Collective Communication Library.

C'est l'équivalent maison de NCCL, mais côté Huawei Ascend. Si vous gérez du HCCL, c'est que vous tournez sur de l'Ascend.

Donc le modèle n'est pas juste "entraîné sur des puces chinoises" dans l'abstrait. Il sent très fort le superpod Ascend, même si Meituan préfère rester vague sur la marque.

Et ça, pour ceux qui suivent l'écosystème Ascend de près (coucou), c'est l'info la plus intéressante de toute l'annonce. Bien plus que le nombre de paramètres.

Les benchmarks, on en fait quoi ?

Comme d'habitude, je les prends avec des pincettes.

Les chiffres affichés par Meituan:

  • 59.5 sur SWE-Bench Pro, légèrement au-dessus du 58,6 annoncé pour GPT-5.5
  • 70.8 sur Terminal-Bench 2.1
  • 77.3 sur SWE-Bench Multilingual
  • 73.2 sur FORTE (un benchmark agentique de tâches de bureau)

Sur le papier, ça place **LongCat-2.0 **dans la zone des modèles frontière sur le coding agentique. Meituan va même jusqu'à le comparer à Gemini 3.1 Pro.

Mais il faut bien retenir une chose : ce sont des benchmarks auto-déclarés. C'est l'éditeur qui choisit le harness, les params d'inférence, les tâches retenues. Sur SWE-Bench, ils mentionnent par exemple avoir corrigé des "tâches problématiques". Ça peut être parfaitement légitime, ou pas. On ne sait pas tant qu'un tiers neutre n'a pas repassé derrière.

Donc je ne vais pas vous dire que LongCat-2.0 bat GPT-5.5. Je n'en sais rien.

Ce que je sais, c'est qu'Owl Alpha a été massivement utilisé en aveugle pendant 2 mois. Et ça, ce n'est pas un benchmark maison. C'est de l'usage réel, sur de l'argent réel, par des gens qui ne savaient même pas qu'ils testaient un modèle chinois.

Pour moi, ce signal-là vaut 10 SWE-Bench. Je reviendrai vous en parler quand je l'aurai poussé moi-même sur mes propres tâches.

Pourquoi le pricing peut faire mal à tout le monde

C'est l'angle qu'on oublie, et c'est peut-être le plus violent.

Le tarif API standard annoncé : 0.75$ par million de tokens en entrée, 2.95$ par million en sortie. Déjà agressif.

Mais le vrai truc, c'est ce qu'ils font sur le cache.

Les hits de cache de contexte sont facturés zéro.

Réfléchissez à ce que ça veut dire en agentique. Quand votre agent relit en boucle le même repo de plusieurs centaines de milliers de tokens à chaque étape, l'architecture classique vous fait repayer ce contexte à chaque appel. C'est là que vos forfaits saignent.

Là, vous ne payez que le cache-miss et les tokens générés. Le reste passe gratos.

Pour du dev agentique sur grosse codebase, ça change complètement la structure de coût. Vous pouvez itérer en profondeur sans voir la facture exploser de façon mécanique.

Ils ajoutent par-dessus un système de "Token Packs" en ventes flash, 4 fois par jour, à heure fixe (heure de Pékin). Le côté ruée sur les packs est un peu gadget. Mais le cache gratuit, lui, n'est pas un gadget. C'est une vraie pression sur le modèle économique des API fermées.

Et les contrôles à l'export dans tout ça ?

On y arrive.

Le contexte, vous le connaissez : depuis fin 2022, les États-Unis verrouillent l'accès de la Chine aux puces Nvidia les plus avancées. L'idée affichée, c'est de ralentir la frontière chinoise.

Sauf que ces dernières semaines, le verrouillage s'est aussi retourné vers les modèles eux-mêmes. OpenAI a dû restreindre l'accès à ses GPT-5.6. Anthropic a été contraint de limiter, puis de retirer, ses modèles Fable 5 et Mythos 5.

Donc côté ouest, on a des modèles de pointe qui se ferment ou disparaissent.

Et exactement au même moment, côté est, un géant de la livraison balance en MIT un modèle de 1,6 trillion de paramètres, entraîné sans la moindre puce américaine, avec un pricing qui casse les codes du coding agentique.

Les contrôles à l'export étaient censés empêcher la Chine d'entraîner ce genre de modèle. Résultat, ils ont surtout donné une raison de plus de construire toute la chaîne en local : silicium, entraînement, inférence, déploiement. Et de l'offrir en open weight pour rafler le mindshare des devs du monde entier.

LongCat-2.0 n'est pas qu'un bon modèle de coding. C'est une démonstration politique. Le message, c'est : on n'a plus besoin de vous pour jouer dans la cour des grands.

FAQ

Owl Alpha et LongCat-2.0, c'est vraiment le même modèle ?

Oui, Meituan a publié Owl Alpha sur OpenRouter de façon anonyme pendant deux mois, avant de révéler le 30 juin qu'il s'agissait de LongCat-2.0. La stratégie était délibérée : collecter de l'usage réel sans que les devs sachent qu'ils testaient un modèle chinois.

Comment je peux utiliser LongCat-2.0 dans mes projets sans contrainte légale ?

Le modèle est publié sous licence MIT, ce qui signifie que vous pouvez l'intégrer dans des projets commerciaux sans obligation de copyleft. Vous pouvez aussi l'héberger vous-même si vous disposez de l'infrastructure, ou passer par l'API Meituan.

Le cache gratuit sur l'API, ça change vraiment quelque chose pour un projet agentique ?

En agentique sur une grosse codebase, votre agent relit souvent le même contexte de centaines de milliers de tokens à chaque étape. Avec un cache facturé zéro, vous ne payez que les tokens réellement nouveaux en entrée et ceux générés, ce qui peut réduire drastiquement la facture sur des boucles d'itération longues.

Faut-il faire confiance aux benchmarks annoncés par Meituan ?

Ce sont des benchmarks auto-déclarés, où l'éditeur choisit lui-même les paramètres et peut filtrer certaines tâches. Ils donnent un ordre de grandeur, mais aucun tiers neutre ne les a encore reproduits. L'usage massif d'Owl Alpha en aveugle pendant deux mois est un signal bien plus fiable que les chiffres sur SWE-Bench.

Les restrictions à l'export américaines n'ont donc servi à rien ?

Elles ont au moins accéléré la décision chinoise de construire toute la chaîne en autonomie, du silicium à l'inférence. LongCat-2.0 semble entraîné sur des puces Huawei Ascend de bout en bout, ce qui suggère que l'objectif de ralentir la frontière chinoise n'a pas été atteint, et a possiblement renforcé la motivation à s'en passer complètement.

Pourquoi envisager d'héberger soi-même un modèle open weight plutôt que d'utiliser une API fermée ?

Plusieurs API de pointe ont été restreintes ou retirées ces dernières semaines sous l'effet de décisions politiques extérieures aux utilisateurs. Un modèle open weight hébergeable localement élimine ce risque de coupure soudaine, ce qui en fait davantage une question de résilience opérationnelle que de préférence idéologique.

#longcat#meituan#code agentique

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.