Kimi K2.7 Code, quoi de neuf ?

Moonshot AI vient de sortir Kimi K2.7 Code, une itération de son modèle précédent qui mise sur l'efficacité plutôt que la puissance brute. La promesse mérite qu'on s'y arrête.
Moonshot a sorti un nouveau modèle de code. Mais le vrai signal n'est pas dans les benchmarks, il est dans la facture.
Le 12 juin, Moonshot AI a lâché Kimi K2.7 Code. Poids ouverts sur HuggingFace, licence Modified MIT, API compatible OpenAI.
Et partout je lis la même phrase : "le modèle de code le plus puissant de Kimi".
Kimi K2.7 Code, c'est quoi exactement ?
Un modèle de code construit sur K2.6, pas une nouvelle base. Donc une itération, pas une rupture.
Les specs annoncées :
- Architecture MoE, 1000Md de paramètres au total, 32Md actifs.
- 384 experts, 8 sélectionnés par token.
- Fenêtre de contexte de 256K tokens.
- Multimodal natif (texte, image, vidéo) via un encodeur vision MoonViT.
- Quantization INT4 native.
- Thinking mode toujours activé, impossible à couper.
Rien de tout ça n'est nouveau par rapport à K2.6. Le contexte, c'est le même 256K. La base MoE, la même.
La nouveauté tient en un chiffre.
Pourquoi -30 % de tokens, c'est la seule métrique qui compte ?
Moonshot annonce une réduction d'environ 30 % des tokens de raisonnement par rapport à K2.6. Ils appellent ça lutter contre l'"overthinking".
Et pour la première fois, un modèle Moonshot est vendu sur l'efficacité, pas sur la puissance.
Quand vous faites du coding agentique, vous ne payez pas un prompt.
Vous payez une boucle.
Le modèle planifie, appelle des outils, lit la sortie d'erreur, retente, recommence.
Et les tokens de raisonnement, sur la quasi-totalité des grilles tarifaires, sont facturés comme des tokens de sortie, donc au prix fort.
Couper 30 % du raisonnement, ce n'est pas une coquetterie technique. C'est 30 % de tokens de sortie en moins sur des sessions qui en crachent des millions.
Pour un freelance qui saigne ses forfaits sur des tâches longues, c'est le seul chiffre qui touche le portefeuille.
Les benchmarks tiennent-ils la route ?
A prendre avec précaution...
Moonshot publie six lignes de résultats. K2.7 bat K2.6 sur les six. Le gros saut : Kimi Code Bench v2, de 50,9 à 62,0, soit +21,8 %. Ajoutez +11 % sur Program Bench et +31,5 % sur MLS Bench Lite.
Le problème, c'est que ces benchmarks sont tous internes. Kimi Code Bench v2, Program Bench, MLS Bench Lite : ce sont leurs propres tests.
Aucun SWE-Bench Verified, SWE-Bench Pro, Terminal-Bench, LiveCodeBench. Rien d'indépendant au jour de la sortie.
"On est 21,8 % meilleurs que notre modèle précédent sur notre propre test" : c'est une vraie progression, et c'est invérifiable par qui que ce soit en dehors de chez eux.
Un dev l'a dit cash sur X : tous les modèles "progressent" en double chiffre sur leur propre suite. Il rappelle aussi que K2.6 plafonnait à 24% sur DeepSWE, à égalité avec GPT-5.4-mini, et il demande si Moonshot soumettra** K2.7** au même test neutre.
Et tant qu'un tiers n'a pas fait tourner K2.7 sur les suites publiques, la seule chose honnête à dire, c'est : meilleur que K2.6, moins cher à faire tourner. Point.
Ce que je retiens
Pour le coup, quelque chose m'a marqué:
Avoir opté pour une approche de sobriété et d'efficacité et j'aime beaucoup le move.
Je le dis souvent mais je pense qu'on ira nulle part avec un model qui passe son temps à grossir et qui demande toujours plus de ressource.
Je pense que le plus gros du travail à venir est justement sur l'optimisation de la performance pour une même quantité d'énergie ou de ressource à disposition.
FAQ
Est-ce que les 30 % de tokens en moins se vérifient dans la pratique ou c'est juste une promesse marketing ?
Pour l'instant, c'est uniquement ce que Moonshot annonce. Aucun test indépendant n'a confirmé ce chiffre sur des workflows réels. La seule façon de le vérifier est de faire tourner le modèle sur vos propres tâches agentiques et de comparer la facture avec K2.6.
Le modèle est-il vraiment utilisable gratuitement ou y a-t-il des restrictions ?
Les poids sont disponibles sur HuggingFace sous licence Modified MIT, ce qui permet une utilisation commerciale avec quelques conditions. L'accès via API est lui facturé, comme pour n'importe quel autre modèle hébergé.
Peut-on désactiver le mode thinking pour les tâches simples et réduire encore les coûts ?
Non, le thinking mode est toujours activé et ne peut pas être coupé. C'est une contrainte concrète : même pour une tâche triviale, vous paierez des tokens de raisonnement, ce qui peut rendre le modèle moins compétitif face à des alternatives plus légères sur des usages simples.
K2.7 vaut-il mieux que GPT-4o ou Claude pour du code en ce moment ?
Impossible de le dire honnêtement : les seuls benchmarks publiés sont internes à Moonshot. Tant qu'un organisme indépendant ne l'évalue pas sur SWE-Bench Verified ou LiveCodeBench, toute comparaison avec les modèles concurrents reste spéculative.
Pour quel type de développeur ce modèle a-t-il le plus de sens ?
Il cible avant tout ceux qui font du coding agentique intensif avec de longues boucles d'appels d'outils. Pour un dev qui exécute beaucoup de sessions de débogage ou d'automatisation complexe, une réduction réelle du raisonnement se traduit directement en économies sur des volumes de tokens très élevés.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture


