Les poids sont vraiment disponibles en téléchargement libre ?

Pas encore au moment de l'article. MiniMax a annoncé une publication sur HuggingFace et GitHub dans les dix jours suivant la sortie, mais tant que ce n'est pas en ligne, le statut open-weight reste une promesse. Il faut vérifier directement sur ces plateformes avant de planifier quoi que ce soit.

Est-ce que je peux utiliser M3 pour des projets commerciaux avec du code client ?

Cela dépend de la licence, qui n'était pas encore connue à la sortie. Une licence MIT ou Apache 2.0 l'autorise librement, mais une licence maison peut imposer des restrictions. À lire attentivement le jour où les poids sont publiés, avant tout usage commercial.

Peut-on vraiment faire tourner un million de tokens sans exploser son budget ?

Oui, et c'est le point le plus concret de M3. L'architecture MSA réduit le coût de calcul à 1/20 comparé à une attention classique sur ce volume, ce qui rend les longs contextes utilisables en production à un tarif compétitif, autour de 0,30 dollar le million de tokens en entrée.

Les scores de benchmark sont-ils fiables pour choisir ce modèle ?

Les chiffres sont solides sur le papier, mais ils ont été produits par MiniMax sur leur propre infrastructure. Tant qu'un organisme indépendant ne reproduit pas les évaluations, il vaut mieux les traiter comme un indicateur de direction plutôt que comme une mesure certifiée.

Faut-il s'inquiéter du fait que MiniMax est une entreprise chinoise ?

Pour un usage personnel ou un side-project, ce n'est pas un problème majeur. En revanche, si vous traitez du code sous NDA ou des données sensibles via leur API, vos prompts transitent par leurs serveurs, ce qui pose une vraie question de confidentialité. Attendre les poids pour un déploiement local élimine ce risque.

MiniMax M3: un modèle open-weight au niveau du frontier ?

MiniMax sort M3 et le vend comme le premier modèle open-weight à réunir les trois capacités qui étaient réservées au frontier fermé. Sur le papier, c'est énorme. En pratique, il y a deux ou trois choses à regarder avant d'y brancher son code.

C'est quoi M3, concrètement ?

M3 est sorti le 1er juin 2026.

C'est une architecture MoE (Mixture of Experts) : 500Md de paramètres au total, 45Md actifs par token. Donc un gros modèle, mais qui ne fait pas tourner tout le réseau à chaque inférence.

Le pitch de MiniMax tient en trois cases cochées d'un coup :

du coding et de l'agentique de niveau frontier
une fenêtre de contexte qui monte à 1 million de tokens
du multimodal natif (image, vidéo, et même pilotage d'un ordinateur)

Et leur argument central, c'est qu'aucun modèle open-weight n'avait réuni ces trois trucs jusqu'ici. Ça restait le privilège des modèles fermés type Opus, GPT-5.5 ou Gemini 3.1 Pro.

Si la promesse tient, c'est un vrai cap pour l'open-weight.

Est-ce que les benchmarks tiennent la route ?

Les chiffres annoncés sont solides.

SWE-Bench Pro : 59,0% (devant GPT-5.5 et Gemini 3.1 Pro, derrière Opus 4.7)
Terminal-Bench 2.1 : 66,0%
SWE-fficiency : 34,8%
KernelBench Hard : 28,8%
MCP Atlas : 74,2%

Sur le papier, M3 vient chatouiller le haut du panier.

Mais il faut bien retenir une chose. Ces scores sont auto-reportés par MiniMax, tournés sur leur propre infra, et la plupart avec Claude Code comme scaffolding.

Un benchmark "maison" n'est pas une fraude, mais ce n'est pas non plus une mesure indépendante. Tant qu'un tiers ne refait pas tourner les évals, je lis ces chiffres comme un argument commercial, pas comme une vérité gravée.

Et sur les tâches agentiques longues, le marathon reste gagné par les modèles fermés. M3 reste devant tous les autres modèles ouverts, par une marge confortable, mais il traîne encore derrière le frontier fermé sur les évals d'agent directement comparables.

Donc : excellent pour de l'open-weight, pas encore le tueur du frontier.

Pourquoi le MSA change vraiment la donne

Le morceau qui m'intéresse le plus, c'est l'architecture d'attention.

MiniMax a sorti son propre mécanisme : le MSA (MiniMax Sparse Attention). L'idée, c'est de ne traiter que les blocs de contexte réellement pertinents au lieu de tout passer en attention complète.

Le gain est brutal. À 1 million de tokens de contexte, le compute par token tombe à 1/20 de la génération précédente. Le prefill va plus de 9 fois plus vite, le decoding plus de 15 fois plus vite.

Concrètement pour nous : un prompt à 1M de tokens, qui était jusqu'ici un crève-budget, devient utilisable en prod.

Et ça, c'est le genre de truc qui ne fait pas de bruit dans une keynote mais qui change la manière de bosser. Charger un repo entier dans le contexte sans saigner son forfait, c'est un autre métier.

Les démos qui marquent

MiniMax met en avant deux runs d'autonomie longue, et honnêtement, ça force le respect même en discountant l'effet vitrine.

Optimisation d'un kernel CUDA : M3 a tourné environ 24 heures d'affilée, fait 147 soumissions de benchmark et 1959 appels d'outils. Il est parti d'un squelette qui ne tournait même pas, et il a poussé l'utilisation matérielle d'un GPU Hopper de 7,6 % à 71,3 %. Soit un x9,4 sur la version d'origine.

Reproduction d'un papier de recherche : on lui a filé un papier primé à l'ICLR 2025 et il l'a reproduit en autonomie pendant près de 12 heures, avec 18 commits et 23 figures expérimentales générées tout seul.

Le détail qui me parle, c'est la persévérance. Sur le kernel CUDA, la plupart des autres modèles abandonnaient avant la 30e soumission. La meilleure solution de M3 est arrivée à la 145e. Il a traversé plusieurs plateaux sans progrès et il a continué à explorer.

C'est exactement la qualité qu'on attend d'un agent qu'on laisse tourner sans le tenir par la main.

Le vrai argument, c'est le prix

Parce qu'au fond, la techno ne suffit pas. Ce qui décide une migration, c'est l'économie.

Côté abonnement, MiniMax casse les prix :

Plus à 20$ /mois : environ 1,7Md de tokens
Max à 50$ /mois : environ 5,1Md de tokens
Ultra à 120$ /mois : environ 9,8Md de tokens

Côté API en pay-as-you-go, on voit M3 affiché autour de 0,30 $ le million de tokens en entrée et 1,20 $ en sortie chez les routeurs. Ce prix est valable jusqu'au 7 Juin 2026.

En gros, on parle d'un coût qui se situe autour de 5 à 10 % de modèles fermés comparables.

Pour un freelance ou une petite équipe qui fait tourner des workflows agentiques à la chaîne, ce différentiel-là pèse plus lourd que deux points de SWE-Bench.

Ce que je regarderais avant d'y aller

Je ne vais pas vous vendre le truc sans nuance. Voilà mes garde-fous.

Les poids ne sont pas encore là. MiniMax promet le technical report et les weights sur HuggingFace et GitHub sous dix jours. Tant que ce n'est pas livré, "open-weight" reste une intention, pas une réalité que vous pouvez télécharger.

La licence est inconnue. MIT, Apache 2.0, ou une licence maison plus restrictive ? Ça change tout pour un usage commercial. À vérifier le jour où les poids tombent.

La juridiction. MiniMax est une boîte chinoise. Si vous passez par leur API, chaque prompt transite par leurs endpoints. Pour du code perso ou un side-project, on s'en fiche. Pour du code client sous NDA ou de la donnée sensible, c'est une vraie question.

La bonne nouvelle, c'est que le jour où les poids sortent sous une licence correcte, vous pouvez le faire tourner en local sur votre propre hardware. Et là, le problème de juridiction et de fuite de données disparaît.

Au final

M3 ne tue pas le frontier fermé aujourd'hui. Il traîne encore derrière sur les tâches d'agent les plus dures, et ses benchmarks attendent une validation indépendante.

Mais il fait quelque chose de plus malin que de gagner une ligne de classement. Il rend le contexte long abordable, il tient la distance sur des runs de 24 heures, et il le fait à une fraction du prix.

Quand un modèle ouvert arrive à 90% du frontier pour 10% du prix, à quel moment ça arrête d'avoir du sens de tout router chez les labs fermés ?

Je garde un oeil sur la sortie des poids. C'est là que se jouera la vraie partie.

J'ai fait un test de Minimax M3 via l'API OpenRouter et j'en suis très satisfait:

Pour un coût de 0.34$.