Le premier modèle qui améliore son propre harness

MiniMax M2.7 : le modèle qui optimise son propre scaffolding en autonomie, +30% de perf et debug prod en moins de 3 minutes.
MiniMax a publié M2.7 le 18 mars 2026, avec un angle radicalement différent de Kimi K2.6 : la self-evolution. Là où Kimi mise sur la parallélisation massive (swarm), MiniMax mise sur la boucle récursive. Le modèle participe activement à sa propre itération.
Sur SWE-Pro:
- M2.7 atteint 56.22% (niveau GPT-5.3-Codex),
- VIBE-Pro 55.6% (quasi-Opus 4.6),
- Terminal Bench 2 à 57%.
Côté office/GDPval-AA, il est 4e mondial en ELO (1495), premier des open-source.
Le cœur du papier : l'auto-amélioration du harness.
C'est ça qui est vraiment neuf. MiniMax a demandé à M2.7 d'optimiser son propre scaffolding de manière autonome, via une boucle d'itération pure :
trajectoires d'échec] --> B[Plan de
modifications] B --> C[Modification
du scaffold] C --> D[Run d'évaluation] D --> E[Comparaison
résultats] E -->|amélioration| F[Keep] E -->|régression| G[Revert] F --> A G --> A
- 100+ rounds autonomes sans intervention humaine
- Découvertes concrètes : optimisation des sampling params (temperature, penalties), workflow guidelines, loop detection
- +30% de perf sur évaluations internes — le modèle a littéralement amélioré le modèle
- Sur MLE Bench Lite (22 compétitions ML OpenAI) : 66.6% de medal rate, derrière Opus 4.6 (75.7%) et GPT-5.4 (71.2%)
Capacités concrètes qui changent l'usage au quotidien
- Debug prod : corrélation alertes <-> déploiements, hypothèses statistiques, connexion DB pour vérif root cause, migrations d'index non-bloquantes. MiniMax rapporte des recovery times < 3 minutes sur incidents live.
- Bureautique pro : cas TSMC: M2.7 lit annual reports + earnings calls, cross-reference plusieurs analyses, construit un modèle de revenu, génère PPT + Word à partir de templates. Qualité "junior analyst first draft".
- Skills complexes : 97% de skill adherence sur 40+ skills dépassant chacun 2000 tokens — c'est le vrai chiffre qui compte pour ceux qui construisent des harness custom.
- Agent Teams natifs : collaboration multi-agents avec role boundaries, adversarial reasoning, protocole — présenté comme une capacité internalisée, pas obtenue par prompting.
- OpenRoom ( github.com/MiniMax-AI/OpenRoom ) : démo open-source de character-driven UI, majoritairement écrite par l'AI elle-même.
FAQ
Comment fonctionne concrètement l'auto-amélioration du scaffolding par M2.7 ?
Le modèle analyse ses propres trajectoires d'échec, propose des modifications à son scaffold, les teste sur des évaluations internes, puis conserve ou annule chaque changement selon les résultats. Ce cycle s'est répété plus de 100 fois sans aucune intervention humaine, aboutissant à un gain de 30% de performance.
M2.7 est-il vraiment utilisable pour du debug en production ?
MiniMax revendique des temps de résolution inférieurs à 3 minutes sur des incidents live, grâce à une chaîne autonome qui corrèle alertes et déploiements, formule des hypothèses statistiques et se connecte à la base de données pour identifier la cause racine. C'est un cas d'usage documenté, pas une promesse théorique.
En quoi M2.7 se distingue-t-il de Kimi K2.6 sorti à peu près au même moment ?
Kimi K2.6 mise sur la parallélisation via une architecture en essaim d'agents, tandis que M2.7 repose sur une boucle récursive d'auto-itération. Ce sont deux philosophies opposées pour atteindre des niveaux de performance comparables sur les benchmarks de coding.
Le modèle est-il open-source et accessible ?
MiniMax a publié OpenRoom, une démo open-source d'interface pilotée par personnages largement écrite par l'IA elle-même, disponible sur GitHub. Le modèle M2.7 lui-même est présenté comme premier des open-source au classement ELO bureautique, mais l'article ne précise pas les conditions exactes de distribution des poids.
Le chiffre de 97% de skill adherence, c'est important pour quoi ?
Ce taux mesure la capacité du modèle à respecter des instructions complexes dépassant 2000 tokens sur plus de 40 compétences distinctes. Pour quiconque construit un harness ou des agents custom, c'est le vrai indicateur de fiabilité en conditions réelles, bien plus que les scores sur benchmarks synthétiques.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture


