Le premier modèle qui améliore son propre harness

Le premier modèle qui améliore son propre harness
Alexandre P. dans News - mis à jour le 22-04-2026

MiniMax M2.7 : le modèle qui optimise son propre scaffolding en autonomie, +30% de perf et debug prod en moins de 3 minutes.

MiniMax a publié M2.7 le 18 mars 2026, avec un angle radicalement différent de Kimi K2.6 : la self-evolution. Là où Kimi mise sur la parallélisation massive (swarm), MiniMax mise sur la boucle récursive. Le modèle participe activement à sa propre itération.

Sur SWE-Pro:

  • M2.7 atteint 56.22% (niveau GPT-5.3-Codex),
  • VIBE-Pro 55.6% (quasi-Opus 4.6),
  • Terminal Bench 2 à 57%.

Côté office/GDPval-AA, il est 4e mondial en ELO (1495), premier des open-source.

Le cœur du papier : l'auto-amélioration du harness.

C'est ça qui est vraiment neuf. MiniMax a demandé à M2.7 d'optimiser son propre scaffolding de manière autonome, via une boucle d'itération pure :

flowchart TD A[Analyse des
trajectoires d'échec] --> B[Plan de
modifications] B --> C[Modification
du scaffold] C --> D[Run d'évaluation] D --> E[Comparaison
résultats] E -->|amélioration| F[Keep] E -->|régression| G[Revert] F --> A G --> A
  • 100+ rounds autonomes sans intervention humaine
  • Découvertes concrètes : optimisation des sampling params (temperature, penalties), workflow guidelines, loop detection
  • +30% de perf sur évaluations internes — le modèle a littéralement amélioré le modèle
  • Sur MLE Bench Lite (22 compétitions ML OpenAI) : 66.6% de medal rate, derrière Opus 4.6 (75.7%) et GPT-5.4 (71.2%)

Capacités concrètes qui changent l'usage au quotidien

  • Debug prod : corrélation alertes <-> déploiements, hypothèses statistiques, connexion DB pour vérif root cause, migrations d'index non-bloquantes. MiniMax rapporte des recovery times < 3 minutes sur incidents live.
  • Bureautique pro : cas TSMC: M2.7 lit annual reports + earnings calls, cross-reference plusieurs analyses, construit un modèle de revenu, génère PPT + Word à partir de templates. Qualité "junior analyst first draft".
  • Skills complexes : 97% de skill adherence sur 40+ skills dépassant chacun 2000 tokens — c'est le vrai chiffre qui compte pour ceux qui construisent des harness custom.
  • Agent Teams natifs : collaboration multi-agents avec role boundaries, adversarial reasoning, protocole — présenté comme une capacité internalisée, pas obtenue par prompting.
  • OpenRoom ( github.com/MiniMax-AI/OpenRoom ) : démo open-source de character-driven UI, majoritairement écrite par l'AI elle-même.

Source : MiniMax M2.7: Early Echoes of Self-Evolution

#minimax#m2.7#minimax m2.7

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.