Benchmark de Minimax M2.7

Aujourd'hui, on va tester Minimax m2.7 dans un benchmark de jeu 3D et voir comment il s'en sort.
Je vous en parlais la dernière fois
Minimax est sorti en version M2.7 avec des benchmarks qui montre un niveau pas mauvais, légèrement en retrait par rapport à Opus 4.6.

Le benchmark
On ne change pas une équipe qui gagne, j'utilise mon prompt de Hotdog Simulator 3D où le but est de faire des hotdogs très rapidement pour satisfaire nos clients.
On va voir ce que nous a pondu Minimax M2.7 sur cet exercice qui sort de l'ordinaire.
Oui, je suis conscient que ce n'est pas significatif de sa capacité à coder des projets "normaux", mais je veux voir sa capacité à s'adapter à des exercices nouveaux. Car, dans chaque projet, il y a des scénarios qu'on a jamais vu.
Résultat
Minimax m'a sorti quelque chose de pas très fonctionnel malheureusement. Mais il fait déjà mieux qu'Opus d'une certaine façon qui fait quelque chose où on ne peut rien faire.
Au moins ici on peut commencer à mélanger des ingrédients, mais on ne peut ni servir nos clients et les ingrédients disparaissent...
Donc, on attend le timer, c'est tout... Dommage.

Coût
Pour faire cet exercice, Minimax m'a coûté 0.05$ ce qui n'est pas grand chose.
Bon, c'est tant mieux étant donné l'inefficacité du résultat...

Bilan
Sur cet exercice c'est moyen, mais je n'exclus pas de lui faire faire autre chose à l'occasion.
J'ai hâte de le tester sur un exercice plus réaliste.
De même, je ferai prochainement un récapitulatif global de tous les benchmarks et on va comparé les résultats (le code source) également pour voir la qualité du rendu.
FAQ
C'est quoi le benchmark du Hotdog Simulator 3D ?
C'est un prompt original qui demande au modèle de générer un mini-jeu 3D de préparation de hotdogs en temps limité. L'idée est de tester la capacité du modèle à s'adapter à des scénarios inédits, comme on en rencontre dans de vrais projets.
Est-ce que Minimax M2.7 a produit un jeu jouable ?
Pas vraiment : on peut mélanger des ingrédients, mais il est impossible de servir les clients et les ingrédients finissent par disparaître. Le résultat est donc peu fonctionnel, même s'il dépasse légèrement ce que Claude Opus avait produit sur le même exercice.
Combien coûte une génération avec Minimax M2.7 ?
Cet exercice a coûté 0,05$, ce qui est très faible. C'est un point positif, même si le résultat obtenu ici ne justifie pas vraiment de s'en réjouir.
Comment Minimax M2.7 se compare-t-il aux autres modèles testés ?
D'après les benchmarks officiels, il se situe légèrement en retrait par rapport à Claude Opus 4.6. Sur cet exercice pratique, il fait un peu mieux qu'Opus qui produit quelque chose de totalement inutilisable, mais les deux résultats restent décevants.
Est-ce que ce test reflète les vraies capacités de codage du modèle ?
L'auteur reconnaît lui-même que non, ce type d'exercice créatif et inhabituel n'est pas représentatif de projets classiques. D'autres tests sur des cas plus réalistes sont prévus prochainement.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture


