RecursiveMAS: une solution pour une équpe agentique

RecursiveMAS: une solution pour une équpe agentique
Alexandre P. dans News - mis à jour le 27-06-2026

Les systèmes multi-agents se parlent en texte et y perdent temps et précision. RecursiveMAS propose de les faire collaborer directement dans l'espace latent, sans un seul mot échangé.

La chaine Youtube NerdyKings a sorti une vidéo super intéressante sur les limitations d'une équipe d'agents constituée de modèles (oui je l'écris en français pour une fois) différents, et c'est super intéressant:

Concrètement, c'est quoi ?

Un papier de recherche propose de faire collaborer des agents sans qu'ils échangent le moindre mot.

Sur le papier, c'est élégant. En pratique, il y a un piège que personne ne mentionne.

RecursiveMAS, c'est un travail signé UIUC, Stanford, NVIDIA et MIT (arXiv 2604.25917), sorti en avril 2026.

L'idée attaque un truc que tout le monde fait sans jamais se poser la question.

C'est quoi le problème avec des agents qui se parlent en texte ?

Aujourd'hui, quand vous montez un système multi-agents, vos agents communiquent en texte.

L'agent A réfléchit. Il génère une réponse en mots. L'agent B lit ces mots, les re-tokenise, les ré-encode, et repart à zéro de son côté.

Et ça, c'est un gâchis sur deux plans :

  • Vous payez du décodage à chaque étape. Transformer les vecteurs internes d'un modèle en tokens, ça coûte du temps de calcul à chaque passage de relais.
  • Vous perdez de l'information. Un modèle "pense" dans un espace continu à plusieurs centaines de dimensions, mais il ne vous recrache qu'une phrase. Tout ce qui ne tient pas dans la phrase est jeté.

Donc vous mettez un goulot d'étranglement exactement là où il ne faut pas : entre deux cerveaux qui essaient de collaborer.

Les auteurs partent de ce constat. Et ils posent une question simple : et si les agents se passaient directement leur état interne, sans jamais repasser par des mots ?

Comment RecursiveMAS fait collaborer les agents ?

L'idée, c'est de traiter tout le système multi-agents comme une seule grosse boucle de calcul.

Chaque agent devient une sorte de couche dans un réseau. Il reçoit un état latent, il le transforme, il le passe au suivant.

Pour faire ça, ils ajoutent un petit module qu'ils appellent RecursiveLink. C'est un module résiduel à deux couches, très léger, qui gère deux types de transferts :

  • Le lien interne (inner link). Il renvoie le dernier état caché d'un agent dans son propre espace d'entrée, pour que l'agent continue à "réfléchir" en continu sans jamais produire de tokens.
  • Le lien externe (outer link). Il projette ces pensées latentes vers l'agent suivant, même si les deux modèles n'ont pas la même taille interne.

Et le tout tourne en boucle.

Car le dernier agent renvoie sa sortie au premier. À chaque tour, le système raffine ce qu'il a produit au tour d'avant. Seul le tout dernier tour décode vraiment du texte. Tous les tours intermédiaires se passent entièrement dans l'espace latent.

Le détail qui m'a fait sourire : les modèles de base sont gelés. On n'entraîne que les petits liens. Ça représente environ 13 millions de paramètres entraînables, soit 0.31% du système complet.

Donc on ne touche pas aux gros modèles. On apprend juste la "tuyauterie" entre eux.

Qu'est-ce que ça donne sur le papier ?

Là, je vous donne les chiffres annoncés par les auteurs. Ce sont des résultats auto-reportés, mesurés par l'équipe elle-même, et je n'ai trouvé aucun benchmark indépendant pour les confirmer à ce stade.

Sur 9 benchmarks (maths, sciences, médecine, code, recherche), ils annoncent :

  • +8.3% de précision moyenne face à la meilleure baseline sur chaque test.
  • Un gain de vitesse de 1.2x à 2.4x.
  • Une réduction de tokens de 34.6% à 75.6%.

Et le gain monte avec le nombre de tours. Plus la boucle est profonde, plus l'écart se creuse en leur faveur.

Le coût d'entraînement annoncé est riquiqui : environ 4.27$, contre 9.67$ pour un fine-tuning complet. Avec en prime la plus faible empreinte mémoire GPU du lot.

Sur le papier, c'est cohérent. Moins de décodage intermédiaire, donc moins de tokens, donc moins de temps et moins d'argent.

Le lien vers le repo git.

FAQ

Est-ce qu'on peut utiliser RecursiveMAS avec des modèles de tailles différentes ?

Oui, c'est même un des points centraux du système. Le module RecursiveLink contient une couche de projection qui adapte les dimensions entre deux modèles, ce qui permet de faire collaborer des agents dont les espaces internes ne sont pas compatibles nativement.

Est-ce que les modèles de base doivent être ré-entraînés pour fonctionner dans ce système ?

Non, les poids des modèles restent complètement gelés. Seuls les petits modules de liaison sont entraînés, ce qui représente une fraction minuscule du système et explique le coût d'entraînement annoncé très bas.

Combien de tours de boucle faut-il pour que le système produise une réponse ?

Il n'y a pas de nombre fixe imposé, et les auteurs montrent que les gains augmentent avec la profondeur de la boucle. Seul le dernier tour génère du texte lisible, tous les intermédiaires restent dans l'espace latent.

Ces résultats ont-ils été vérifiés par des équipes indépendantes ?

Pas à ce stade. Les chiffres présentés sont auto-reportés par les auteurs du papier, et aucun benchmark externe ne les a encore confirmés ou contredits. C'est le point de prudence essentiel avant de tirer des conclusions sur les performances réelles.

Ce genre d'approche peut-il remplacer les systèmes multi-agents classiques dès maintenant ?

Probablement pas à court terme. L'architecture suppose un contrôle fin sur les états internes des modèles, ce qui est incompatible avec la plupart des API commerciales actuelles qui n'exposent que du texte en sortie.

#multi agents#code agentique#recursivemas#recursivelink

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.