La fin du goulot sur les LLMs ?

Une startup de Miami prétend avoir résolu le goulot quadratique qui freine les LLM depuis 2017. Des tests tiers viennent de tomber, mais les experts restent partagés.
Subquadratic annonce avoir résolu un verrou mathématique qui bride les LLM depuis 2017. Après un mois de scepticisme, la boîte publie des tests tiers. Voici ce qu'elle dit, et ce que les chiffres montrent.
Une startup de Miami, Subquadratic, est sortie de l'ombre début mai avec une annonce énorme : avoir résolu le goulot quadratique qui freine les grands modèles de langage depuis presque dix ans. Au départ, peu de preuves. Un mois plus tard, des benchmarks indépendants.
C'est cette deuxième salve qui relance le sujet.
C'est quoi le goulot dont ils parlent ?
Le coeur d'un LLM, c'est le transformer, et le coeur du transformer, c'est l'attention dense.
L'attention dense, ça compare chaque token avec tous les autres. Chaque mot avec chaque mot.
Et ça grossit en carré.
Un texte de 10 000 mots déclenche presque 50 millions de multiplications. Vous doublez la longueur, vous quadruplez le calcul. C'est la complexité quadratique, le O(n²), et c'est la raison pour laquelle les LLM consomment autant.
Donc plus le contexte est long, plus ça coûte cher à faire tourner.
La réponse de Subquadratic, c'est l'attention sparse. Au lieu de tout multiplier, le modèle ne garde que les paires de tokens qui comptent.
Leur mécanisme s'appelle SSA (Subquadratic Sparse Attention). La particularité qu'ils mettent en avant : la sélection des tokens importants n'est pas fixe, elle est calculée à la volée, différemment pour chaque texte.
C'est là, disent-ils, qu'est leur sauce secrète. Ils ne détaillent pas comment la sélection se fait.
Qu'est-ce que Subquadratic annonce exactement ?
Leur modèle s'appelle SubQ. Voici ce qu'ils mettent en avant :
- un modèle plus rapide, moins cher et bien moins gourmand en énergie que ce qui existe
- une fenêtre de contexte jusqu'à 12M de tokens (la plupart des meilleurs modèles plafonnent à 1M)
- la capacité de traiter jusqu'à 12x plus de texte d'un coup que la plupart des autres modèles
- des perfs qui collent à peu près à celles des meilleurs (Google DeepMind, OpenAI, Anthropic) sur des tâches clés comme le code
Côté chiffres business, la boîte est sortie du stealth avec 29M de dollars en seed. Le CTO, Alex Whedon, vient de chez Meta où il dirigeait la GenAI. Le CEO, c'est Justin Dangel.
Et ils visent deux usages précis : le code et la recherche dans de très gros volumes de données.
Que disent les tests indépendants ?
Au départ, Subquadratic n'avait sorti que quelques scores maison. D'où le scepticisme. Whedon le reconnaît lui-même : ils auraient dû publier les benchmarks tiers dès l'annonce.
Un mois plus tard, ils ont demandé à Appen, une société qui évalue les modèles des autres, de tester SubQ. Voici ce qu'Appen rapporte :
- en test de vitesse pure, SubQ tourne 56x plus vite que les modèles sous FlashAttention
- sur LiveCodeBench (du code de compétition tiré de vrais concours), il fait 89,7 %, dans le peloton des meilleurs modèles de code
- sur le needle-in-a-haystack (retrouver une info précise noyée dans un gros volume), il sort 98 % à 6M et 12M de tokens de contexte
Jeanine Sinanan-Singh, qui dirige la recherche en IA générative chez Appen, parle d'une archi validée et de perfs de niveau frontier sur le code.
Une précision sur le test de vitesse : il mesure ce que le modèle peut faire en théorie, pas sa perf sur des tâches réelles variées.
Sur le coût, Subquadratic donne un exemple. Faire tourner Opus 4.6 sur RULER 128 (un test de Nvidia pour la récupération d'info dans de grands jeux de données) coûterait 2600$ selon Dangel. Pour SubQ, il annonce 8$. Ce chiffre vient du fondateur, sur un modèle pas encore largement disponible.
Whedon raconte aussi une démo : il a demandé à SubQ de raisonner sur 400 documents, réponse en quelques secondes. La même tâche envoyée à Perplexity n'a pas réussi à charger les 400 documents.
Pourquoi certains restent prudents ?
Parce que des benchmarks, même bons, ne disent pas tout. Tester dans des conditions précises, ce n'est pas la même chose que faire tourner un modèle sur un large éventail de tâches réelles.
Et l'idée de l'attention sparse n'est pas nouvelle. Will Depue, chercheur indépendant ex-OpenAI, rappelle qu'à peu près tout a déjà été tenté. Mamba, RWKV, DeepSeek Sparse Attention, Kimi Linear : beaucoup ont promis le scaling subquadratique, peu ont tenu face à l'attention dense.
Il y a aussi un point sur la genèse du modèle. Pour démarrer SubQ, Subquadratic a repris les poids d'une version de Qwen, le modèle open source chinois, plutôt que d'entraîner de zéro. C'est une pratique courante, mais Depue note que ça cohabite mal avec l'idée d'avoir réinventé entièrement le fonctionnement des LLM.
Sa conclusion : ils ont peut-être construit quelque chose de réel et utile, mais les preuves publiques ne suffisent pas encore à valider le claim fort.
Enfin, l'accès reste limité. Subquadratic dit avoir des dizaines de milliers d'inscrits en early access, dont plus de 500 clients entreprises. Mais la waitlist est longue et très peu de gens ont pu tester. Leur réponse : c'est une petite boîte avec des moyens limités, elle ne peut pas servir tout le monde d'un coup.
On en conclut quoi ?
Pour l'instant, pas grand-chose de définitif, et c'est normal.
Les éléments factuels sont là :
- une archi sparse qui semble tenir sur le long contexte
- des benchmarks tiers qui confirment une partie des annonces
- des claims de coût et une démo qui viennent surtout de la boîte
- un modèle que quasi personne n'a encore pu prendre en main
Subquadratic, de son côté, voit grand. Dangel dit espérer ouvrir une nouvelle ère d'efficacité et pense que plus personne ne construira sur des transformers dans quelques années.
Moi, tant que je n'ai pas mis les mains dedans, je ne tranche pas. Les chiffres sont intéressants, la direction est crédible, et le reste se jouera quand le modèle sera vraiment accessible.
Donc wait and see. Je reviendrai dessus le jour où je pourrai le tester pour de vrai.
FAQ
L'attention sparse, c'est une idée vraiment nouvelle ?
Non, le concept existe depuis un moment et plusieurs projets comme Mamba, RWKV ou DeepSeek Sparse Attention ont déjà exploré cette voie. Ce que Subquadratic revendique comme original, c'est une sélection des tokens importants calculée dynamiquement pour chaque texte, mais ils ne détaillent pas comment ça fonctionne concrètement.
Le test de vitesse 56x plus rapide, ça veut dire que SubQ est 56 fois plus rapide en conditions réelles ?
Pas exactement. Ce chiffre mesure une vitesse théorique par rapport à des modèles sous FlashAttention, pas les performances sur des tâches variées du quotidien. C'est un indicateur, pas une promesse générale sur tous les usages.
Le chiffre de 8$ contre 2600$ pour faire tourner Opus, on peut lui faire confiance ?
Cette comparaison vient directement du fondateur de Subquadratic, sur un modèle encore peu accessible, dans des conditions précises. Tant que des tiers indépendants ne l'ont pas reproduit sur un éventail plus large de scénarios, il faut le prendre avec prudence.
Le fait d'avoir réutilisé les poids de Qwen plutôt que d'entraîner de zéro, c'est un problème ?
Ce n'est pas une pratique inhabituelle dans le domaine, mais ça entre en tension avec les affirmations les plus ambitieuses sur une réinvention complète du fonctionnement des LLM. Certains chercheurs, dont un ex-OpenAI, pointent cette incohérence comme une raison de tempérer les claims.
Quand pourra-t-on vraiment tester SubQ soi-même ?
Subquadratic indique avoir des dizaines de milliers d'inscrits en early access et plus de 500 entreprises sur liste d'attente, mais l'accès reste très limité pour l'instant. La startup invoque ses ressources contraintes, sans donner de calendrier précis pour un accès plus large.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture


