Mon sentiment sur l'évolution des modèles IA

Mon sentiment sur l'évolution des modèles IA
Alexandre P. dans Dev - mis à jour le 18-04-2026

Benchmarks IA biaisés, scores trompeurs : la réalité ne suit pas. Et si les petits modèles spécialisés étaient l’avenir plutôt que les géants surdimensionnés ?

De plus en plus de modèles sortent en annonçant des chiffres incroyables sur les tests SWE-Bench et autres benchmark communs pour IA.

Je pense qu'il faut se méfier...

J'en ai déjà parlé dans mon article sur les benchmark beaucoup de modèles s'entraînent directement sur les benchmarks rendant les scores inutiles.

Quand je vois plusieurs modèles chinois qui, certes ne sont pas mauvais, mais avoir des top scores en benchmark et une utilisation réelle qui ne reflète pas du tout ce niveau... Je trouve que c'est vraiment exagéré.

C'est pourquoi, je tenais à parler du sujet de la taille des modèles et ma vision future pour ces derniers.

Je pense qu'on a besoin d'un minimum de compréhension des choses à savoir comprendre ce qui est vivant, ce qui ne l'est pas (animal vs objets), les propriétés des objets (combien de roues sur une voiture, une moto, un avion ça vole...).

Mais qu'au delà d'une base assez simple, ils n'ont pas besoin d'aller plus loin, et devraient puiser dans un encyclopédie si besoin au moment voulu (lors du runtime). -Au passage c'est exactement ce que fera Deepseek Engram-

Cela permettrait d'alléger de beaucoup les modèles à l'entrainement et en inférence (exploitable sur un petit GPU).

De même, on devrait avoir des modèles hyper spécialisés pour réduire davantage leur taille:

  • un modèle expert Typescript (qui connait des bases d'algo, de databases et de JS/TS, sans avoir besoin d'aller jusqu'à savoir comment fonctionne le langage Visual Basic ou encore le Haskell).
  • un autre modèle pour un autre langage
  • un modèle expert en DB, etc...

Ces petits modèles hyper spécialisés, probablement existants dans le MOE devraient être extraits des MOE pour en faire des standalone de petite taille.

Je suis persuadé que ça pourrait fit sur un petit GPU de 8go et tourner en local à pleine performance.

Je pense que faire la course à plus de paramètres (les sociétés qui se vantent d'avoir un modèle de 1T de params) c'est totalement overkill...

L'avenir nous le dira, mais cette surenchère ne fait aucun sens, et entraine un besoin sans limite de VRAM, de consommation, etc...

Quand on voit qu'aujourd'hui Claude bride déjà les performances de son modèle pendant les heures de pointe parce qu'il ne tiennent pas la charge.

Ce modèle n'est pas viable et Yann Lecun a totalement raison.

FAQ

Les scores sur SWE-Bench et autres benchmarks sont-ils vraiment fiables ?

Pas toujours, car certains modèles sont entraînés directement sur ces benchmarks, ce qui gonfle artificiellement leurs scores sans que les performances réelles suivent. C'est particulièrement visible avec certains modèles qui affichent des tops scores mais déçoivent en usage quotidien.

Pourquoi les grands modèles à des milliards de paramètres posent-ils problème ?

Ils nécessitent des ressources matérielles colossales en VRAM et en énergie, et ne tiennent pas toujours la charge en production. Claude qui brida ses performances aux heures de pointe en est un exemple concret.

C'est quoi l'idée des modèles spécialisés et en quoi c'est différent de ce qu'on a aujourd'hui ?

Plutôt qu'un seul modèle généraliste qui sait tout faire approximativement, l'idée est d'avoir de petits modèles experts dans un domaine précis, comme un modèle dédié uniquement à TypeScript ou aux bases de données. Ces modèles pourraient tourner sur un GPU grand public de 8 Go avec de meilleures performances sur leur spécialité.

Quel est le lien avec l'architecture MoE qu'on entend souvent mentionner ?

Les architectures MoE (Mixture of Experts) contiennent déjà en leur sein des sous-modèles spécialisés. L'idée serait d'extraire ces experts pour en faire des modèles autonomes et légers, plutôt que de les garder enfermés dans un mastodonte.

Qu'est-ce que Deepseek Engram vient faire là-dedans ?

Deeseek Engram adopte une approche où le modèle consulte une base de connaissances externe au moment de l'inférence plutôt que de tout mémoriser à l'entraînement, ce qui va dans le sens d'alléger les modèles sans sacrifier l'accès à l'information.

#ia#consommation#moe#architecture

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.