Question 1

Les scores sur SWE-Bench et autres benchmarks sont-ils vraiment fiables ?

Accepted Answer

Pas toujours, car certains modèles sont entraînés directement sur ces benchmarks, ce qui gonfle artificiellement leurs scores sans que les performances réelles suivent. C'est particulièrement visible avec certains modèles qui affichent des tops scores mais déçoivent en usage quotidien.

Question 2

Pourquoi les grands modèles à des milliards de paramètres posent-ils problème ?

Accepted Answer

Ils nécessitent des ressources matérielles colossales en VRAM et en énergie, et ne tiennent pas toujours la charge en production. Claude qui brida ses performances aux heures de pointe en est un exemple concret.

Question 3

C'est quoi l'idée des modèles spécialisés et en quoi c'est différent de ce qu'on a aujourd'hui ?

Accepted Answer

Plutôt qu'un seul modèle généraliste qui sait tout faire approximativement, l'idée est d'avoir de petits modèles experts dans un domaine précis, comme un modèle dédié uniquement à TypeScript ou aux bases de données. Ces modèles pourraient tourner sur un GPU grand public de 8 Go avec de meilleures performances sur leur spécialité.

Question 4

Quel est le lien avec l'architecture MoE qu'on entend souvent mentionner ?

Accepted Answer

Les architectures MoE (Mixture of Experts) contiennent déjà en leur sein des sous-modèles spécialisés. L'idée serait d'extraire ces experts pour en faire des modèles autonomes et légers, plutôt que de les garder enfermés dans un mastodonte.

Question 5

Qu'est-ce que Deepseek Engram vient faire là-dedans ?

Accepted Answer

Deeseek Engram adopte une approche où le modèle consulte une base de connaissances externe au moment de l'inférence plutôt que de tout mémoriser à l'entraînement, ce qui va dans le sens d'alléger les modèles sans sacrifier l'accès à l'information.

Mon sentiment sur l'évolution des modèles IA

FAQ

L'IA autonome pour le code c'est pour quand ?

Nvidia vient de se faire grand remplacer par OpenAI