La prochaine version de Deepseek s'annonce incroyable

Deepseek s’impose comme le meilleur rapport qualité prix en IA, innovations Thinking, MoE, OCR, MHC et Engram, une menace sérieuse pour tous les modèles actuels.
Je suis un grand fan de Deepseek, je le dis, ils ont un rapport qualité/prix incroyable.
Surtout qu'ils avancent beaucoup au niveau de la R&D, et font avancer la recherche. Ce n'est pas un simple embargo matériel qui va les empêcher de sortir des technologies incroyables.
Pour rappel Deepseek, c'est la société à l'origine du Thinking mode, une méthode qui permet à l'IA de se challenger avant de donner sa réponse et qui a permis de faire un compromis sur la puissance de calcul tout en gardant en contre partie une grande qualité dans les réponses.
On peut reprocher à Deepseek de ne pas avoir un contexte gigantesque certes, de ne pas être le meilleur model en performance... ok !
POUR LE MOMENT !
J'ai testé son concurrent direct Mistral, un concurrent national en plus ! Et Mistral se débrouille très bien. Mais sachez que ces derniers mois, ils n'ont pas chômé chez Deepseek.
Après la révolution Thinking, ils maîtrisent déjà bien le MoE, c'est à dire le fait de découper son réseau de neurones en expertise, permettant de sollicter qu'une plus petite partie du réseau global (moins de puissance nécessaire) mais d'avoir de meilleurs résultats.
Place désormais aux optimisations via Deepseek OCR et un encoder dédié pour faire augmenter drastiquement leur taille de contexte. Deepseek va utiliser la compression de contexte en page (PDF) et les décoder à la volée.
Résultat ? Ils font quasiment un x10 sur la taille de contexte disponible.
Ensuite, ils ont publié un papier sur le MHC (Manifold-Constrained Hyper-Connections). Une architecture qui permet de garantir une meilleure intégrité des paramètres passés en entrée, lors du passage dans chaque couche de neurones.
Alors, qu'est-ce que ça veut dire, vous vous demandez ? Et bien je vais vous répondre:
Vous avez déjà eu l'impression que votre model, au bout d'un moment, minimise un des paramètres que vous lui avez donné en entrée, jusqu'à l'oublier totalement ? Cela se traduit souvent par une IA qui n'écoute pas vos instructions. Voire même exagère un paramètre totalement. Par exemple, vous lui parlez d'une couleur qui pour vous est un détail anodin, et il va faire toute une page en rouge parce que vous lui avez parlé de la couleur rouge un peu plus tôt.
Tous ces délires de l'IA ce n'est ni plus ni moins qu'un défaut de poids sur un des paramètres qui est forcément impacté par le passage dans les couches de neurones. Le modèle MHC est une architecture qui cherche à vérifier qu'un équilibre est respecté lors de l'inférence.
Vous pensez que c'est tout ? Parce que ça fait déjà beaucoup d'innovations déjà ?
Et ben non ! Ce n'est pas tout, pour enfoncer le clou, Deepseek a également introduit Engram, une nouvelle architecture qui va organiser un model en 2 grands blocs: une mémoire et un réseau de neurones. Si on lui pose une question qui devrait solliciter la mémoire plutôt que du calcul, on ne sollicitera pas les mêmes fonctions de l'IA.
Et pour mettre ça en place, ça demande des outils: une brique qui sert à tokeniser l'information de manière à uniformiser les inputs, puis on va solliciter soit la mémoire, soit le réseau de neurones. Et j'imagine même que si on met du MoE là dedans, on activera un expert plutôt qu'un réseau entier.
Ajoutez à cela un contexte immense avec la partie OCR... Je vous l'annonce, ce qui se profil à l'horizon, ce n'est pas un concurrent aux modèles actuels. C'est potentiellement l'apocalypse pour eux, en tout cas s'il ne réagissent pas assez vite pour contrer sa puissance à venir.
FAQ
C'est quoi le mode Thinking de Deepseek et pourquoi c'est important ?
C'est une méthode où le modèle s'auto-challenge avant de répondre, ce qui lui permet d'obtenir des réponses de qualité sans exploser la puissance de calcul nécessaire. C'est l'une des premières grandes innovations qui a distingué Deepseek de ses concurrents.
Comment Deepseek compte multiplier par 10 la taille de son contexte ?
Grâce à un encodeur OCR dédié, le modèle compresse le contexte sous forme de pages (comme des PDF) et les décode à la volée. Cela permet de traiter beaucoup plus d'informations en entrée sans saturer la mémoire du modèle.
Pourquoi mon IA oublie parfois certaines instructions que je lui ai données ?
C'est lié à un déséquilibre des poids lors du passage dans les couches de neurones, ce qui peut faire qu'un paramètre est sous-estimé ou au contraire sur-amplifié. L'architecture MHC de Deepseek vise précisément à corriger ce problème en maintenant un équilibre pendant l'inférence.
C'est quoi Engram et en quoi c'est différent d'un LLM classique ?
Engram divise le modèle en deux blocs distincts : une mémoire et un réseau de neurones. Selon la nature de la question, le modèle sollicite l'un ou l'autre, ce qui évite de mobiliser toute la puissance de calcul pour des tâches qui relèvent simplement d'un rappel d'information.
Deepseek est-il déjà meilleur que ses concurrents comme Mistral ou GPT ?
Pas encore sur tous les critères, notamment la taille de contexte ou les performances brutes. Mais la combinaison des innovations MoE, MHC, OCR et Engram laisse penser que la prochaine version pourrait changer radicalement la donne.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture


