La prochaine version de Deepseek s'annonce incroyable

Alexandre P. dans News - mis à jour le 03-02-2026

Deepseek s’impose comme le meilleur rapport qualité prix en IA, innovations Thinking, MoE, OCR, MHC et Engram, une menace sérieuse pour tous les modèles actuels.

Je suis un grand fan de Deepseek, je le dis, ils ont un rapport qualité/prix incroyable.

Surtout qu'ils avancent beaucoup au niveau de la R&D, et font avancer la recherche. Ce n'est pas un simple embargo matériel qui va les empêcher de sortir des technologies incroyables.

Pour rappel Deepseek, c'est la société à l'origine du Thinking mode, une méthode qui permet à l'IA de se challenger avant de donner sa réponse et qui a permis de faire un compromis sur la puissance de calcul tout en gardant en contre partie une grande qualité dans les réponses.

On peut reprocher à Deepseek de ne pas avoir un contexte gigantesque certes, de ne pas être le meilleur model en performance... ok !

POUR LE MOMENT !

J'ai testé son concurrent direct Mistral, un concurrent national en plus ! Et Mistral se débrouille très bien. Mais sachez que ces derniers mois, ils n'ont pas chômé chez Deepseek.

Après la révolution Thinking, ils maîtrisent déjà bien le MoE, c'est à dire le fait de découper son réseau de neurones en expertise, permettant de sollicter qu'une plus petite partie du réseau global (moins de puissance nécessaire) mais d'avoir de meilleurs résultats.

Place désormais aux optimisations via Deepseek OCR et un encoder dédié pour faire augmenter drastiquement leur taille de contexte. Deepseek va utiliser la compression de contexte en page (PDF) et les décoder à la volée.

Résultat ? Ils font quasiment un x10 sur la taille de contexte disponible.

Ensuite, ils ont publié un papier sur le MHC (Manifold-Constrained Hyper-Connections). Une architecture qui permet de garantir une meilleure intégrité des paramètres passés en entrée, lors du passage dans chaque couche de neurones.

Alors, qu'est-ce que ça veut dire, vous vous demandez ? Et bien je vais vous répondre:

Vous avez déjà eu l'impression que votre model, au bout d'un moment, minimise un des paramètres que vous lui avez donné en entrée, jusqu'à l'oublier totalement ? Cela se traduit souvent par une IA qui n'écoute pas vos instructions. Voire même exagère un paramètre totalement. Par exemple, vous lui parlez d'une couleur qui pour vous est un détail anodin, et il va faire toute une page en rouge parce que vous lui avez parlé de la couleur rouge un peu plus tôt.

Tous ces délires de l'IA ce n'est ni plus ni moins qu'un défaut de poids sur un des paramètres qui est forcément impacté par le passage dans les couches de neurones. Le modèle MHC est une architecture qui cherche à vérifier qu'un équilibre est respecté lors de l'inférence.

Vous pensez que c'est tout ? Parce que ça fait déjà beaucoup d'innovations déjà ?

Et ben non ! Ce n'est pas tout, pour enfoncer le clou, Deepseek a également introduit Engram, une nouvelle architecture qui va organiser un model en 2 grands blocs: une mémoire et un réseau de neurones. Si on lui pose une question qui devrait solliciter la mémoire plutôt que du calcul, on ne sollicitera pas les mêmes fonctions de l'IA.

Et pour mettre ça en place, ça demande des outils: une brique qui sert à tokeniser l'information de manière à uniformiser les inputs, puis on va solliciter soit la mémoire, soit le réseau de neurones. Et j'imagine même que si on met du MoE là dedans, on activera un expert plutôt qu'un réseau entier.

Ajoutez à cela un contexte immense avec la partie OCR... Je vous l'annonce, ce qui se profil à l'horizon, ce n'est pas un concurrent aux modèles actuels. C'est potentiellement l'apocalypse pour eux, en tout cas s'il ne réagissent pas assez vite pour contrer sa puissance à venir.

#ia#llm#deepseek#engram#mhc#ocr

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.

Poursuivre la lecture dans la rubrique News

News

#blog#performance#optimisation

Mise à jour performance du blog

J'ai travaillé sur la mise à jour de la perf du blog suite aux conseils d'un expert SEO. J'ai appris énormément de choses intéressantes grâce à lui et j'essaye de les mettre en application. Le but étant d'améliorer l'expérience de navigation sur la blog.

Le problèmes des prompts IA

ChatGPT, Bard et compagnie. Les sociétés d'IA ont fait parlé d'elles en 2023, occultant ainsi la blockchain et les crypto-monnaies, phénomène du cycle précédent. Mais derrière tout cet engouement, quelque chose d'étrange se produit en ce début d'année 2024. Toutes ces technologies sont de moins en moins intéressantes.

Alexandre P.

22 Jan 2024

La prochaine version de Deepseek s'annonce incroyable

Mise à jour performance du blog

Le problèmes des prompts IA

Votre vie privée