Question 1

C'est quoi la différence entre 1 trillion de paramètres et les 37 milliards activés ?

Accepted Answer

DeepSeek V4 utilise une architecture Mixture-of-Experts : le modèle dispose d'un trillion de paramètres au total, mais n'en sollicite qu'une petite fraction à chaque inférence. Cela permet d'avoir la capacité d'un très grand modèle sans en payer le coût computationnel à chaque requête.

Question 2

Pourquoi le passage aux puces Huawei est-il important ?

Accepted Answer

C'est un signal fort d'indépendance vis-à-vis de l'écosystème hardware américain, dans un contexte de restrictions à l'export. Le fait qu'Alibaba, ByteDance et Tencent aient déjà commandé massivement des puces Huawei montre que ce virage est pris au sérieux par toute l'industrie tech chinoise.

Question 3

À quel point le prix de $0.30/MTok est-il agressif ?

Accepted Answer

Selon les estimations avancées, ce serait environ 50 fois moins cher que les modèles frontier concurrents comme GPT-4 ou Claude. Si ce tarif se confirme, cela exercera une pression très forte sur les providers closed-source pour revoir leur grille de prix.

Question 4

La fenêtre de 1 million de tokens, ça sert concrètement à quoi ?

Accepted Answer

Elle permet d'envoyer des bases de code entières, des documents massifs ou de longues conversations sans découpage. Des tâches comme la revue d'un dépôt complet ou l'analyse d'une documentation volumineuse deviennent beaucoup plus simples à automatiser.

Question 5

Est-ce que ces informations sont fiables ?

Accepted Answer

Pour l'instant, non. Les benchmarks cités viennent de sources internes non confirmées par des tiers indépendants, et les dates de sortie ont déjà été repoussées plusieurs fois. Il vaut mieux attendre le lancement officiel avant de planifier quoi que ce soit autour de ce modèle.

Deepseek v4 la rumeur continue

DeepSeek V4 : ce qu'on sait avant la sortie

Architecture

Benchmarks (non vérifiés)

Le virage hardware : Huawei au lieu de NVIDIA

Pricing

Ce que ça change pour les devs

FAQ

La prochaine version de Deepseek s'annonce incroyable

Benchmark de différents models pour le code