Deepseek v4 CSA et HCA

Deepseek v4 CSA et HCA
Alexandre P. dans Dev - mis à jour le 02-05-2026

Je vous explique en détail ce qu'est le CSA et HCA de Deepseek et pourquoi c'est une révolution.

DeepSeek V4 introduit deux mécanismes d'attention complémentaires conçus pour repousser la limite du contexte long sans faire exploser la mémoire ni le coût de calcul.

Le premier, CSA (Compressed Sparse Attention), compresse modérément la séquence puis sélectionne dynamiquement les blocs les plus pertinents pour chaque query.

Le second, HCA (Heavily Compressed Attention), pousse la compression à l'extrême puis applique une attention dense sur la séquence fortement réduite.

Ces deux mécanismes ne se concurrencent pas : ils s'alternent couche après couche dans le modèle.

Cette alternance crée une attention multi-échelle où certaines couches voient finement les motifs locaux et sparses tandis que d'autres condensent l'historique global, ce qui permet à V4 de tenir un contexte d'un million de tokens avec environ 2 % du KV cache d'une attention GQA standard.

CSA : Compressed Sparse Attention

CSA repose sur trois branches qui travaillent en parallèle.

Une branche compresseur réduit la séquence d'un facteur 4 grâce à un softmax-gated pooling avec biais positionnel appris, regroupant chaque paquet de 4 tokens en un bloc K' compressé.

Une branche Lightning Indexer, qui opère en précision FP4 avec un score ReLU multi-tête, parcourt ces blocs compressés et sélectionne uniquement les top-k les plus pertinents pour la query courante.

Une branche sliding window garde les tokens récents non compressés afin de préserver un contexte local précis.

L'astuce centrale de CSA est de faire la sélection sparse non pas sur la séquence brute, mais sur l'espace déjà compressé 4x.

L'indexer a donc beaucoup moins de candidats à scorer, et le score lui-même est calculé en FP4, ce qui rend cette étape quasi gratuite par rapport à une attention complète. La query n'attend ensuite que sur les quelques blocs retenus plus la fenêtre récente.

Sur DeepSeek-V4-Pro, CSA et son cousin HCA combinés ramènent le KV cache à 10 % de celui de V3.2 et les FLOPs d'inférence par token à 27 %.

Comparé à une attention GQA classique en bf16, le KV cache tombe à environ 2 %, ce qui rend viable un contexte de 1 000 000 tokens sur le même matériel.


HCA : Heavily Compressed Attention

HCA prend une stratégie radicalement différente : au lieu de compresser modérément puis sélectionner, il compresse massivement puis attend dense.

Chaque groupe de 128 tokens est collapsé en un unique bloc H par un compresseur lourd, ce qui divise la longueur effective de la séquence par 128.

Une séquence d'un million de tokens devient ainsi une suite d'environ 8 000 blocs, taille à laquelle une attention dense redevient parfaitement abordable.

Sur cet espace fortement compressé, la query attend de manière dense sur l'ensemble des blocs H, sans sélection top-k ni indexer.

Cela donne à HCA un rôle d'encodeur de contexte global : là où CSA repère finement quelques zones sparses, HCA résume tout l'historique et l'intègre uniformément.

Une branche sliding window vient compléter le mécanisme pour les tokens récents.

Le placement des couches reflète ces rôles complémentaires : sur V4-Pro (61 couches), les couches 0 et 1 sont en HCA pur, les couches 2 à 60 alternent CSA et HCA, et le bloc MTP final n'utilise que la sliding window.

Malgré la compression 128x, HCA conserve une excellente capacité de récupération (MRCR 8-needle au-dessus de 0.82 jusqu'à 256k tokens, et 0.59 à 1M), preuve que la compression dense ne détruit pas l'information fine.


Conclusion

L'intérêt pratique de CSA et HCA est de débloquer les usages agentiques à long horizon :

  • trajectoires d'outils,
  • conversations massives,
  • traitement de gros corpus, où le contexte gonfle continûment et où le KV cache est habituellement le premier goulot d'étranglement.

En descendant à environ 2 % du KV cache d'une attention GQA standard et à 27 % des FLOPs par token, V4 permet de servir un contexte de 1 million de tokens sur du matériel raisonnable, avec une inférence interactive rapide.

La combinaison CSA + HCA n'est donc pas un raffinement académique : c'est ce qui transforme le contexte long de promesse théorique en infrastructure utilisable en production.

En simple, ce sont toutes ces technologies qui permettront un jour à des IA puissantes et massives de tourner en local sur du matériel mainstream.

#deepseek#deepseek v4#CSA#HCA#Deepseek csa#Deepseek hca

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.