C'est quoi concrètement la différence entre CSA et HCA ?

CSA compresse la séquence par 4 puis sélectionne dynamiquement les blocs les plus pertinents, ce qui lui permet de rester précis sur des motifs locaux et sparses. HCA, lui, compresse massivement par 128 et fait une attention dense sur tout le résultat, agissant comme un résumé global de l'historique.

Pourquoi alterner les deux mécanismes couche par couche plutôt que d'en choisir un seul ?

L'alternance crée une attention multi-échelle : certaines couches capturent les détails fins, d'autres condensent l'ensemble du contexte. Utiliser un seul mécanisme sacrifierait soit la précision locale, soit la vue d'ensemble.

Qu'est-ce que ça change concrètement pour l'inférence sur du matériel grand public ?

Les deux mécanismes combinés réduisent le KV cache à environ 2 % de ce qu'exigerait une attention classique, ce qui rend un contexte d'un million de tokens faisable sur du matériel ordinaire sans saturer la mémoire.

La compression à 128x dans HCA ne fait-elle pas perdre des informations importantes ?

Les benchmarks MRCR montrent un score supérieur à 0.82 jusqu'à 256 000 tokens et encore 0.59 à 1 million de tokens, ce qui indique que la compression dense préserve l'essentiel de l'information utile.

Dans quels cas d'usage réels ces mécanismes font-ils vraiment la différence ?

Ils sont particulièrement utiles pour les agents IA à longue durée de vie, les conversations très étendues ou le traitement de gros documents, là où le contexte grossit continuellement et où le coût mémoire devient vite le principal obstacle.

Deepseek v4 CSA et HCA

DeepSeek V4 introduit deux mécanismes d'attention complémentaires conçus pour repousser la limite du contexte long sans faire exploser la mémoire ni le coût de calcul.

Le premier, CSA (Compressed Sparse Attention), compresse modérément la séquence puis sélectionne dynamiquement les blocs les plus pertinents pour chaque query.

Le second, HCA (Heavily Compressed Attention), pousse la compression à l'extrême puis applique une attention dense sur la séquence fortement réduite.

Ces deux mécanismes ne se concurrencent pas : ils s'alternent couche après couche dans le modèle.

Cette alternance crée une attention multi-échelle où certaines couches voient finement les motifs locaux et sparses tandis que d'autres condensent l'historique global, ce qui permet à V4 de tenir un contexte d'un million de tokens avec environ 2 % du KV cache d'une attention GQA standard.

CSA : Compressed Sparse Attention

CSA repose sur trois branches qui travaillent en parallèle.

Une branche compresseur réduit la séquence d'un facteur 4 grâce à un softmax-gated pooling avec biais positionnel appris, regroupant chaque paquet de 4 tokens en un bloc K' compressé.

Une branche Lightning Indexer, qui opère en précision FP4 avec un score ReLU multi-tête, parcourt ces blocs compressés et sélectionne uniquement les top-k les plus pertinents pour la query courante.

Une branche sliding window garde les tokens récents non compressés afin de préserver un contexte local précis.

L'astuce centrale de CSA est de faire la sélection sparse non pas sur la séquence brute, mais sur l'espace déjà compressé 4x.

L'indexer a donc beaucoup moins de candidats à scorer, et le score lui-même est calculé en FP4, ce qui rend cette étape quasi gratuite par rapport à une attention complète. La query n'attend ensuite que sur les quelques blocs retenus plus la fenêtre récente.

Sur DeepSeek-V4-Pro, CSA et son cousin HCA combinés ramènent le KV cache à 10 % de celui de V3.2 et les FLOPs d'inférence par token à 27 %.

Comparé à une attention GQA classique en bf16, le KV cache tombe à environ 2 %, ce qui rend viable un contexte de 1 000 000 tokens sur le même matériel.

HCA : Heavily Compressed Attention

HCA prend une stratégie radicalement différente : au lieu de compresser modérément puis sélectionner, il compresse massivement puis attend dense.

Chaque groupe de 128 tokens est collapsé en un unique bloc H par un compresseur lourd, ce qui divise la longueur effective de la séquence par 128.

Une séquence d'un million de tokens devient ainsi une suite d'environ 8 000 blocs, taille à laquelle une attention dense redevient parfaitement abordable.

Sur cet espace fortement compressé, la query attend de manière dense sur l'ensemble des blocs H, sans sélection top-k ni indexer.

Cela donne à HCA un rôle d'encodeur de contexte global : là où CSA repère finement quelques zones sparses, HCA résume tout l'historique et l'intègre uniformément.

Une branche sliding window vient compléter le mécanisme pour les tokens récents.

Le placement des couches reflète ces rôles complémentaires : sur V4-Pro (61 couches), les couches 0 et 1 sont en HCA pur, les couches 2 à 60 alternent CSA et HCA, et le bloc MTP final n'utilise que la sliding window.

Malgré la compression 128x, HCA conserve une excellente capacité de récupération (MRCR 8-needle au-dessus de 0.82 jusqu'à 256k tokens, et 0.59 à 1M), preuve que la compression dense ne détruit pas l'information fine.

Conclusion

L'intérêt pratique de CSA et HCA est de débloquer les usages agentiques à long horizon :

trajectoires d'outils,
conversations massives,
traitement de gros corpus, où le contexte gonfle continûment et où le KV cache est habituellement le premier goulot d'étranglement.

En descendant à environ 2 % du KV cache d'une attention GQA standard et à 27 % des FLOPs par token, V4 permet de servir un contexte de 1 million de tokens sur du matériel raisonnable, avec une inférence interactive rapide.

La combinaison CSA + HCA n'est donc pas un raffinement académique : c'est ce qui transforme le contexte long de promesse théorique en infrastructure utilisable en production.

En simple, ce sont toutes ces technologies qui permettront un jour à des IA puissantes et massives de tourner en local sur du matériel mainstream.

Deepseek v4 CSA et HCA

CSA : Compressed Sparse Attention

HCA : Heavily Compressed Attention

Conclusion

FAQ

Poursuivre la lecture

Test de Deepseek v4 Pro

Deepseek v4 la rumeur continue