Ascend 950, Huawei est un phénix

Huawei dévoile l'Ascend 950, une gamme de puces IA en deux variantes aux stratégies opposées. Voici pourquoi cette approche pourrait changer les rapports de force dans le monde du calcul IA.
: Huawei n'attaque pas NVIDIA puce contre puce
Huawei a sorti sa nouvelle gamme de puces IA, l'Ascend 950. Et ce qui nous intéresse tout particulièrement, c'est la stratégie.
C'est quoi l'Ascend 950, concrètement ?
L'Ascend, c'est la puce IA maison de Huawei, conçue par sa filiale HiSilicon. Un NPU, pas un GPU, bâti sur l'architecture DaVinci.
Ça vient de loin. La lignée démarre en 2018 avec les 310 et 910, et l'objectif n'a jamais changé : faire tourner de l'entraînement et de l'inférence IA sans dépendre de NVIDIA.
Le 950 est la nouvelle génération. Et Huawei ne sort pas une puce, il en sort deux :
- L'Ascend 950PR : optimisé pour le prefill et les systèmes de recommandation. Il a débarqué en mars 2026 sur la carte accélératrice Atlas 350.
- L'Ascend 950DT : optimisé pour le decode et l'entraînement. Annoncé sur Huawei Cloud pour août 2026, avec un lancement commercial prévu au Q4 2026.
Les deux partagent le même die. Ce qui change, c'est la mémoire qui l'entoure. Le 950PR embarque une HBM maison baptisée HiBL 1.0, pensée pour être moins chère que de la HBM3E ou HBM4E.
Le 950DT monte en gamme avec de la HiZQ 2.0 : 144 Go et près de 4 To/s de bande passante.
Côté chiffres bruts, Huawei annonce pour le die 950 :
- 1 PFLOPS en FP8 (et en MXFP8 et HiF8, son format maison)
- 2 PFLOPS en MXFP4
Petite mise en garde de rigueur. Les specs précises du 950PR varient selon les sources : TechPowerUp parlait de 128 Go de HBM et environ 1,6 To/s fin 2025, d'autres relevés plus récents donnent plutôt 112 Go, 1,4 To/s et 600 W de TDP. Je n'ai pas de fiche technique officielle consolidée sous la main, donc je relaie en l'état, sans trancher.
Pourquoi deux puces au lieu d'une ?
C'est le point qui m'a le plus intéressé. Parce que ce n'est pas du marketing, c'est de l'ingénierie.
Je m'explique. Un modèle qui répond à un prompt passe par deux phases très différentes :
- Le prefill : la machine digère tout le contexte d'entrée avant de sortir le premier token. C'est gourmand en calcul, mais ça n'a pas besoin d'une bande passante mémoire énorme.
- Le decode : la machine génère les tokens un par un. Là, c'est la bande passante mémoire qui devient le goulot d'étranglement, surtout quand le modèle et les batchs grossissent.
Deux phases, deux besoins opposés. Donc Huawei a fait deux puces, avec deux types de mémoire, pour ne pas payer une bande passante hors de prix là où elle ne sert à rien.
C'est du right-sizing matériel. Au lieu de vendre une puce universelle surdimensionnée, tu découpes par usage et tu réduis la facture du client. C'est malin.
Est-ce que ça bat NVIDIA ?
Sur une puce contre une puce ? Non. Et Huawei ne le prétend même pas vraiment. D'ailleurs je ne penses même pas que ça soit le but dans un premier temps.
Sur le die unique, le 950 vise la parité avec Hopper (la génération du H100). Pas avec Blackwell, qui est deux crans au-dessus. Pour donner un ordre d'idée, le B200 de NVIDIA affiche autour de 8 To/s de bande passante mémoire, contre 1,4 à 1,6 To/s pour le 950PR. L'écart est réel et il pèse fort sur le débit en decode.
Et c'est là qu'il faut faire attention au chiffre qui circule partout. Huawei annonce 2,87x les performances de calcul du H20. Sauf que le H20, c'est la version volontairement bridée que NVIDIA vendait à la Chine pour rester dans les clous des restrictions américaines. Mais ils se sont comparé à la seule autre alternative qu'il y a sur leur marché car le territoire chinois n'a pas le "droit" d'importer des puces plus puissantes de NVIDIA.
Dans ce cas, la puce de Huawei devient une alternative viable voire meilleure que les autres options disponibles sur le marché local.
Alors où est l'avantage de Huawei ?
Dans l'échelle, pas dans la puce.
La vérité c'est que Huawei a renoncé à gagner le duel silicium contre silicium. Sa stratégie, c'est d'empiler. Tu prends une puce qui n'est pas la meilleure du marché, mais tu en assembles des centaines de milliers et tu joues au niveau système.
Concrètement, ça donne des choses comme le SuperCluster Atlas 950, annoncé pour relier plus de 520 000 puces Ascend. Le pari est clair :
- NVIDIA est plus fort par puce, mais limité dans le nombre de dies qu'il peut densifier par rack.
- Huawei est plus faible par puce, mais excelle à interconnecter des racks entiers à grande échelle.
Et c'est là que Huawei a une vraie carte : le réseau. Des années de savoir-faire en interconnexion, avec son lien maison HCCS face au NVLink de NVIDIA, et des protocoles comme UBoE qui font passer son protocole UB sur de l'Ethernet standard. C'est rarement ce qui fait la une, mais c'est souvent ce qui fait gagner un cluster.
Et pour nous, devs hors de Chine ?
Soyons honnêtes : vous n'allez pas en acheter.
Les restrictions américaines à l'export verrouillent l'accès. D'ailleurs je trouve sincèrement qu'ils se mellent beaucoup des affaires des autres et prèchent toujours pour leur paroisse ceux là...
L'Ascend 950 se vend essentiellement via Huawei Cloud Chine, Alibaba Cloud Chine et Volcengine de ByteDance. Hors de Chine, l'achat reste largement bloqué.
Côté logiciel, Huawei ne s'appuie pas sur CUDA mais sur sa propre stack, CANN. Les nouvelles puces ajouteraient un support SIMT pour améliorer la compatibilité avec le code CUDA existant, ce qui faciliterait la migration. Sur le papier, c'est un vrai effort pour réduire le coût de bascule.
Donc pourquoi s'y intéresser si on ne peut pas y toucher ? Parce que ça déplace la carte mondiale du compute. Des modèles de la famille DeepSeek ont déjà été cités comme entraînés en partie sur ce type d'infrastructure. Quand une alternative crédible à NVIDIA monte en puissance sur un marché entier, ça finit par bouger les prix, la disponibilité et les rapports de force partout.
Une dernière chose à retenir. Huawei communique une feuille de route au cordeau : 950PR au Q1 2026, 950DT au Q4 2026, puis 960 en 2027 et 970 en 2028. C'est une cadence annuelle, calquée sur celle de NVIDIA. Mais c'est aussi de la com millimétrée : assez de détails pour faire les titres, jamais assez pour permettre une comparaison frontale et vérifiable.
La vraie question n'est donc pas de savoir si le 950 bat le H100 cette année. C'est de savoir combien de temps les restrictions à l'export resteront un mur, alors que de l'autre côté, quelqu'un construit méthodiquement toute la pile, du silicium au réseau.
Je pense que c'est un exemple de résilience et d'intelligence que les autres nations devraient s'empresser d'imiter.
FAQ
Concrètement, l'Ascend 950 est-il meilleur que le H100 ?
Non, pas puce à puce. Huawei vise la parité avec la génération Hopper, et l'écart en bande passante mémoire reste significatif face à Blackwell. En revanche, comparé au H20, la version bridée que NVIDIA pouvait vendre en Chine, l'Ascend 950 s'avère une alternative sérieuse voire supérieure pour le marché local.
Pourquoi sortir deux puces différentes plutôt qu'une seule ?
Parce que les deux grandes phases de l'inférence, le prefill et le decode, ont des besoins matériels opposés. Le prefill réclame beaucoup de calcul, le decode réclame surtout de la bande passante mémoire. Fabriquer deux puces avec deux types de mémoire distincts permet d'éviter de payer pour des ressources inutiles selon l'usage.
Où réside alors le vrai avantage de Huawei face à NVIDIA ?
Dans l'échelle du système, pas dans la puce individuelle. Huawei mise sur sa capacité à interconnecter des centaines de milliers d'accélérateurs, avec ses propres technologies réseau comme HCCS et UBoE, là où NVIDIA reste plus fort sur le die unique mais moins agile pour densifier à très grande échelle.
Peut-on utiliser du code CUDA existant sur ces puces ?
Pas directement, car Huawei s'appuie sur sa propre stack logicielle CANN. Les nouvelles puces ajouteraient toutefois un support SIMT censé faciliter la migration de code CUDA, ce qui réduirait le coût de transition sans pour autant garantir une compatibilité transparente.
Pourquoi s'intéresser à ces puces si on ne peut pas en acheter hors de Chine ?
Parce que leur montée en puissance redistribue les équilibres du marché mondial du calcul. Des modèles comme DeepSeek ont déjà été entraînés sur ce type d'infrastructure, et quand une alternative crédible à NVIDIA s'impose sur un marché entier, cela finit par peser sur les prix et les rapports de force à l'échelle globale.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture


