Google compare son nouveau TPU à son ancien TPU

Google dévoile ses TPU de 8e génération en deux puces distinctes, une pour l'entraînement, une pour l'inférence. Bonne ingénierie, mais les vrais enjeux sont ailleurs.
Google vient de détailler ses TPU de huitième génération. Beaucoup de chiffres impressionnants. Tous mesurés contre la génération précédente de Google. Personne d'autre dans la pièce.
Qu'est-ce que Google a annoncé au juste ?
2 puces, pas une.
Le TPU 8t (pour training), pensé pour l'entraînement massif. Le TPU 8i (pour inference), pensé pour le service et le raisonnement.
C'est ça, la vraie news: Google arrête de faire une puce qui essaie de tout faire, et coupe la poire en 2.
Je trouve la décision saine, et je vais vous expliquer pourquoi.
Pourquoi deux puces au lieu d'une ?
Parce que entraîner un modèle et le servir, ce ne sont plus du tout les mêmes contraintes.
L'entraînement, c'est un bulldozer. Il faut du débit brut, sur des dizaines de milliers de puces, pendant des semaines. Le 8t est taillé pour ça:
- topologie 3D torus à grande échelle, 9 600 puces dans un seul superpod
- un SparseCore dédié aux embeddings, pour ne pas que la puce attende sur des accès mémoire irréguliers
- du FP4 natif, donc du 4 bits, pour faire passer plus de modèle dans moins de mémoire
Le service, c'est l'inverse. Là, c'est la latence qui tue. Quand vous faites tourner des agents qui raisonnent en chaîne, chaque puce doit parler à toutes les autres en permanence. Le 8i répond avec:
- 3 fois plus de SRAM sur puce, de quoi garder le KV cache directement sur le silicium
- un Collectives Acceleration Engine, le CAE, qui accélère les étapes de synchronisation du décodage auto-régressif
- une nouvelle topologie réseau baptisée Boardfly
Et c'est ce dernier point qui est le plus intéressant techniquement.
Boardfly, ou quand le réseau devient le vrai sujet
Le torus, c'est très bien quand chaque puce parle surtout à ses voisines. C'est le cas de l'entraînement dense.
Mais les modèles de raisonnement et les MoE, c'est du all-to-all. N'importe quelle puce peut avoir besoin de n'importe quelle autre pour router un token. Et là, le torus devient une taxe sur la latence.
Dans un torus 3D de 1 024 puces, pour atteindre la puce la plus éloignée, un paquet doit traverser la moitié de chaque anneau. Google fait le calcul: 16 sauts. Seize. À chaque échange.
Boardfly s'inspire de la topologie Dragonfly et aplatit le réseau avec des liens optiques directs entre groupes de cartes.
Résultat sur le même pod de 1 024 puces: le diamètre réseau tombe de 16 à 7 sauts. Une réduction de 56%.
Moins de sauts, c'est moins d'attente. Donc le CAE ne poireaute pas pendant que les données traversent le pod. C'est de l'ingénierie propre, et je préfère le dire quand c'est le cas.
Et les fameux gains de perf, on les compare à quoi ?
Là, on attaque la partie marketing.
Google met en avant trois chiffres principaux:
- jusqu'à 2,7x de performance par dollar sur l'entraînement avec le 8t
- jusqu'à 80 % de performance par dollar en plus sur l'inférence avec le 8i
- jusqu'à 2x de performance par watt sur les deux puces
Joli sur le papier. Sauf qu'il manque une précision que Google glisse discrètement: tous ces gains sont mesurés contre Ironwood, c'est-à-dire le TPU de septième génération. De Google.
La vérité c'est que personne ne se benchmarke contre un H200 ou un B200 ici. Pas une ligne sur NVIDIA. On compare le nouveau Google au vieux Google, et on appelle ça un saut générationnel.
Ce n'est pas un mensonge. C'est juste un cadrage. Le genre de cadrage qu'on adopte quand la comparaison externe est moins flatteuse, ou quand on n'a tout simplement pas envie de la donner. À vous de décider dans quelle case vous rangez celle-là.
Ça change quoi pour moi, freelance qui code ?
Soyons honnêtes 2 secondes: vous n'entraînez pas de modèle de frontière et moi non plus.
Le 8t avec son million de puces dans un cluster, c'est un problème de Google DeepMind, pas le vôtre.
Ce qui descend jusqu'à vous, c'est une seule chose: le prix du token.
Si le 8i délivre vraiment 80% de performance par dollar en plus sur l'inférence, alors en théorie, vos factures d'API devraient en profiter. En théorie. Parce que entre le coût de production du silicium et le prix affiché sur la grille tarifaire, il y a un curseur. Et ce curseur, c'est Google qui le tient, pas vous.
Donc le vrai indicateur à surveiller, ce n'est pas la fiche technique du 8i. C'est de savoir si la baisse de coût atterrit dans votre poche ou dans la marge de Google.
Le vrai produit, c'est l'enfermement
Il y a un détail qu'aucun deep dive technique ne mettra en titre.
Vous ne pourrez jamais acheter un de ces TPU. Jamais. Le TPU ne se vend pas en rack. Il se loue, sur Google Cloud, et nulle part ailleurs.
Comparez avec NVIDIA. Une carte NVIDIA, vous l'achetez, vous la posez où vous voulez, chez n'importe quel cloud ou dans votre propre datacenter. Le TPU, c'est Google ou rien.
Et tout le discours autour des world models, des agents qui apprennent par l'imagination, de Genie 3 qui simule des environnements, ça sert aussi à ça. Plus on raconte que l'avenir, c'est des millions d'agents qui raisonnent en boucle, plus on justifie de vendre du compute. Chaque token de raisonnement, c'est de la facture.
Le business model pointent commodément dans la même direction.
Le pari de Google est limpide: rendre le silicium tellement bon et tellement exclusif que les labos, et Google lui-même, n'aient plus envie d'en partir. C'est une stratégie d'enfermement déguisée en prouesse d'ingénierie. Et l'ingénierie est réelle, ce qui rend l'enfermement d'autant plus efficace.
Le 8i est probablement rapide. Le 8t est probablement un monstre de débit. Sur la partie technique, je ne doute pas une seconde.
Mais vous codez déjà en pariant sur un seul fournisseur de compute, ou vous gardez une porte de sortie ouverte ?
Personnellement, je ne suis pas fan du vendor lock-in.
FAQ
Google annonce deux puces séparées, mais concrètement pourquoi ce n'était pas déjà le cas avant ?
Jusqu'ici, une seule puce devait gérer à la fois l'entraînement et l'inférence, ce qui imposait des compromis des deux côtés. Les modèles sont devenus suffisamment grands et les usages d'inférence suffisamment exigeants pour que ces compromis coûtent trop cher en efficacité.
C'est quoi exactement Boardfly et pourquoi c'est important ?
C'est la nouvelle façon dont les puces communiquent entre elles à l'intérieur d'un pod. En remplaçant la topologie en tore par des liens optiques directs entre groupes de cartes, Google réduit de 16 à 7 le nombre de sauts nécessaires pour qu'un paquet atteigne n'importe quelle puce, ce qui se traduit directement par moins d'attente lors du décodage.
Les gains annoncés de 2,7x ou 80 % sont-ils fiables ?
Ce sont des chiffres réels, mais mesurés uniquement par rapport à la génération précédente de TPU Google. Aucune comparaison avec les puces Nvidia n'est fournie, ce qui rend impossible toute évaluation objective de la position de Google sur le marché.
En tant que développeur qui utilise des API, est-ce que j'en profite concrètement ?
Potentiellement, si Google répercute ses gains d'efficacité sur ses grilles tarifaires. Mais c'est Google qui décide si la baisse de coût de production atterrit dans le prix du token ou dans ses marges, et rien ne l'y oblige.
Pourquoi est-ce qu'on ne peut pas juste louer ces puces ailleurs ou les acheter ?
Le TPU n'est disponible qu'en location sur Google Cloud et nulle part ailleurs, contrairement aux GPU Nvidia qui peuvent être achetés et déployés chez n'importe quel fournisseur ou dans un datacenter privé. C'est un choix délibéré qui crée une dépendance totale à l'infrastructure de Google.
Comment savoir si je suis trop exposé à ce risque de dépendance fournisseur ?
La question à se poser est de savoir si votre stack pourrait migrer vers un autre fournisseur de compute en cas de hausse tarifaire ou de changement de politique. Si votre code, vos pipelines et vos coûts reposent entièrement sur Google Cloud AI, la réponse est probablement non.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture


