Nvidia Groq 3 LPX : 35x plus rapide par mégawatt — le chip à 20 milliards $ qui réinvente l'inférence IA en 2026
Nvidia dévoile le Groq 3 LPX, premier LPU issu du rachat de Groq à 20 Md$. 256 LPUs, 40 PB/s, 35x plus de throughput par MW combiné à Vera Rubin NVL72. Livraison Q3 2026.

20 milliards de dollars investis le 24 décembre 2025. Résultat aujourd'hui : un chip qui fait tourner 35x plus de requêtes LLM pour la même consommation électrique. Le Groq 3 LPX n'est pas un GPU. C'est un LPU — un Language Processing Unit conçu exclusivement pour la phase de décodage de l'inférence IA. Et il vient de remplacer un chip Nvidia maison dans la roadmap Vera Rubin.
GPU vs LPU : pourquoi ce n'est pas la même chose
Un GPU — Graphics Processing Unit — contient des milliers de cœurs qui travaillent en parallèle. Cette architecture est idéale pour l'entraînement des modèles : des millions de calculs matriciels simultanés. Mais pour l'inférence — la phase où le modèle génère une réponse — le travail est séquentiel. Un token après l'autre. Le GPU attend entre chaque étape.
Un LPU — Language Processing Unit — est l'inverse. C'est un pipeline séquentiel optimisé pour générer un token à la fois, le plus vite possible. Zéro parallélisme inutile. Zéro cycle d'attente.
L'analogie : le GPU est un stade de 80 000 places. Parfait pour les concerts. Inefficace pour une conversation entre deux personnes. Le LPU est un couloir direct — zéro latence, zéro overhead.
C'est précisément ce que Groq avait compris avant tout le monde. Et c'est pour ça que Nvidia a signé un chèque de 20 milliards.
40 petabytes/s : le chiffre qui résume tout
La bande passante mémoire est LE goulot d'étranglement de l'inférence. Pour générer chaque token, le modèle doit lire tous ses poids depuis la mémoire. Plus la mémoire est rapide, plus les tokens sortent vite.
Le H100 de Nvidia offre environ 3,35 terabytes par seconde. Le Groq 3 LPX : 40 petabytes par seconde. C'est 12 000 fois plus de bande passante mémoire. La SRAM — mémoire statique embarquée directement sur le chip — élimine les allers-retours vers la mémoire externe.
| Spec | Valeur |
|---|---|
| Nombre de LPUs | 256 |
| Mémoire SRAM | 128 Go |
| Bande passante mémoire | 40 petabytes/s |
| Latence | Sub-milliseconde |
| Procédé fabrication | Samsung 4nm |
| Livraison | Q3 2026 |
| Gain combiné Vera Rubin | 35x throughput/MW |
Combiné au rack Vera Rubin NVL72 de Nvidia : 35x plus de throughput par mégawatt vs l'inférence GPU seule. Un datacenter qui dépensait 1 mégawatt pour X requêtes LLM par seconde en dépense maintenant 1 mégawatt pour 35X. À infrastructure constante, c'est 35 fois plus de capacité. Détails techniques sur le blog officiel Nvidia Developer.
Pourquoi Nvidia a payé 20 milliards pour un chip
Groq n'était pas un lab de recherche. C'était le seul fabricant au monde à avoir industrialisé les LPUs à l'échelle datacenter. Fondé par Jonathan Ross — l'un des créateurs du TPU chez Google — Groq avait prouvé que ses chips pouvaient servir des LLMs en temps réel, avec des latences que même les meilleurs GPUs ne pouvaient pas atteindre.
Nvidia a vu que la guerre de l'inférence arrivait. Et que son architecture GPU avait une limite physique sur le décodage séquentiel. Un GPU H100 en phase de décodage est utilisé à environ 30% de sa capacité — le reste est du temps idle institutionnalisé dans le silicon.
Plutôt qu'investir cinq ans en R&D interne : 20 milliards pour acheter la solution. C'est la même logique que l'acquisition de Mellanox pour 7 milliards en 2020, qui avait donné naissance à NVLink — la technologie d'interconnexion qui a rendu les clusters GPU possibles. Résultat Mellanox : NVLink. Résultat Groq : le Groq 3 LPX intégré directement dans Vera Rubin.
L'inférence : le nouveau battleground des chips
En 2023-2024, la course aux armements de l'IA se résumait à une question : qui a le plus de H100 pour entraîner GPT-4 ? En 2026, la question a changé : qui peut inférer 1 milliard de tokens par seconde au coût le plus bas ?
Les modèles sont entraînés une fois. Mais ils sont inférés 24h/24, pour des milliards d'utilisateurs. Chaque requête ChatGPT, chaque appel API Claude, chaque recherche Gemini consomme des cycles d'inférence. C'est devenu le poste de coût numéro un des labs IA.
Trois annonces en 72 heures sur le même sujet :
| Date | Annonce | Acteur | Approche |
|---|---|---|---|
| 24 mars | ARM AGI CPU | ARM | Silicon datacenter inference |
| 25 mars | TurboQuant | Google Research | Compression logicielle KV cache |
| 26 mars | Groq 3 LPX | Nvidia × Groq | LPU dédié décodage |
Ce n'est pas une coïncidence. C'est la convergence de toute l'industrie vers le seul problème qui compte : l'efficience de l'inférence. Google a attaqué le problème par le logiciel avec TurboQuant — compression 6x de la mémoire KV cache, 8x d'accélération. Nvidia attaque par le hardware avec un chip dédié.
Vera Rubin NVL72 + Groq 3 LPX : le rack de référence 2026
La configuration combinée est le nouveau standard. Le rack Vera Rubin NVL72 — GPUs Nvidia dernière génération — gère l'entraînement et la phase de prefill de l'inférence. Le Groq 3 LPX — 256 LPUs en co-processeur — prend le relais pour le décodage séquentiel.
C'est le premier chip rack-scale Nvidia construit autour de silicon non-GPU. Il a remplacé un chip Nvidia maison dans la roadmap. Le fait qu'un chip acquis ait battu un chip interne en dit long sur la supériorité architecturale du LPU pour le décodage.
Livraison : Q3 2026. Clients attendus : OpenAI, Google, Anthropic, tous les hyperscalers. La question : quand ces racks seront en production, quel sera le coût par token pour GPT-5 ou Claude 5 ? La réponse changera la tarification de toute l'industrie IA — et tout ce qui était trop cher en IA agentique deviendra soudainement viable.
En résumé
- Le Groq 3 LPX est le premier produit issu de l'acquisition Groq par Nvidia (20 milliards $, décembre 2025) — un LPU dédié à la phase de décodage de l'inférence LLM
- Specs : 256 LPUs, 128 Go SRAM, 40 petabytes/s de bande passante, Samsung 4nm, livraison Q3 2026
- Combiné au rack Vera Rubin NVL72 de Nvidia : 35x plus de throughput par mégawatt vs inférence GPU seule
- Premier chip rack-scale Nvidia non-GPU — a remplacé un chip Nvidia maison dans la roadmap Vera Rubin
- S'inscrit dans la convergence de l'industrie vers l'efficience de l'inférence : ARM AGI CPU, TurboQuant Google, et Groq 3 LPX en 72h
La guerre des chips IA a changé de terrain. Elle n'est plus sur qui peut entraîner le plus gros modèle. Elle est sur qui peut le faire tourner le plus vite, le moins cher, avec le moins de watts. Nvidia a payé 20 milliards pour ne pas perdre cette guerre. Le Groq 3 LPX est la réponse. En Q3 2026, quand ces racks seront en production, le coût par token va s'effondrer. Et tout ce qui était trop cher pour être viable en IA agentique va soudainement devenir possible.


