IA6 min de lecturePar Paul Lefizelier

Google TurboQuant : 8x plus rapide, 6x moins de mémoire — la compression qui va changer le coût des LLMs en production

Google Research publie TurboQuant, un algorithme qui réduit la mémoire KV cache de 6x et accélère l'attention de 8x sur H100 — sans perte de précision ni fine-tuning. Présenté à ICLR 2026.

Google TurboQuant : 8x plus rapide, 6x moins de mémoire — la compression qui va changer le coût des LLMs en production

Compresser un LLM de 6x en mémoire et l'accélérer de 8x — sans perdre un bit de précision, sans re-entraîner le moindre poids. C'est ce que Google Research vient de publier avec TurboQuant, présenté à ICLR 2026 et AISTATS 2026. Les implications sont directes : moins de GPUs, plus de contexte, des coûts d'inférence divisés — pour tous les modèles, pas seulement Gemini.

Le KV cache : le goulot que personne ne voyait

Quand un LLM génère du texte, il doit relire tout le contexte à chaque nouveau token. Le KV cache (Key-Value cache) est la mémoire temporaire GPU qui stocke ces informations contextuelles pendant l'inférence. C'est le composant qui permet au modèle de "se souvenir" de la conversation.

Le problème : cette mémoire explose avec la longueur du contexte. À 32 000 tokens, le KV cache consomme déjà plusieurs gigaoctets de VRAM sur un GPU H100 (le processeur graphique de NVIDIA conçu pour l'IA). À 1 million de tokens — le contexte de Gemini 2.5 Pro — c'est tout simplement ingérable sans compression.

Jusqu'ici, la quantification (compression en réduisant le nombre de bits par valeur) introduisait 1 à 2 bits d'overhead (surcoût mémoire) par valeur compressée. Ce surcoût annulait une partie du bénéfice. TurboQuant résout ce paradoxe : compression maximale, overhead mémoire strictement nul.

L'algorithme est signé Amir Zandieh (Research Scientist) et Vahab Mirrokni (VP et Google Fellow). Testé sur Llama-3.1-8B, Gemma et Mistral. Selon la publication officielle Google Research, Gemini est explicitement mentionné comme application directe.

PolarQuant : stocker des angles plutôt que des coordonnées

Le premier algorithme de TurboQuant s'appelle PolarQuant. Son idée est simple : changer la manière dont on représente les vecteurs.

La métaphore GPS fonctionne bien. Imaginez des directions en ville. La méthode classique dit "3 blocs à l'Est, 4 blocs au Nord". PolarQuant dit "5 blocs à 37°". Le résultat est identique. Mais la version polaire a un avantage décisif : les frontières du grid sont fixes et universelles.

En coordonnées cartésiennes, chaque compression nécessite de stocker les bornes du grid — c'est l'overhead qui plombe les méthodes classiques. En coordonnées polaires, les frontières sont mathématiquement prévisibles. Zéro bit supplémentaire à stocker.

Résultat : PolarQuant capture 99% de l'information du vecteur original. Sans aucun overhead mémoire. C'est déjà remarquable. Mais il reste ce 1% de résidu.

QJL : 1 bit pour éliminer le résidu

C'est là qu'intervient QJL — Quantized Johnson-Lindenstrauss. Le lemme de Johnson-Lindenstrauss est un résultat mathématique qui garantit qu'on peut "projeter" un vecteur dans un espace plus petit tout en préservant les distances relatives entre les points.

QJL pousse cette idée à l'extrême. Il réduit chaque vecteur résiduel — le 1% que PolarQuant n'a pas capturé — à une seule valeur binaire. Plus 1 ou moins 1. Un seul bit.

La combinaison donne TurboQuant : PolarQuant capture 99% du signal en coordonnées polaires, QJL élimine le résidu en 1 bit. Total : 3 bits par valeur suffisent pour une précision parfaite. Les méthodes classiques nécessitent 16 ou 32 bits pour le même résultat.

8x sur H100 : ce que ça change en production

Les benchmarks sont sans ambiguïté. Sur un GPU NVIDIA H100, TurboQuant délivre un speedup de 8x sur le calcul des attention logits en mode 4-bit, comparé au 32-bit non quantifié. La mémoire KV cache est réduite de 6x minimum.

Traduction business : avec la même infrastructure GPU, vous pouvez servir 6x plus de requêtes en parallèle. Ou offrir un contexte 6x plus long pour le même coût. Sans fine-tuning, sans modification du modèle, sans re-entraînement.

Les résultats sont validés sur cinq benchmarks de référence : LongBench, Needle In A Haystack, ZeroSCROLLS, RULER et L-Eval. Le test Needle In A Haystack — trouver une information précise noyée dans des millions de tokens — est particulièrement parlant. TurboQuant maintient une performance parfaite avec une réduction mémoire de 6x.

C'est exactement le type de compression dont les agents IA ont besoin pour gérer des mémoires étendues. Et c'est ce qui rend le contexte d'un million de tokens de Gemini 2.5 Pro techniquement viable.

MétriqueRésultat
Réduction mémoire KV cache6x minimum
Speedup attention (4-bit, H100)8x vs 32-bit
Bits pour zéro perte de précision3 bits
Fine-tuning requis❌ Aucun
Perte de précision❌ Aucune
Modèles testésLlama-3.1-8B, Gemma, Mistral

Au-delà de l'inférence : vector search à l'échelle Google

TurboQuant ne se limite pas au KV cache des LLMs. L'algorithme s'applique aussi à la vector search (recherche sémantique) — la technologie qui alimente Google Search, YouTube et le système de recommandation à l'échelle de milliards de vecteurs d'embeddings (représentations numériques du sens des mots).

Sur ce terrain, TurboQuant surpasse les méthodes state-of-the-art : PQ (Product Quantization) et RaBitQ. La différence clé : TurboQuant fonctionne sans codebook spécifique au dataset. Il s'applique directement, sans calibration préalable.

C'est une technologie qui touche chaque produit Google utilisant des embeddings. Soit quasiment tous.

CritèreQuantification classiquePolarQuant seulTurboQuant
Overhead mémoire1-2 bits/valeur0 bit0 bit
Précision préservée⚠️ Partielle✅ 99%✅ 100%
Fine-tuning requis✅ Souvent❌ Non❌ Non
Speedup sur H100VariablePartiel8x
Applicable vector search❌ Non❌ Non✅ Oui

En résumé

  • TurboQuant est un algorithme Google Research de compression de vecteurs pour le KV cache des LLMs, présenté à ICLR 2026 et AISTATS 2026
  • Il réduit la mémoire KV cache de 6x minimum et accélère le calcul d'attention de 8x sur H100, sans perte de précision
  • Il combine PolarQuant (coordonnées polaires, zéro overhead) et QJL (1 bit de résidu, zéro overhead) pour atteindre 3 bits par valeur compressée
  • Aucun fine-tuning requis : compatible avec tout LLM existant — Llama-3.1-8B, Gemma, Mistral, Gemini
  • Application aussi à la vector search à l'échelle de milliards de vecteurs pour Google Search et YouTube

La course aux LLMs a longtemps été une guerre de paramètres. Mais en 2026, le vrai différenciateur n'est plus la taille du modèle — c'est l'efficacité de son inférence. TurboQuant n'est pas un papier académique de plus : c'est l'algorithme qui permet à Gemini d'offrir 1 million de tokens de contexte sans effondrer les data centers de Google. Pendant que DeepSeek empile les milliards de paramètres et que NVIDIA construit des superclusters, Google joue une autre partie : faire plus avec moins. Chaque point de compression gagné ici se traduit en millions de dollars économisés à l'échelle de la production. L'IA la plus puissante ne sera pas celle qui a le plus de paramètres — mais celle qui fait le plus avec le moins.

#google #turboquant #polarquant #quantization #kv-cache #llm #inference #compression #h100 #iclr-2026 #gemini #llama