Google Gemma 4 : AIME 20% → 89%, Codeforces 110 → 2150, Apache 2.0 — le bond qui redéfinit les modèles open-source
Google DeepMind lance Gemma 4 : 4 modèles open-weight Apache 2.0, AIME 89%, Codeforces ELO 2150, function calling natif et offline sur smartphone. Le frontier devient open-source.

AIME 2026 : de 20 % à 89 % en une génération. Codeforces ELO : de 110 à 2150. Apache 2.0, function calling natif, offline sur smartphone. Gemma 4 vient de sortir — et ce n'est plus un modèle "open-source correct". C'est un modèle frontier. Quatre modèles, disponibles maintenant sur Hugging Face.
AIME 89 %, Codeforces 2150 : pourquoi ces chiffres changent tout
L'AIME (American Invitational Mathematics Examination) est le concours de mathématiques qui sélectionne les lycéens américains pour les olympiades mondiales. C'est le niveau élite mondial en maths de lycée — un problème AIME demande plusieurs heures à un étudiant brillant.
Gemma 3 27B en résolvait 1 sur 5. Gemma 4 31B en résout 9 sur 10. Ce n'est pas une amélioration marginale — c'est un changement de catégorie.
Le Codeforces ELO mesure le niveau en programmation compétitive. Une échelle universelle : 800 = débutant, 1600 = Expert, 2100 = Master, 2400 = Grandmaster. Gemma 3 était à 110 — niveau zéro. Gemma 4 31B est à 2150 — niveau Master, top 1 % mondial des programmeurs compétitifs.
Jusqu'ici, seuls les modèles frontier fermés atteignaient ce niveau : o3 d'OpenAI, Gemini 2.5 Pro, Claude Opus 4. Tous propriétaires, tous payants. Gemma 4 l'apporte en open-source sous Apache 2.0. C'est une rupture.
Le LMArena est le classement mondial des modèles IA basé sur les préférences humaines. Gemma 4 31B y est classé #3 mondial open-source avec 1452 points. Le 26B MoE est #6 mondial open-source avec 1441 points. Google cite officiellement : "outcompetes models 20x its size".
MoE : 4B de compute pour 26B de performance
Le MoE (Mixture of Experts, ou Mélange d'Experts) est une architecture qui change la façon dont un modèle utilise ses paramètres. Plutôt que d'activer tous les paramètres pour chaque token traité, le modèle n'active que les "experts" les plus pertinents pour la tâche en cours.
Le Gemma 4 26B MoE totalise 26 milliards de paramètres — mais n'en utilise que 4 milliards pendant l'inférence. Résultat : coût de calcul d'un modèle 4B, performance d'un modèle 26B. LMArena 1441, classé #6 open-source mondial.
C'est la même logique qu'explore Google Research avec TurboQuant pour la compression d'inférence LLM : l'efficience bat la puissance brute. Avec le MoE, vous pouvez faire tourner un niveau 26B sur une machine qui n'accepterait normalement qu'un modèle 4B. Pour les développeurs qui travaillent sur du hardware limité, c'est un avantage décisif.
| Modèle | Params actifs | Context | Cible | LMArena |
|---|---|---|---|---|
| E2B | 2B | 128K | Mobile, offline | — |
| E4B | 4B | 128K | Edge, Android | — |
| 26B MoE | 4B actifs / 26B total | 256K | Serveur | 1441 (#6) |
| 31B Dense | 31B | 256K | Cloud, workstation | 1452 (#3) |
Apache 2.0 : la décision qui libère tout
Les versions précédentes de Gemma utilisaient une licence custom avec des restrictions d'usage commercial. Certains cas d'usage nécessitaient une demande préalable à Google. Ce n'est plus le cas.
Apache 2.0, c'est la permissivité maximale en open-source : usage commercial libre, modification libre, redistribution libre, sans restriction ni redevance. N'importe quelle startup peut intégrer Gemma 4 dans son produit dès ce matin — sans demander d'autorisation, sans payer de licence, sans restriction d'échelle.
Le signal de la semaine : Meta (Llama 4) et Google (Gemma 4) choisissent tous les deux la permissivité maximale. OpenAI maintient ses modèles fermés. La bataille open vs fermé en 2026 penche clairement vers l'open. 400 millions de téléchargements cumulés sur toutes les versions Gemma — la communauté existait déjà. Elle vient de gagner sa liberté commerciale.
| Benchmark | Gemma 3 27B | Gemma 4 31B | Delta |
|---|---|---|---|
| AIME 2026 | 20.8% | 89.2% | +68 pts |
| Codeforces ELO | 110 | 2150 | +2040 |
| MMLU Pro | — | 85.2% | — |
| LMArena score | — | 1452 | #3 mondial |
Offline sur smartphone : l'IA sans cloud
E2B et E4B tournent 100 % offline. Pas de connexion internet. Pas de serveur distant. Pas d'API. Les poids du modèle vivent sur l'appareil — et l'inférence s'y exécute entièrement.
Les cibles : smartphones Android (Pixel, Qualcomm Snapdragon, MediaTek), Raspberry Pi, NVIDIA Jetson Orin Nano. L'encodeur audio a été compressé de 681 millions à 305 millions de paramètres — ce qui a réduit la latence de transcription audio de 160 ms à 40 ms. La transcription en temps réel sur téléphone sans connexion devient réaliste.
L'edge AI désigne cette capacité à exécuter des modèles d'IA directement sur l'appareil (edge = bord du réseau), sans passer par le cloud. C'est un changement architectural fondamental : l'IA générative multimodale sort des datacenters et entre dans la poche de chacun.
Pour les développeurs Android : l'AICore Developer Preview est disponible dès aujourd'hui. AICore est le runtime d'inférence IA natif d'Android, qui optimise l'exécution des modèles sur les puces mobiles récentes. C'est le chemin standard pour intégrer Gemma 4 dans une app Android en production.
Function calling natif : Gemma 4 dans les agents IA
Le function calling permet à un modèle d'IA d'appeler des fonctions ou des APIs externes directement depuis le modèle, sans code intermédiaire spécifique. C'est la brique fondamentale des agents IA autonomes.
C'est une première dans la gamme Gemma. Les versions précédentes nécessitaient du fine-tuning ou des prompts d'ingénierie complexes pour appeler des outils. Gemma 4 le fait nativement, avec une compatibilité standard OpenAI function calling — ce qui signifie que les outils déjà construits pour GPT-4 fonctionnent directement avec Gemma 4.
Couplé au standard MCP (Model Context Protocol) qui s'impose comme infrastructure des agents cette semaine — EmDash l'a adopté pour son CMS open-source — Gemma 4 devient un cerveau utilisable dans n'importe quel agent open-source. Sans fine-tuning. Sans infrastructure propriétaire. Avec la licence Apache 2.0 qui autorise la redistribution commerciale.
Pour les développeurs qui construisent des agents autonomes, c'est la combinaison décisive : modèle frontier, function calling natif, support du system prompt, MoE pour l'efficience, Apache 2.0 pour la commercialisation. Les agents open-source comme Meta HyperAgents trouvent dans Gemma 4 un modèle de raisonnement à la hauteur.
Gemma 4 vs les concurrents open-source — avril 2026
| Modèle | Lab | Params actifs | AIME 2026 | Licence | Function calling |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | 89.2% | ✅ Apache 2.0 | ✅ Natif | |
| Gemma 4 26B MoE | 4B actifs | 88.3% | ✅ Apache 2.0 | ✅ Natif | |
| Llama 4 Scout | Meta | 17B actifs | ~70% | ✅ Llama 4 | ✅ |
| Qwen 3.5 27B | Alibaba | 27B | ~75% | Apache 2.0 | ✅ |
| DeepSeek-R2 | DeepSeek | — | ~85% | MIT | ✅ |
Llama 4 Scout dispose d'une context window plus large (10M tokens contre 256K pour Gemma 4 31B), ce qui en fait le choix pour les documents très longs. Sur le raisonnement mathématique et la programmation, Gemma 4 prend l'avantage. Sur MMLU Pro (85.2%), il dépasse Qwen 3.5 27B. Sur Codeforces, aucun concurrent open-source n'approche les 2150 ELO.
En résumé — Gemma 4
- Google DeepMind lance Gemma 4 le 1er avril 2026 : 4 modèles open-weight (E2B, E4B, 26B MoE, 31B) sous Apache 2.0 — première fois pour la gamme
- Performance record : AIME 2026 89.2%, Codeforces 2150 ELO, LMArena 1452 (#3 mondial open-source) — niveau frontier en open-source
- Architecture MoE : 26B total, 4B actifs — performance 26B pour coût compute 4B
- Multimodal natif, function calling natif, agentic workflows first — premier modèle Gemma pensé pour les agents IA en production
- Edge AI : E2B et E4B tournent 100% offline sur Android, Raspberry Pi, NVIDIA Jetson Orin Nano — transcription audio temps réel à 40ms de latence
Il y a trois ans, "open-source" et "frontier" étaient des antonymes en IA. Les meilleurs modèles étaient fermés par définition. L'open-source était "correct mais pas compétitif". Gemma 4 résout AIME à 89 %. DeepSeek avait commencé cette convergence en janvier 2025. Llama 4 et Gemma 4 la confirment en avril 2026. La frontière entre open et fermé n'est plus une frontière de performance — c'est une frontière de choix stratégique. Et de plus en plus de labs choisissent l'ouverture. OpenAI, avec Spud, est de plus en plus seul dans la direction inverse. Ce qu'offre MolmoWeb d'AI2 sur la navigation web, Gemma 4 l'offre sur le raisonnement et les agents : la performance frontier, en open-source, aujourd'hui.
Disponible sur Hugging Face, Kaggle, Ollama, Google AI Studio et la Gemini API. La annonce officielle Google et la model card technique officielle sont disponibles pour aller plus loin.


