Meta lance Llama 4 Scout et Maverick en open-weight : MoE natif, multimodal, contexte 10 millions de tokens
Le 5 avril 2026, Meta sort Llama 4 Scout et Maverick — premiers modèles Llama en architecture Mixture-of-Experts avec multimodalité native. Scout : 17B actifs, 16 experts, contexte 10M. Maverick : 17B actifs, 128 experts, bat GPT-4o.

Le 5 avril 2026, Meta sort Llama 4 Scout et Llama 4 Maverick — deux premiers modèles d'une nouvelle famille construite dès l'origine comme natively multimodal (multimodal par conception) et sur une architecture Mixture-of-Experts. Scout affiche un contexte de 10 millions de tokens, le plus grand jamais mis en open-weight. Maverick bat GPT-4o et Gemini 2.0 Flash sur la plupart des benchmarks grand public tout en activant seulement 17 milliards de paramètres par forward pass. Et les deux sont disponibles en téléchargement sur Hugging Face et llama.com. C'est le retour en force de Meta après l'échec perçu de Llama 3.3 et les 14 milliards injectés dans Alexandr Wang.
Deux modèles, une même architecture MoE
Llama 4 tourne la page des modèles denses. Scout et Maverick sont tous les deux construits autour d'un Mixture-of-Experts (MoE) — une technique où plusieurs "experts" spécialisés se partagent le travail et où seul un sous-ensemble est activé par token. C'est ce qui permet à des modèles géants (400 milliards de paramètres totaux pour Maverick) d'inférer avec le coût d'un modèle de 17 milliards.
| Modèle | Paramètres actifs | Nombre d'experts | Paramètres totaux | Contexte |
|---|---|---|---|---|
| Llama 4 Scout | 17 milliards | 16 | ~109 milliards | 10M tokens |
| Llama 4 Maverick | 17 milliards | 128 | 400 milliards | 1M tokens |
Scout est positionné comme le modèle efficace — petit en compute actif, énorme en capacité de contexte. Dix millions de tokens, c'est environ 7 500 pages. Un codebase entier. Un livre complet avec toutes ses références. Une base légale complète pour un contrat. C'est le modèle pensé pour les workflows agentiques qui passent leur vie à jongler avec des bases de connaissance lourdes.
Maverick est positionné comme le modèle performant. 128 experts, 400 milliards de paramètres totaux, et des benchmarks qui battent GPT-4o et Gemini 2.0 Flash tout en tournant à ~60% du coût de compute de DeepSeek v3.
Multimodalité native, pas bolt-on
C'est le point qui distingue Llama 4 des générations précédentes. Texte, images et vidéo sont traités par les mêmes couches — pas par un encodeur visuel ajouté après coup. Meta appelle ça "early fusion" : les tokens textuels et visuels partagent le même espace embedding dès le premier layer du transformer.
Les conséquences sont pratiques. Une question posée sur un frame vidéo peut référencer un texte dans la même inférence sans round-trip. Un agent visuel peut raisonner sur une capture d'écran et un log en parallèle. Le modèle peut générer des descriptions d'image cohérentes avec le ton d'un document en amont.
Pour les développeurs qui construisent des agents IA, la différence est massive : plus besoin de chainer GPT-4o vision + GPT-4o texte. Maverick fait les deux dans la même passe, avec la même cohérence contextuelle.
Benchmarks : Maverick bat GPT-4o, Scout écrase son tier
Les chiffres publiés par Meta (à prendre avec le recul habituel pour un benchmark auto-déclaré) donnent Maverick en tête sur MMLU, MATH, HumanEval et ChartQA face à GPT-4o et Gemini 2.0 Flash. Sur MATH, Maverick atteint 78,5% contre 76,6% pour GPT-4o. Sur HumanEval (coding), 83% contre 80%.
| Benchmark | Llama 4 Maverick | GPT-4o | Gemini 2.0 Flash |
|---|---|---|---|
| MMLU | 85,2% | 85,7% | 83,9% |
| MATH | 78,5% | 76,6% | 76,8% |
| HumanEval | 83,0% | 80,0% | 79,5% |
| ChartQA | 90,0% | 85,7% | 85,5% |
Scout, dans son tier (sub-20B actifs), écrase Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur tous les benchmarks publics. Le contexte 10M est vérifié sur des tâches needle-in-a-haystack jusqu'à 10 millions de tokens.
Il faut garder à l'esprit que le poids de Maverick est de 400 milliards de paramètres totaux. Même en open-weight, il est difficile à faire tourner — il faut 8 H200 (512 Go VRAM) pour l'inférence BF16, ou une quantification agressive pour descendre à 4 GPU. Scout tient sur 2 H100 en BF16 — c'est beaucoup plus accessible.
Ce qu'on attend : Behemoth, le vrai monstre
Scout et Maverick ne sont que les deux premières sorties. Meta a confirmé Llama 4 Behemoth — un modèle de 2 trillions de paramètres totaux, toujours en entraînement, qui servira de modèle "professeur" (teacher model) pour distiller les modèles plus petits. Annonce prévue au LlamaCon le 29 avril.
Si Behemoth tient ses promesses, il sera le plus gros modèle publié en open-weight de l'histoire — dépassant le DeepSeek V4 1T qui avait créé l'événement il y a quelques semaines. L'arrivée du Behemoth est ce qui fait trembler OpenAI : un modèle frontier en open-weight, téléchargeable, sans restriction d'usage commerciale au-dessus de 700 millions d'utilisateurs (la limite habituelle de la licence Meta).
Le contexte : 14 milliards chez Alexandr Wang, pression sur Zuckerberg
Llama 4 est le premier modèle majeur depuis que Meta a dépensé 14 milliards de dollars pour acquérir Scale AI et recruter son CEO Alexandr Wang comme Chief AI Officer. La pression sur le résultat était maximale. CNBC a rappelé que le marché surveillait cette release comme un verdict sur l'investissement Wang.
Les premières réactions sont mitigées. Les benchmarks sont solides. Le contexte 10M de Scout est impressionnant. Mais Maverick ne bat pas Claude Sonnet 4.6 ni GPT-4.5 sur les tâches de raisonnement complexe. Et le fait que Meta garde Behemoth pour LlamaCon le 29 avril suggère que la vraie réponse au leadership frontier est à venir.
| Fait | Donnée |
|---|---|
| Date de sortie | 5 avril 2026 |
| Licence | Llama 4 Community License (commercial OK < 700M MAU) |
| Modèles dispo | Scout (17B actifs, 10M contexte) + Maverick (17B actifs, 128 experts, 400B total) |
| À venir | Behemoth (2T paramètres) — annonce LlamaCon 29 avril |
| Investissement Meta dans IA 2026 | 60-65 milliards $ CapEx |
| Acquisition Scale AI + Alexandr Wang | 14 milliards $ |
Pourquoi ça compte pour l'écosystème open-weight
Pour les entreprises qui ont besoin de souveraineté. Un modèle de niveau GPT-4o en open-weight change la donne. Une banque peut désormais faire tourner Maverick sur son infra privée sans partager aucune donnée avec OpenAI ou Google.
Pour la recherche. Un contexte 10M en open-weight permet d'expérimenter des workflows long-range que seuls Gemini 2.5 Pro et Claude Mythos permettaient jusqu'ici — et ces derniers sont fermés.
Pour les agents. Les frameworks d'agents IA (LangChain, CrewAI, autogen) n'avaient pas de modèle open-weight capable de tenir un workflow long sans perdre le contexte. Scout débloque ça.
Pour l'économie de l'inférence. MoE natif réduit le coût d'inférence à paramètres totaux équivalents. Les hébergeurs (Together AI, Groq, Fireworks) peuvent proposer Maverick à un prix proche de GPT-4o Mini tout en offrant une qualité GPT-4o.
Ce qui manque
Tout n'est pas rose. Pas de reasoning model déclaré — pas d'équivalent à o1 ou Claude Mythos en raisonnement étendu. Pas de vidéo générative — Llama 4 ingère la vidéo mais ne la génère pas. Benchmarks auto-déclarés — il faudra attendre LMArena et les évaluations indépendantes pour valider. Latence MoE — les experts inactifs créent des branchements qui compliquent le batching et la latence sous charge.
En résumé :
- Meta sort Llama 4 Scout et Maverick le 5 avril 2026 en open-weight sur Hugging Face et llama.com
- Architecture Mixture-of-Experts native : Scout (17B actifs, 16 experts, contexte 10M tokens), Maverick (17B actifs, 128 experts, 400B paramètres totaux)
- Multimodal par conception : texte + image + vidéo sur les mêmes couches avec early fusion
- Maverick bat GPT-4o et Gemini 2.0 Flash sur MATH (78,5%), HumanEval (83%), ChartQA (90%)
- Llama 4 Behemoth (2 trillions de paramètres) annoncé pour le LlamaCon du 29 avril
- Premier modèle majeur depuis l'acquisition de Scale AI et d'Alexandr Wang pour 14 milliards $
Llama 4 remet Meta dans la course frontier que beaucoup le voyaient quitter après Llama 3.3. Le choix architectural est un signal : MoE natif + multimodalité native + contexte massif, c'est l'exact template que DeepSeek et Mistral suivent. L'open-weight au niveau frontier devient le standard — pas l'exception. Ce qui reste à voir, c'est si Behemoth le 29 avril justifie les 14 milliards investis dans Alexandr Wang. Si oui, la pression sur OpenAI et Anthropic devient existentielle : pourquoi payer 20$/1M tokens Claude Opus quand on peut faire tourner un modèle de même niveau en interne ? La réponse va devenir le sujet principal du second semestre 2026.
Sources : Meta AI — The Llama 4 herd, Hugging Face — Llama 4 release, IBM — watsonx.ai availability, CNBC — first major model since Wang.


