IA7 min de lecturePar Paul Lefizelier

Meta lance Llama 4 Scout et Maverick en open-weight : MoE natif, multimodal, contexte 10 millions de tokens

Le 5 avril 2026, Meta sort Llama 4 Scout et Maverick — premiers modèles Llama en architecture Mixture-of-Experts avec multimodalité native. Scout : 17B actifs, 16 experts, contexte 10M. Maverick : 17B actifs, 128 experts, bat GPT-4o.

Meta lance Llama 4 Scout et Maverick en open-weight : MoE natif, multimodal, contexte 10 millions de tokens

Le 5 avril 2026, Meta sort Llama 4 Scout et Llama 4 Maverick — deux premiers modèles d'une nouvelle famille construite dès l'origine comme natively multimodal (multimodal par conception) et sur une architecture Mixture-of-Experts. Scout affiche un contexte de 10 millions de tokens, le plus grand jamais mis en open-weight. Maverick bat GPT-4o et Gemini 2.0 Flash sur la plupart des benchmarks grand public tout en activant seulement 17 milliards de paramètres par forward pass. Et les deux sont disponibles en téléchargement sur Hugging Face et llama.com. C'est le retour en force de Meta après l'échec perçu de Llama 3.3 et les 14 milliards injectés dans Alexandr Wang.


Deux modèles, une même architecture MoE

Llama 4 tourne la page des modèles denses. Scout et Maverick sont tous les deux construits autour d'un Mixture-of-Experts (MoE) — une technique où plusieurs "experts" spécialisés se partagent le travail et où seul un sous-ensemble est activé par token. C'est ce qui permet à des modèles géants (400 milliards de paramètres totaux pour Maverick) d'inférer avec le coût d'un modèle de 17 milliards.

ModèleParamètres actifsNombre d'expertsParamètres totauxContexte
Llama 4 Scout17 milliards16~109 milliards10M tokens
Llama 4 Maverick17 milliards128400 milliards1M tokens

Scout est positionné comme le modèle efficace — petit en compute actif, énorme en capacité de contexte. Dix millions de tokens, c'est environ 7 500 pages. Un codebase entier. Un livre complet avec toutes ses références. Une base légale complète pour un contrat. C'est le modèle pensé pour les workflows agentiques qui passent leur vie à jongler avec des bases de connaissance lourdes.

Maverick est positionné comme le modèle performant. 128 experts, 400 milliards de paramètres totaux, et des benchmarks qui battent GPT-4o et Gemini 2.0 Flash tout en tournant à ~60% du coût de compute de DeepSeek v3.

Multimodalité native, pas bolt-on

C'est le point qui distingue Llama 4 des générations précédentes. Texte, images et vidéo sont traités par les mêmes couches — pas par un encodeur visuel ajouté après coup. Meta appelle ça "early fusion" : les tokens textuels et visuels partagent le même espace embedding dès le premier layer du transformer.

Les conséquences sont pratiques. Une question posée sur un frame vidéo peut référencer un texte dans la même inférence sans round-trip. Un agent visuel peut raisonner sur une capture d'écran et un log en parallèle. Le modèle peut générer des descriptions d'image cohérentes avec le ton d'un document en amont.

Pour les développeurs qui construisent des agents IA, la différence est massive : plus besoin de chainer GPT-4o vision + GPT-4o texte. Maverick fait les deux dans la même passe, avec la même cohérence contextuelle.

Benchmarks : Maverick bat GPT-4o, Scout écrase son tier

Les chiffres publiés par Meta (à prendre avec le recul habituel pour un benchmark auto-déclaré) donnent Maverick en tête sur MMLU, MATH, HumanEval et ChartQA face à GPT-4o et Gemini 2.0 Flash. Sur MATH, Maverick atteint 78,5% contre 76,6% pour GPT-4o. Sur HumanEval (coding), 83% contre 80%.

BenchmarkLlama 4 MaverickGPT-4oGemini 2.0 Flash
MMLU85,2%85,7%83,9%
MATH78,5%76,6%76,8%
HumanEval83,0%80,0%79,5%
ChartQA90,0%85,7%85,5%

Scout, dans son tier (sub-20B actifs), écrase Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur tous les benchmarks publics. Le contexte 10M est vérifié sur des tâches needle-in-a-haystack jusqu'à 10 millions de tokens.

Il faut garder à l'esprit que le poids de Maverick est de 400 milliards de paramètres totaux. Même en open-weight, il est difficile à faire tourner — il faut 8 H200 (512 Go VRAM) pour l'inférence BF16, ou une quantification agressive pour descendre à 4 GPU. Scout tient sur 2 H100 en BF16 — c'est beaucoup plus accessible.

Ce qu'on attend : Behemoth, le vrai monstre

Scout et Maverick ne sont que les deux premières sorties. Meta a confirmé Llama 4 Behemoth — un modèle de 2 trillions de paramètres totaux, toujours en entraînement, qui servira de modèle "professeur" (teacher model) pour distiller les modèles plus petits. Annonce prévue au LlamaCon le 29 avril.

Si Behemoth tient ses promesses, il sera le plus gros modèle publié en open-weight de l'histoire — dépassant le DeepSeek V4 1T qui avait créé l'événement il y a quelques semaines. L'arrivée du Behemoth est ce qui fait trembler OpenAI : un modèle frontier en open-weight, téléchargeable, sans restriction d'usage commerciale au-dessus de 700 millions d'utilisateurs (la limite habituelle de la licence Meta).

Le contexte : 14 milliards chez Alexandr Wang, pression sur Zuckerberg

Llama 4 est le premier modèle majeur depuis que Meta a dépensé 14 milliards de dollars pour acquérir Scale AI et recruter son CEO Alexandr Wang comme Chief AI Officer. La pression sur le résultat était maximale. CNBC a rappelé que le marché surveillait cette release comme un verdict sur l'investissement Wang.

Les premières réactions sont mitigées. Les benchmarks sont solides. Le contexte 10M de Scout est impressionnant. Mais Maverick ne bat pas Claude Sonnet 4.6 ni GPT-4.5 sur les tâches de raisonnement complexe. Et le fait que Meta garde Behemoth pour LlamaCon le 29 avril suggère que la vraie réponse au leadership frontier est à venir.

FaitDonnée
Date de sortie5 avril 2026
LicenceLlama 4 Community License (commercial OK < 700M MAU)
Modèles dispoScout (17B actifs, 10M contexte) + Maverick (17B actifs, 128 experts, 400B total)
À venirBehemoth (2T paramètres) — annonce LlamaCon 29 avril
Investissement Meta dans IA 202660-65 milliards $ CapEx
Acquisition Scale AI + Alexandr Wang14 milliards $

Pourquoi ça compte pour l'écosystème open-weight

Pour les entreprises qui ont besoin de souveraineté. Un modèle de niveau GPT-4o en open-weight change la donne. Une banque peut désormais faire tourner Maverick sur son infra privée sans partager aucune donnée avec OpenAI ou Google.

Pour la recherche. Un contexte 10M en open-weight permet d'expérimenter des workflows long-range que seuls Gemini 2.5 Pro et Claude Mythos permettaient jusqu'ici — et ces derniers sont fermés.

Pour les agents. Les frameworks d'agents IA (LangChain, CrewAI, autogen) n'avaient pas de modèle open-weight capable de tenir un workflow long sans perdre le contexte. Scout débloque ça.

Pour l'économie de l'inférence. MoE natif réduit le coût d'inférence à paramètres totaux équivalents. Les hébergeurs (Together AI, Groq, Fireworks) peuvent proposer Maverick à un prix proche de GPT-4o Mini tout en offrant une qualité GPT-4o.

Ce qui manque

Tout n'est pas rose. Pas de reasoning model déclaré — pas d'équivalent à o1 ou Claude Mythos en raisonnement étendu. Pas de vidéo générative — Llama 4 ingère la vidéo mais ne la génère pas. Benchmarks auto-déclarés — il faudra attendre LMArena et les évaluations indépendantes pour valider. Latence MoE — les experts inactifs créent des branchements qui compliquent le batching et la latence sous charge.


En résumé :

  • Meta sort Llama 4 Scout et Maverick le 5 avril 2026 en open-weight sur Hugging Face et llama.com
  • Architecture Mixture-of-Experts native : Scout (17B actifs, 16 experts, contexte 10M tokens), Maverick (17B actifs, 128 experts, 400B paramètres totaux)
  • Multimodal par conception : texte + image + vidéo sur les mêmes couches avec early fusion
  • Maverick bat GPT-4o et Gemini 2.0 Flash sur MATH (78,5%), HumanEval (83%), ChartQA (90%)
  • Llama 4 Behemoth (2 trillions de paramètres) annoncé pour le LlamaCon du 29 avril
  • Premier modèle majeur depuis l'acquisition de Scale AI et d'Alexandr Wang pour 14 milliards $

Llama 4 remet Meta dans la course frontier que beaucoup le voyaient quitter après Llama 3.3. Le choix architectural est un signal : MoE natif + multimodalité native + contexte massif, c'est l'exact template que DeepSeek et Mistral suivent. L'open-weight au niveau frontier devient le standard — pas l'exception. Ce qui reste à voir, c'est si Behemoth le 29 avril justifie les 14 milliards investis dans Alexandr Wang. Si oui, la pression sur OpenAI et Anthropic devient existentielle : pourquoi payer 20$/1M tokens Claude Opus quand on peut faire tourner un modèle de même niveau en interne ? La réponse va devenir le sujet principal du second semestre 2026.

Sources : Meta AI — The Llama 4 herd, Hugging Face — Llama 4 release, IBM — watsonx.ai availability, CNBC — first major model since Wang.

#meta #llama-4 #llama-scout #llama-maverick #open-weight #mixture-of-experts #multimodal #mark-zuckerberg #alexandr-wang

Autres actualités

OpenAI lance GPT-5.4-Cyber — le premier modèle à refusal boundary abaissé pour la cybersécurité défensive, réservé au programme Trusted Access
IA

OpenAI lance GPT-5.4-Cyber — le premier modèle à refusal boundary abaissé pour la cybersécurité défensive, réservé au programme Trusted Access

Emergent lance Wingman — l'agent IA messaging-first qui transforme une startup de vibe coding indienne en concurrent direct de Claude et OpenClaw
Vibecoding

Emergent lance Wingman — l'agent IA messaging-first qui transforme une startup de vibe coding indienne en concurrent direct de Claude et OpenClaw

Perplexity lance Billion Dollar Build — 1 million de seed funding pour construire une licorne en 8 semaines avec Perplexity Computer
Startup

Perplexity lance Billion Dollar Build — 1 million de seed funding pour construire une licorne en 8 semaines avec Perplexity Computer