IA20 avril 2026 · 11:307 min de lecturePar Paul Lefizelier

Alibaba open-source Qwen 3.6-35B-A3B — 3 milliards de paramètres actifs qui battent Claude Sonnet en vision

Le 16 avril 2026, Alibaba publie Qwen 3.6-35B-A3B sous licence Apache 2.0 — un MoE sparse avec 35 Md paramètres au total mais seulement 3 Md actifs par token. SWE-bench Verified à 73,4%, AIME 2026 à 92,7%, MMMU à 81,7% (au-dessus de Claude Sonnet 4.5). Le meilleur modèle ouvert jamais livré par la Chine.

Résumer avec l'IA ChatGPT Claude Perplexity Gemini

Alibaba open-source Qwen 3.6-35B-A3B — 3 milliards de paramètres actifs qui battent Claude Sonnet en vision

Le 16 avril 2026, Alibaba publie Qwen 3.6-35B-A3B sur Hugging Face sous licence Apache 2.0. Le modèle est un Mixture-of-Experts sparse : 35 milliards de paramètres au total, mais seulement 3 milliards activés par token. Les benchmarks sont brutaux pour les concurrents : SWE-bench Verified à 73,4%, AIME 2026 à 92,7%, MMMU à 81,7% — au-dessus de Claude Sonnet 4.5 (79,6) et de Gemma 4-31B (80,4). Pour la première fois, un modèle open-weight chinois bat les modèles frontier américains fermés sur plusieurs benchmarks critiques, tout en tournant sur une seule H100. Le rapport qualité / capital investi fait mal.

Les chiffres qui redéfinissent le jeu

Benchmark	Qwen 3.6-35B-A3B	Claude Sonnet 4.5	Gemma 4-31B	GPT-5 (dense)
SWE-bench Verified	73,4%	77,2%	71,0%	81,5%
AIME 2026	92,7%	88,4%	89,2%	94,1%
MMMU (vision)	81,7%	79,6%	80,4%	83,2%
GPQA Diamond	79,2%	78,0%	77,5%	85,0%
Params actifs	3 Md	~70 Md (dense est.)	31 Md	~120 Md+
Licence	Apache 2.0	Propriétaire	Gemma TOS	Propriétaire
Hardware	1x H100 80GB	API only	1x H100	Cluster

Le chiffre qui cristallise tout : 3 milliards de paramètres actifs. Par comparaison, Claude Sonnet 4.5 est estimé autour de 70 milliards de paramètres actifs, GPT-5 dépasse probablement les 120 milliards. Qwen 3.6-A3B obtient des résultats comparables ou supérieurs sur vision avec 20x moins de compute par token. Le coût d'inférence chute d'autant. Pour un hyperscaler qui tourne des millions de tokens par seconde, le delta s'exprime en dizaines de millions de dollars par mois.

Architecture : le MoE sparse pousse la frontière

Le design Qwen 3.6 est un MoE avec 128 experts, 4 experts actifs par token. Sur 35 milliards de paramètres totaux, seuls 3 milliards sont "allumés" à chaque forward pass. Le reste attend son tour. Le router apprend quels experts activer pour quelle tâche — du code, de la vision, des maths, du langage général.

Ce pattern existe depuis Mixtral 8x7B fin 2023, mais les équipes Qwen ont poussé la sparsity plus loin que tous les concurrents. Mixtral 8x22B : 39 Md actifs sur 141 Md. DeepSeek V3 : 37 Md actifs sur 671 Md. Qwen 3.6 : 3 Md sur 35 Md — ratio d'activation de 8,5%, contre 27% pour Mixtral et 5,5% pour DeepSeek V3. La sparsity extrême paye.

Deuxième choix technique clé : 256K tokens de contexte natif. Pour le coding agentic, c'est le tableau de bord complet — tu peux caser un repo entier, ses tests, sa doc, ses issues dans une seule fenêtre. Et le MoE scale bien sur le contexte long parce que les paramètres actifs restent constants.

La vision multimodale qui change l'équation

Qwen 3.6-A3B n'est pas text-only. Il embarque un encoder vision et traite nativement images, PDFs, vidéos, et raisonnement spatial. Le score MMMU à 81,7% passe devant Claude Sonnet 4.5 et Gemma 4.

C'est ce qui rend le modèle dangereux pour les boîtes occidentales : vision multimodale était le dernier moat perçu. OpenAI, Anthropic et Google plaidaient qu'il fallait 100 milliards de paramètres denses + des années de RLHF sur images pour faire un modèle qui comprend vraiment les captures d'écran, les diagrammes, les tableaux. Qwen 3.6 prouve qu'une architecture MoE bien entraînée y arrive avec 3B actifs.

Traduction concrète : un dev peut faire tourner localement un modèle qui lit ses screenshots Figma aussi bien que Claude sur sa propre GPU. Fin de l'API-lock-in pour une classe entière d'applications.

Apache 2.0 : le coup de massue juridique

La licence Apache 2.0 est l'élément sous-estimé de l'annonce. Les releases Qwen précédentes étaient sous "Qwen License" — une variante restrictive qui bloquait certains usages commerciaux à grande échelle. Apache 2.0 lève toutes ces restrictions.

Ce que ça débloque :

Fine-tuning commercial sans permission préalable
Redistribution sans obligation de release source de ses dérivés
Intégration dans des produits fermés sans viralité de licence
Compatibilité patent grant explicite

Par comparaison, Gemma 4 est sous "Gemma Terms of Service" — plus permissif que les anciennes versions mais toujours avec des clauses anti-abus. Meta Llama 3.3 reste sous sa licence custom qui impose un cap à 700 millions d'utilisateurs avant re-négociation. Qwen 3.6 sous Apache 2.0 est plus ouvert que tous ses concurrents majeurs.

Le message d'Alibaba est stratégique : en ouvrant à fond, la boîte mise sur la distribution plutôt que sur la rente. Le modèle gagne en mindshare, en écosystème, en intégrations — même si Alibaba ne perçoit pas de royalties directes. L'équivalent de ce qu'a fait Mistral en 2024, mais avec 10x le compute de recherche derrière.

Pourquoi c'est un tournant géopolitique

La publication Qwen 3.6 intervient dans un contexte particulier. Les États-Unis ont durci les contrôles export sur les GPUs NVIDIA H100 et B200 vers la Chine depuis fin 2025. Le pari américain : limiter la compute chinoise pour ralentir ses progrès en IA. Qwen 3.6 démontre l'échec partiel de la stratégie.

Les équipes Qwen ont entraîné ce modèle sur du hardware probablement sanctionné ou semi-accessible — H800, A800, Huawei Ascend. Elles n'ont peut-être pas matché GPT-5 sur les benchmarks purs, mais elles en sont à moins de 10 points d'écart sur la plupart, avec 20x moins de paramètres actifs. L'efficience compense la restriction hardware.

Le côté "open source" ajoute un angle géopolitique : Qwen 3.6 est téléchargeable par n'importe qui dans le monde. Une startup européenne, un labo australien, une agence américaine peuvent le déployer localement sans appeler Alibaba Cloud. La Chine exporte de la capacité IA gratuitement, en contournant le contrôle US sur les flux cloud.

Les réactions à Washington seront intéressantes à surveiller dans les 30 prochains jours. Probabilité élevée qu'un sénateur appelle à "contrôler l'export de modèles open source chinois" — dans un monde où le Hugging Face est hébergé sur des CDN mondiaux, l'implémentation de ce contrôle est techniquement douteuse.

Les dominos qui tombent

OpenAI doit revoir sa narrative "frontier = closed = safe". Si le frontier open-source chinois est à moins de 10 points d'écart, la prime de prix sur GPT-5 devient difficile à défendre pour les boîtes qui n'ont pas de contrainte de compliance forte.

Anthropic est plus exposée qu'il n'y paraît. Claude Sonnet 4.5 perd 2 points sur MMMU face à Qwen. Pour une banque ou un cabinet d'avocats qui veut héberger son modèle on-prem pour raisons de confidentialité, le choix rationnel devient Qwen 3.6, pas Claude.

Meta doit répondre avec Llama 4. Les rumeurs annoncent un lancement été 2026 avec un MoE large. Mais l'écosystème Llama a pris du retard vs Qwen — pragmatique : plus de fine-tunes communautaires Qwen, plus de wrappers, plus d'optimisations vLLM.

Mistral perd sa niche open-source européenne. La boîte française est désormais sur-valorisée à 11,7 Md€ sans modèle qui match Qwen 3.6 techniquement ni commercialement. Pivot inévitable vers le closed enterprise.

DeepSeek — souvent cité comme le challenger chinois — se retrouve derrière son propre compatriote. DeepSeek V4 reste plus gros mais moins efficient. Le match interne chinois va s'accélérer.

Les hyperscalers. AWS, Azure, GCP doivent décider : proposer Qwen 3.6 en managed (risque de déplaire à DC et aux clients US government) ou ne pas le proposer (risque de perdre les clients qui le veulent). Probable qu'AWS le sert via Bedrock dans les 60 jours.

En résumé :

Qwen 3.6-35B-A3B publié le 16 avril 2026 sous Apache 2.0 par Alibaba
35 Md params totaux, 3 Md actifs — ratio sparsity 8,5%
SWE-bench Verified 73,4%, AIME 2026 92,7%, MMMU 81,7% — bat Claude Sonnet 4.5 sur vision
Contexte 256K tokens, tourne sur une seule H100 80GB
Vision multimodale native — images, PDFs, vidéos, raisonnement spatial
Apache 2.0 lève les restrictions commerciales — plus ouvert que Gemma et Llama
Pression géopolitique : modèle chinois qui contourne l'export-control US via distribution Hugging Face

Qwen 3.6 est le moment où l'hypothèse "la Chine est forcément 18 mois derrière" devient indéfendable. Alibaba ne matche pas GPT-5 sur tout, mais elle le matche ou le dépasse sur suffisamment d'axes pour rendre le choix de modèle rationnel, pas idéologique. À 3 milliards de paramètres actifs sous Apache 2.0, Qwen 3.6 change l'économie de l'IA : un modèle frontier-class que n'importe qui peut déployer, auditer, fine-tuner, et redistribuer. Pour une entreprise qui compte le compute, qui craint le vendor lock-in, ou qui a besoin de conformité on-prem, c'est le modèle de référence à partir d'aujourd'hui. Les labs américains fermés vont devoir justifier leur prime — ou baisser le prix.

Sources : MarkTechPost — Qwen 3.6-35B-A3B open-source release, DEV — Qwen 3.6-35B-A3B Complete Review, Hugging Face — Qwen/Qwen3.6-35B-A3B, Build Fast with AI — 73,4% SWE-Bench.

#alibaba #qwen #qwen-3-6 #open-source #moe #apache-2 #agentic-coding #vision-language-model

← Retour aux actualités

Produit

Ressources

Alibaba open-source Qwen 3.6-35B-A3B — 3 milliards de paramètres actifs qui battent Claude Sonnet en vision

Les chiffres qui redéfinissent le jeu

Architecture : le MoE sparse pousse la frontière

La vision multimodale qui change l'équation

Apache 2.0 : le coup de massue juridique

Pourquoi c'est un tournant géopolitique

Les dominos qui tombent

Autres actualités

Factory AI lève 150 M$ à 1,5 Md$ de valorisation — les Droids livrent du code chez Nvidia, Adobe et Adyen

OpenAI sort l'artillerie lourde sur Codex — contrôle total du Mac, 90 plugins, mémoire persistante

Amazon remet 25 milliards dans Anthropic — et verrouille 100 milliards de compute AWS sur dix ans