Alibaba open-source Qwen 3.6-35B-A3B — 3 milliards de paramètres actifs qui battent Claude Sonnet en vision
Le 16 avril 2026, Alibaba publie Qwen 3.6-35B-A3B sous licence Apache 2.0 — un MoE sparse avec 35 Md paramètres au total mais seulement 3 Md actifs par token. SWE-bench Verified à 73,4%, AIME 2026 à 92,7%, MMMU à 81,7% (au-dessus de Claude Sonnet 4.5). Le meilleur modèle ouvert jamais livré par la Chine.

Le 16 avril 2026, Alibaba publie Qwen 3.6-35B-A3B sur Hugging Face sous licence Apache 2.0. Le modèle est un Mixture-of-Experts sparse : 35 milliards de paramètres au total, mais seulement 3 milliards activés par token. Les benchmarks sont brutaux pour les concurrents : SWE-bench Verified à 73,4%, AIME 2026 à 92,7%, MMMU à 81,7% — au-dessus de Claude Sonnet 4.5 (79,6) et de Gemma 4-31B (80,4). Pour la première fois, un modèle open-weight chinois bat les modèles frontier américains fermés sur plusieurs benchmarks critiques, tout en tournant sur une seule H100. Le rapport qualité / capital investi fait mal.
Les chiffres qui redéfinissent le jeu
| Benchmark | Qwen 3.6-35B-A3B | Claude Sonnet 4.5 | Gemma 4-31B | GPT-5 (dense) |
|---|---|---|---|---|
| SWE-bench Verified | 73,4% | 77,2% | 71,0% | 81,5% |
| AIME 2026 | 92,7% | 88,4% | 89,2% | 94,1% |
| MMMU (vision) | 81,7% | 79,6% | 80,4% | 83,2% |
| GPQA Diamond | 79,2% | 78,0% | 77,5% | 85,0% |
| Params actifs | 3 Md | ~70 Md (dense est.) | 31 Md | ~120 Md+ |
| Licence | Apache 2.0 | Propriétaire | Gemma TOS | Propriétaire |
| Hardware | 1x H100 80GB | API only | 1x H100 | Cluster |
Le chiffre qui cristallise tout : 3 milliards de paramètres actifs. Par comparaison, Claude Sonnet 4.5 est estimé autour de 70 milliards de paramètres actifs, GPT-5 dépasse probablement les 120 milliards. Qwen 3.6-A3B obtient des résultats comparables ou supérieurs sur vision avec 20x moins de compute par token. Le coût d'inférence chute d'autant. Pour un hyperscaler qui tourne des millions de tokens par seconde, le delta s'exprime en dizaines de millions de dollars par mois.
Architecture : le MoE sparse pousse la frontière
Le design Qwen 3.6 est un MoE avec 128 experts, 4 experts actifs par token. Sur 35 milliards de paramètres totaux, seuls 3 milliards sont "allumés" à chaque forward pass. Le reste attend son tour. Le router apprend quels experts activer pour quelle tâche — du code, de la vision, des maths, du langage général.
Ce pattern existe depuis Mixtral 8x7B fin 2023, mais les équipes Qwen ont poussé la sparsity plus loin que tous les concurrents. Mixtral 8x22B : 39 Md actifs sur 141 Md. DeepSeek V3 : 37 Md actifs sur 671 Md. Qwen 3.6 : 3 Md sur 35 Md — ratio d'activation de 8,5%, contre 27% pour Mixtral et 5,5% pour DeepSeek V3. La sparsity extrême paye.
Deuxième choix technique clé : 256K tokens de contexte natif. Pour le coding agentic, c'est le tableau de bord complet — tu peux caser un repo entier, ses tests, sa doc, ses issues dans une seule fenêtre. Et le MoE scale bien sur le contexte long parce que les paramètres actifs restent constants.
La vision multimodale qui change l'équation
Qwen 3.6-A3B n'est pas text-only. Il embarque un encoder vision et traite nativement images, PDFs, vidéos, et raisonnement spatial. Le score MMMU à 81,7% passe devant Claude Sonnet 4.5 et Gemma 4.
C'est ce qui rend le modèle dangereux pour les boîtes occidentales : vision multimodale était le dernier moat perçu. OpenAI, Anthropic et Google plaidaient qu'il fallait 100 milliards de paramètres denses + des années de RLHF sur images pour faire un modèle qui comprend vraiment les captures d'écran, les diagrammes, les tableaux. Qwen 3.6 prouve qu'une architecture MoE bien entraînée y arrive avec 3B actifs.
Traduction concrète : un dev peut faire tourner localement un modèle qui lit ses screenshots Figma aussi bien que Claude sur sa propre GPU. Fin de l'API-lock-in pour une classe entière d'applications.
Apache 2.0 : le coup de massue juridique
La licence Apache 2.0 est l'élément sous-estimé de l'annonce. Les releases Qwen précédentes étaient sous "Qwen License" — une variante restrictive qui bloquait certains usages commerciaux à grande échelle. Apache 2.0 lève toutes ces restrictions.
Ce que ça débloque :
- Fine-tuning commercial sans permission préalable
- Redistribution sans obligation de release source de ses dérivés
- Intégration dans des produits fermés sans viralité de licence
- Compatibilité patent grant explicite
Par comparaison, Gemma 4 est sous "Gemma Terms of Service" — plus permissif que les anciennes versions mais toujours avec des clauses anti-abus. Meta Llama 3.3 reste sous sa licence custom qui impose un cap à 700 millions d'utilisateurs avant re-négociation. Qwen 3.6 sous Apache 2.0 est plus ouvert que tous ses concurrents majeurs.
Le message d'Alibaba est stratégique : en ouvrant à fond, la boîte mise sur la distribution plutôt que sur la rente. Le modèle gagne en mindshare, en écosystème, en intégrations — même si Alibaba ne perçoit pas de royalties directes. L'équivalent de ce qu'a fait Mistral en 2024, mais avec 10x le compute de recherche derrière.
Pourquoi c'est un tournant géopolitique
La publication Qwen 3.6 intervient dans un contexte particulier. Les États-Unis ont durci les contrôles export sur les GPUs NVIDIA H100 et B200 vers la Chine depuis fin 2025. Le pari américain : limiter la compute chinoise pour ralentir ses progrès en IA. Qwen 3.6 démontre l'échec partiel de la stratégie.
Les équipes Qwen ont entraîné ce modèle sur du hardware probablement sanctionné ou semi-accessible — H800, A800, Huawei Ascend. Elles n'ont peut-être pas matché GPT-5 sur les benchmarks purs, mais elles en sont à moins de 10 points d'écart sur la plupart, avec 20x moins de paramètres actifs. L'efficience compense la restriction hardware.
Le côté "open source" ajoute un angle géopolitique : Qwen 3.6 est téléchargeable par n'importe qui dans le monde. Une startup européenne, un labo australien, une agence américaine peuvent le déployer localement sans appeler Alibaba Cloud. La Chine exporte de la capacité IA gratuitement, en contournant le contrôle US sur les flux cloud.
Les réactions à Washington seront intéressantes à surveiller dans les 30 prochains jours. Probabilité élevée qu'un sénateur appelle à "contrôler l'export de modèles open source chinois" — dans un monde où le Hugging Face est hébergé sur des CDN mondiaux, l'implémentation de ce contrôle est techniquement douteuse.
Les dominos qui tombent
OpenAI doit revoir sa narrative "frontier = closed = safe". Si le frontier open-source chinois est à moins de 10 points d'écart, la prime de prix sur GPT-5 devient difficile à défendre pour les boîtes qui n'ont pas de contrainte de compliance forte.
Anthropic est plus exposée qu'il n'y paraît. Claude Sonnet 4.5 perd 2 points sur MMMU face à Qwen. Pour une banque ou un cabinet d'avocats qui veut héberger son modèle on-prem pour raisons de confidentialité, le choix rationnel devient Qwen 3.6, pas Claude.
Meta doit répondre avec Llama 4. Les rumeurs annoncent un lancement été 2026 avec un MoE large. Mais l'écosystème Llama a pris du retard vs Qwen — pragmatique : plus de fine-tunes communautaires Qwen, plus de wrappers, plus d'optimisations vLLM.
Mistral perd sa niche open-source européenne. La boîte française est désormais sur-valorisée à 11,7 Md€ sans modèle qui match Qwen 3.6 techniquement ni commercialement. Pivot inévitable vers le closed enterprise.
DeepSeek — souvent cité comme le challenger chinois — se retrouve derrière son propre compatriote. DeepSeek V4 reste plus gros mais moins efficient. Le match interne chinois va s'accélérer.
Les hyperscalers. AWS, Azure, GCP doivent décider : proposer Qwen 3.6 en managed (risque de déplaire à DC et aux clients US government) ou ne pas le proposer (risque de perdre les clients qui le veulent). Probable qu'AWS le sert via Bedrock dans les 60 jours.
En résumé :
- Qwen 3.6-35B-A3B publié le 16 avril 2026 sous Apache 2.0 par Alibaba
- 35 Md params totaux, 3 Md actifs — ratio sparsity 8,5%
- SWE-bench Verified 73,4%, AIME 2026 92,7%, MMMU 81,7% — bat Claude Sonnet 4.5 sur vision
- Contexte 256K tokens, tourne sur une seule H100 80GB
- Vision multimodale native — images, PDFs, vidéos, raisonnement spatial
- Apache 2.0 lève les restrictions commerciales — plus ouvert que Gemma et Llama
- Pression géopolitique : modèle chinois qui contourne l'export-control US via distribution Hugging Face
Qwen 3.6 est le moment où l'hypothèse "la Chine est forcément 18 mois derrière" devient indéfendable. Alibaba ne matche pas GPT-5 sur tout, mais elle le matche ou le dépasse sur suffisamment d'axes pour rendre le choix de modèle rationnel, pas idéologique. À 3 milliards de paramètres actifs sous Apache 2.0, Qwen 3.6 change l'économie de l'IA : un modèle frontier-class que n'importe qui peut déployer, auditer, fine-tuner, et redistribuer. Pour une entreprise qui compte le compute, qui craint le vendor lock-in, ou qui a besoin de conformité on-prem, c'est le modèle de référence à partir d'aujourd'hui. Les labs américains fermés vont devoir justifier leur prime — ou baisser le prix.
Sources : MarkTechPost — Qwen 3.6-35B-A3B open-source release, DEV — Qwen 3.6-35B-A3B Complete Review, Hugging Face — Qwen/Qwen3.6-35B-A3B, Build Fast with AI — 73,4% SWE-Bench.


