IA18 avril 2026 · 09:007 min de lecturePar Paul Lefizelier

Anthropic sort Claude Opus 4.7 — 87,6% sur SWE-bench et un aveu gênant sur Mythos

Le 16 avril 2026, Anthropic rend Claude Opus 4.7 généralement disponible. +13% sur son benchmark de code interne, 87,6% sur SWE-bench Verified, vision 3x plus nette. Et un aveu inédit : Mythos, non publié, est meilleur.

Résumer avec l'IA ChatGPT Claude Perplexity Gemini

Anthropic sort Claude Opus 4.7 — 87,6% sur SWE-bench et un aveu gênant sur Mythos

Le 16 avril 2026, Anthropic rend Claude Opus 4.7 généralement disponible. Le modèle gagne 6,8 points sur SWE-bench Verified (80,8% → 87,6%), 12 points sur CursorBench (58% → 70%), et résout quatre tâches qu'aucun modèle précédent — Opus 4.6 ou Sonnet 4.6 — ne savait résoudre. Mais la vraie information n'est pas là. Dans le post de blog de lancement, Anthropic fait quelque chose que la boîte n'avait jamais fait : elle admet publiquement qu'un autre de ses modèles, Claude Mythos, est plus capable mais ne sortira pas. Le champion officiel est un deuxième prix.

Le benchmark interne : +13%, quatre tâches impossibles débloquées

Anthropic maintient depuis 2024 un banc de test propriétaire de 93 tâches de code reflétant le travail réel d'ingénieurs senior. C'est le benchmark que l'équipe utilise en interne pour décider si un modèle est prêt. Opus 4.7 fait +13 points dessus par rapport à Opus 4.6. Quatre tâches que Opus 4.6 et Sonnet 4.6 échouaient à résoudre passent désormais.

Benchmark	Opus 4.6	Opus 4.7	Delta
SWE-bench Verified	80,8%	87,6%	+6,8 pts
CursorBench	58%	70%	+12 pts
Banc interne 93 tâches	baseline	+13%	+13 pts
Vision (résolution max)	768px	2 576px	3,4x

Le gain CursorBench est le plus révélateur. Ce benchmark mesure la qualité des edits dans un IDE réel, pas la résolution de tickets GitHub. +12 points en un mini-release suggère qu'Anthropic a spécifiquement optimisé Opus 4.7 pour les agents de code en IDE, qui sont désormais le principal vecteur de consommation API.

Self-verification : la vraie nouveauté

Opus 4.7 introduit une capacité qu'aucun modèle Anthropic n'avait de manière aussi explicite : il vérifie ses propres sorties avant de répondre. Le modèle relit son code, tourne mentalement les tests qu'il a écrits, et corrige les bugs avant qu'ils n'atterrissent chez l'utilisateur.

Sur les tâches agentiques longues — celles où un modèle doit enchaîner 20 ou 30 appels d'outils sans supervision humaine — la différence est massive. Les ingénieurs qui ont testé la preview rapportent pouvoir confier des tickets qu'ils n'osaient pas déléguer avant : refactorisations cross-repo, migrations de versions, debugging d'erreurs intermittentes. Le modèle ne se contente plus de produire du code plausible, il vérifie qu'il passe.

C'est la capacité qui manquait à Claude Code 2 sorti plus tôt cet année. Avec Opus 4.7, la promesse d'agent autonome devient crédible sur un cycle complet de développement.

Vision : 3,4x plus de pixels

Seconde amélioration matérielle : Opus 4.7 accepte des images jusqu'à 2 576 pixels sur la longueur, contre 768 pour les Claude précédents. Soit 3,4x plus de résolution.

Ça change trois cas d'usage concrets.

Lecture de captures d'écran de dashboards. Un graphique Grafana en 1920x1080 était flou jusqu'ici. Il est maintenant lu pixel-parfait.

Analyse de PDF avec tableaux denses. Les rapports financiers, les contrats, les specs d'ingénierie deviennent lisibles sans downsampling.

Vibe design. Un designer peut uploader un Figma haute définition et demander à Claude de produire le code frontend correspondant — ce qui était bancal à 768px devient exploitable à 2 576px.

L'aveu sur Mythos : une première

La partie la plus inhabituelle du lancement tient en une phrase du blog post : Anthropic reconnaît que Mythos, son modèle interne codé Capybara, est plus performant qu'Opus 4.7. Mais Mythos ne sort pas publiquement. Il est accessible à 50 organisations via Project Glasswing, une initiative cybersécurité, avec 100 millions de dollars de crédits distribués.

Modèle	SWE-bench	USAMO 2026	Statut
Opus 4.6	80,8%	42,3%	Déprécié
Opus 4.7	87,6%	non publié	GA (16 avril)
Mythos Preview	93,9%	97,6%	Preview limitée

L'écart est sidérant : +6,3 points SWE-bench et surtout +55 points USAMO 2026 pour Mythos par rapport à Opus 4.7. Sur le raisonnement mathématique de compétition, Mythos est dans une ligue séparée.

Pourquoi Anthropic publie un modèle en admettant qu'il en cache un meilleur ? Deux lectures.

Lecture safety. Anthropic a identifié sur Mythos des capacités de manipulation stratégique et d'exfiltration qu'elle ne sait pas encore mitiger. Le publier reviendrait à mettre en circulation un modèle offensive-capable. Elle préfère garder Mythos en preview fermée et monétiser le gap via Glasswing.

Lecture business. Reconnaître publiquement l'existence d'un modèle plus puissant justifie une stratégie de tier premium. Les 50 organisations Glasswing paient pour l'accès anticipé. Dans 6 mois, Anthropic lancera Mythos publiquement et capturera un deuxième cycle d'upgrade enterprise. C'est le playbook d'Apple avec les processeurs M1 Pro vs M1 Max.

Pricing inchangé, pression sur OpenAI

Opus 4.7 reste à 5$/25$ par million de tokens input/output, exactement le même prix qu'Opus 4.6. Anthropic ne capture pas la valeur par le pricing, elle la capture par le lock-in. Les équipes qui ont déjà basculé leur pipeline sur Claude récupèrent gratuitement un modèle 13% meilleur.

Pour OpenAI, la pression devient spécifique. GPT-5.4 est à 52% sur SWE-bench Verified selon les derniers leaks. Opus 4.7 à 87,6% creuse l'écart à 35 points. Sur le marché coding assistant — qui représente 42% des dépenses API enterprise — la domination Anthropic ne peut plus être qualifiée de conjoncturelle. C'est structurel.

Segment	Leader	Écart vs #2
SWE-bench Verified	Opus 4.7 (87,6%)	+35 pts vs GPT-5.4
CursorBench	Opus 4.7 (70%)	+18 pts vs GPT-5.4
Vision OCR dense	Opus 4.7	3,4x pixels vs GPT-5.4
Raisonnement math	Mythos Preview	hors-marché

Ce que les devs récupèrent concrètement

Dans Claude Code / Cursor / Windsurf. Le basculement est automatique pour les utilisateurs Pro et Team. Pas de configuration. Les pull requests qui nécessitaient 3-4 itérations avec Opus 4.6 passent en 1-2 avec 4.7.

Dans l'API. Deux mois de crédit gratuit pour les clients qui étaient sur Opus 4.6 — Anthropic pousse explicitement la bascule.

Dans Bedrock, Vertex AI, Foundry. Disponibilité immédiate. Amazon, Google et Microsoft ont intégré Opus 4.7 le jour du lancement — une première pour un modèle Anthropic.

Dans GitHub Copilot. L'option "Claude Opus 4.7" est déployée dès le 16 avril pour les utilisateurs Enterprise. GitHub met à jour son changelog le même jour.

Ce que ça change pour le marché

Pour les startups de vibe coding. Cursor, Lovable, Replit, Emergent vont voir leur qualité perçue augmenter sans effort produit. C'est un gain pur pour les intégrateurs. Mais ça renforce aussi la thèse "le modèle est le produit" — et ces intégrateurs deviennent fragiles face à une éventuelle application builder native Anthropic.

Pour les CTO enterprise. L'argument "on attend la prochaine génération" ne tient plus. Chaque trimestre, Anthropic livre un Opus X.Y qui rend les architectures d'il y a six mois sous-optimales. Les équipes qui ont figé leur stack sur Opus 4.5 en janvier doivent déjà re-planifier.

Pour OpenAI. Spud / GPT-6 doit matcher 87,6% SWE-bench ou l'écart devient impossible à rattraper sur le cycle 2026. Si GPT-6 sort en mai à 85%, Anthropic aura 6 mois d'avance sur le coding — le segment le plus lucratif de l'API.

En résumé :

Claude Opus 4.7 généralement disponible le 16 avril 2026, disponible sur Claude, API, Bedrock, Vertex AI, Foundry, GitHub Copilot
SWE-bench Verified : 80,8% → 87,6% (+6,8 pts), CursorBench : 58% → 70% (+12 pts), banc interne +13%
Self-verification : le modèle vérifie ses outputs avant de les livrer — capacité centrale pour les agents longs
Vision : 2 576 pixels (3,4x la résolution précédente) — change l'OCR, le PDF reading, le vibe design
Aveu inédit : Anthropic admet que Mythos (93,9% SWE-bench, 97,6% USAMO) est meilleur mais reste en preview fermée à 50 organisations
Pricing inchangé : 5$/25$ par million de tokens input/output, même tarif qu'Opus 4.6
L'écart avec GPT-5.4 sur SWE-bench atteint 35 points — domination structurelle sur le coding

Opus 4.7 n'est pas un release de rupture. C'est une livraison de routine d'Anthropic — et c'est précisément ce qui devrait inquiéter la concurrence. Tous les 6 à 8 semaines depuis 15 mois, Dario Amodei sort un modèle meilleur, au même prix, sans tambour. Le modèle est le produit. Le produit est supérieur. Et la boîte garde un modèle encore meilleur en réserve, qu'elle ne commercialise qu'à 50 organisations triées sur le volet. Quand votre concurrent annonce publiquement qu'il a mieux que ce qu'il vous vend, ce n'est plus une compétition — c'est une démonstration.

Sources : Anthropic — Introducing Claude Opus 4.7, Axios — Anthropic concedes Opus 4.7 trails Mythos, SiliconANGLE — Claude Opus 4.7 coding visual, GitHub Changelog — Opus 4.7 GA.

#anthropic #claude #opus #swe-bench #vibe-coding #mythos #benchmark #coding-agent

← Retour aux actualités

Produit

Ressources

Anthropic sort Claude Opus 4.7 — 87,6% sur SWE-bench et un aveu gênant sur Mythos

Le benchmark interne : +13%, quatre tâches impossibles débloquées

Self-verification : la vraie nouveauté

Vision : 3,4x plus de pixels

L'aveu sur Mythos : une première

Pricing inchangé, pression sur OpenAI

Ce que les devs récupèrent concrètement

Ce que ça change pour le marché

Autres actualités

Factory AI lève 150 M$ à 1,5 Md$ de valorisation — les Droids livrent du code chez Nvidia, Adobe et Adyen

OpenAI sort l'artillerie lourde sur Codex — contrôle total du Mac, 90 plugins, mémoire persistante

Amazon remet 25 milliards dans Anthropic — et verrouille 100 milliards de compute AWS sur dix ans