AI2 publie MolmoWeb : l'agent web open-source qui surpasse GPT-4o et Gemini en navigation autonome
AI2 lance MolmoWeb, un agent web multimodal open-source de 8B paramètres qui surpasse GPT-4o et Claude Computer Use sur les benchmarks de navigation web autonome. Disponible sur Hugging Face.

Un modèle de 8 milliards de paramètres. Open-source. Qui surpasse les agents web d'OpenAI, Google et Anthropic sur les benchmarks de navigation autonome. C'est MolmoWeb — publié ce soir sur Hugging Face par l'Allen Institute for AI (AI2). La navigation web autonome vient de devenir accessible à tout le monde.
La navigation web autonome : la tâche la plus difficile des agents
Un agent web, c'est un modèle d'IA capable d'utiliser un navigateur comme un humain. Lire une page visuellement. Comprendre l'intention. Trouver le bon bouton. Cliquer. Gérer les popups, les redirections, les états dynamiques.
C'est la tâche la plus difficile en IA agentique. L'agent ne lit pas le HTML brut — il interprète un screenshot. Il doit comprendre la mise en page, la hiérarchie visuelle, les éléments interactifs. Puis agir avec précision.
Jusqu'ici, seuls trois modèles y arrivaient correctement : GPT-4o d'OpenAI, Claude Computer Use d'Anthropic, et Gemini de Google. Tous fermés. Tous propriétaires. Tous payants.
MolmoWeb change la donne.
MolmoWeb en pratique : voir + agir
MolmoWeb est un agent web multimodal — un modèle qui combine la compréhension visuelle et la capacité d'action. Le terme "multimodal" signifie qu'il traite plusieurs types d'entrées : texte et images simultanément.
Son fonctionnement est simple. En entrée : un screenshot de page web + une instruction en langage naturel. En sortie : une action — clic sur des coordonnées précises, scroll, texte à taper dans un champ. L'agent enchaîne ces actions en boucle jusqu'à compléter la tâche demandée.
Exemples concrets :
- "Réserve une table sur OpenTable pour 2 personnes samedi soir" → l'agent navigue sur le site, sélectionne le restaurant, remplit le formulaire, confirme la réservation.
- "Extrais tous les prix de cette page e-commerce" → l'agent scrolle la page, lit chaque fiche produit, retourne les données structurées.
- "Remplis ce formulaire de contact avec ces informations" → l'agent identifie les champs, les remplit, clique sur Envoyer.
Deux tailles sont disponibles : 4B paramètres (léger, rapide) et 8B paramètres (performant, celui qui bat les propriétaires). Les paramètres désignent les poids du réseau de neurones — plus il y en a, plus le modèle est capable, mais plus il consomme de ressources.
8B paramètres open-source > GPT-4o sur le web
Le chiffre le plus marquant : MolmoWeb 8B surpasse GPT-4o sur les benchmarks de navigation web autonome. Les benchmarks sont des tests standardisés qui mesurent la performance d'un modèle sur des tâches spécifiques.
GPT-4o est estimé à environ 1 000 milliards de paramètres. MolmoWeb en a 8 milliards. C'est 125 fois plus petit — et il gagne.
Comment ? L'entraînement spécialisé surpasse la taille brute sur des tâches spécifiques. C'est la même logique que DeepSeek V4 en mars 2026 : l'efficacité bat la puissance brute quand le modèle est optimisé pour une tâche précise.
| Critère | GPT-4o (OpenAI) | Claude Computer Use | MolmoWeb 8B (AI2) |
|---|---|---|---|
| Open-source | ❌ | ❌ | ✅ |
| Taille modèle | ~1T params (estimé) | Non communiqué | 8B params |
| Performance navigation | ✅ Excellente | ✅ Excellente | ✅ Supérieure (benchmarks) |
| Coût d'usage | 💸 API payante | 💸 API payante | 🆓 Gratuit |
| Déploiement local | ❌ | ❌ | ✅ Hugging Face |
| Disponibilité | API cloud only | API cloud only | Poids publics |
La différence fondamentale : n'importe quel développeur peut télécharger MolmoWeb et le lancer sur sa propre infrastructure demain. Pas de clé API. Pas d'abonnement. Pas de dépendance à un fournisseur cloud.
AI2 : l'anti-OpenAI discret
AI2 — l'Allen Institute for AI — est une organisation de recherche à but non lucratif basée à Seattle. Fondée par Paul Allen, co-fondateur de Microsoft, sa mission est claire : que la recherche en IA reste ouverte et accessible, pas monopolisée par trois labs.
Molmo, leur série de modèles multimodaux open-source, est lancée en 2024. Le modèle était déjà reconnu pour sa qualité de compréhension d'images. MolmoWeb l'étend à l'action : le modèle ne se contente plus de voir — il agit.
La trajectoire est cohérente. Là où OpenAI ferme ses modèles, Google garde Gemini derrière une API, et Anthropic limite Computer Use à ses clients payants, AI2 publie les poids complets sur Hugging Face. Gratuitement.
L'ironie : l'organisation la moins médiatisée de la semaine publie peut-être le modèle le plus pratiquement utile.
La semaine des agents : le signal de fond
Figma a ouvert son canvas aux agents lundi. Linear a déclaré le issue tracking mort ce matin. Google Research a publié TurboQuant pour compresser l'inférence LLM. Et AI2 publie MolmoWeb ce soir.
| Date | Lancement | Acteur | Signal |
|---|---|---|---|
| Lun 23 mars | Lovable acquisitions | Lovable | Consolidation vibe coding |
| Mar 24 mars | Cursor × Kimi | Cursor + Moonshot | Stack dev IA sino-US |
| Mar 24 mars | Figma Canvas Agents | Figma | Design agentique |
| Mer 25 mars | Linear Agent | Linear | "Issue tracking is dead" |
| Mer 25 mars | TurboQuant | Google Research | 6x mémoire KV cache |
| Mer 25 mars | MolmoWeb | AI2 | Agent web open-source |
Les agents ne sont plus un futur spéculatif. Ils sont dans les outils de design. Dans le product management. Dans les chips. Et maintenant dans n'importe quel navigateur via un modèle open-source gratuit de 8 milliards de paramètres.
La question n'est plus "quand les agents arrivent ?". La question est "est-ce que votre stack est agent-ready ?".
En résumé
- AI2 (Allen Institute for AI) publie MolmoWeb, un agent web multimodal open-source disponible en 4B et 8B paramètres sur Hugging Face
- MolmoWeb lit des screenshots de pages web et effectue des actions autonomes : clic, scroll, navigation, remplissage de formulaires
- Le modèle 8B surpasse certains agents propriétaires d'OpenAI, Google et Anthropic sur les benchmarks de navigation web autonome
- Premier modèle open-source compétitif sur la navigation web autonome — démocratise les agents RPA (Robotic Process Automation) et l'automatisation de workflows
- S'inscrit dans une semaine historique pour les agents IA : Figma Canvas Agents, Linear Agent, TurboQuant, et maintenant MolmoWeb
MolmoWeb est le signal le plus discret et peut-être le plus important de la semaine. Quand un modèle open-source de 8 milliards de paramètres surpasse les meilleurs agents propriétaires des trois plus grands labs d'IA sur la navigation web, la barrière d'entrée pour les agents autonomes vient de tomber. Figma a ouvert son canvas aux agents. Linear a tué le issue tracking. Et AI2 vient de mettre un agent web dans les mains de n'importe quel développeur. Les agents ne sont plus une fonctionnalité premium — ils sont une infrastructure.


