¿Qué es Claude Opus 4.7?
Anthropic acaba de lanzar Claude Opus 4.7, su modelo más capaz hasta el momento. Es la evolución directa de Opus 4.6 y viene con mejoras fuertes en tres frentes: coding agéntico, razonamiento y uso de herramientas.
Si ya venías usando Claude en Cursor, Claude Code o en la app, Opus 4.7 es el modelo que más te va a mover la aguja. La empresa lo posiciona como el mejor modelo del mercado para programar, debuggear y ejecutar tareas largas de agentes.
A diferencia de otros lanzamientos, Anthropic subió la vara en benchmarks agénticos reales (no solo en trivia o matemáticas), que es donde se nota si un modelo sirve para producir trabajo de verdad.
¿Por qué importa?
- Es el modelo más fuerte del mundo en coding agéntico medido por SWE-bench Verified (93.9%), el estándar de la industria.
- Rompe el techo histórico en razonamiento científico con 94.2% en GPQA Diamond, el test de preguntas nivel PhD.
- Mejora significativamente en uso autónomo de computadora (OSWorld) y búsqueda en web (BrowseComp), dos áreas clave para agentes reales.
- Anthropic está mostrando por primera vez previews de un próximo modelo ("Mythos") que lo supera — la competencia con OpenAI y Google se pone brutal.
Benchmarks — los números
Estos son los puntajes oficiales publicados por Anthropic para Opus 4.7 en los benchmarks más importantes:
| Benchmark | Qué mide | Opus 4.7 |
|---|---|---|
| SWE-bench Verified | Coding agéntico real | 93.9% |
| SWE-bench Pro | Coding agéntico difícil | 77.8% |
| Terminal-Bench 2.0 | Operar una terminal | 82.0% |
| GPQA Diamond | Razonamiento nivel PhD | 94.2% |
| MMMLU | Conocimiento multilingüe | 91.5% |
| OSWorld-Verified | Usar la computadora | 78.0% |
| BrowseComp | Búsqueda en web agéntica | 79.3% |
| MCP-Atlas | Uso escalado de tools | 77.3% |
| Finance Agent r11 | Análisis financiero | 64.4% |
| CyberGym | Ciberseguridad | 73.1% |
| CharXiv-Reasoning | Razonamiento visual (con tools) | 91.0% |
| Humanity's Last Exam | Razonamiento multidisciplinario (con tools) | 54.7% |
Las métricas agénticas son las que importan. Humanity's Last Exam mide preguntas tan difíciles que se diseñaron para que ningún modelo pase. SWE-bench Verified usa bugs reales de repos de GitHub — casi 94% significa que Opus 4.7 resuelve la enorme mayoría de los issues que un dev junior tardaría horas en resolver.
¿Qué puede hacer? Casos de uso
1. Programar features completas sin supervisión
Con 93.9% en SWE-bench Verified y 82.0% en Terminal-Bench 2.0, Opus 4.7 puede tomar un issue, abrir la codebase, escribir el código, correr tests y hacer el PR. No son ejemplos de juguete — son bugs reales de proyectos en producción.
2. Hacer research serio en internet
79.3% en BrowseComp significa que puede navegar, abrir múltiples fuentes, comparar información y devolver un reporte con citas. Sirve para research de mercado, due diligence, análisis competitivo.
3. Operar tu computadora como un agente
Con 78.0% en OSWorld-Verified, Opus 4.7 puede abrir apps, navegar UIs, llenar formularios y completar tareas como si fuera un humano frente a la pantalla. Ideal para automatizar flujos que no tienen API.
4. Análisis financiero con data real
64.4% en Finance Agent r11: levanta estados financieros, calcula ratios, compara empresas y arma análisis que antes requerían un analista junior.
5. Razonamiento científico y técnico
94.2% en GPQA Diamond (preguntas nivel doctorado en física, biología, química) lo hace un aliado real para investigación técnica, no solo para consultas triviales.
Cómo probarlo
Opción 1 — Claude.ai
- Entrar a claude.ai con tu cuenta
- Seleccionar el modelo "Claude Opus 4.7" en el dropdown superior
- Plan Pro o superior para acceso ilimitado
Opción 2 — Claude Code (terminal)
- Instalar Claude Code desde claude.com/claude-code
- El modelo por default ya es Opus 4.7 si tenés plan Max
- Ideal si programás y querés un agente que toque tu código
Opción 3 — API
- Model ID: claude-opus-4-7
- Integrarlo en Cursor, Zed, tus propios agentes o apps
- Precio más alto que Sonnet, pero vale para tareas complejas
Opción 4 — Cursor / Windsurf / IDEs
- La mayoría de los IDEs con IA agregan Opus 4.7 en las primeras 48 horas post-lanzamiento
- Cambiar el modelo en settings
Opus 4.7 vs Sonnet 4.6 — ¿cuál uso?
Sonnet 4.6 sigue siendo la mejor opción para la mayoría de los casos: es rápido, barato y muy capaz. Usá Opus 4.7 cuando:
- Necesitás la mejor calidad posible y el costo es secundario
- La tarea es larga, compleja o requiere varios pasos de razonamiento
- Estás corriendo agentes autónomos que ejecutan código o usan tools
- Trabajás en problemas de research, investigación o análisis profundo
Regla práctica: arrancá con Sonnet. Si no alcanza, escalá a Opus.
¿Qué significa para vos?
- Si programás: tu productividad acaba de subir otro escalón. Un agente que cierra 9 de cada 10 issues reales cambia cómo se trabaja.
- Si automatizás: los agentes dejan de ser "prototipos que casi funcionan" y pasan a ser workers confiables.
- Si investigás: tenés un asistente que lee, compara y sintetiza a nivel PhD — con fuentes.
- Si sos founder o PM: este es el modelo para evaluar qué features antes imposibles ahora son viables.
La frontera se movió otra vez. Los que experimenten antes van a sacar ventaja real.
Links útiles
- Anuncio oficial de Anthropic: https://www.anthropic.com/news
- Probar Claude: https://claude.ai
- Claude Code: https://claude.com/claude-code
- Documentación de la API: https://docs.claude.com/
- Post original en Instagram: https://www.instagram.com/p/DXMq9hmkbtL/
Boris Cherny, lead de Claude Code en Anthropic, soltó 6 tips concretos para sacarle todo el jugo a Opus 4.7 en la terminal. Auto mode, permisos, recaps, focus, effort level y un skill que abre PRs solo — lo que usan los que viven adentro de Claude Code todos los días.
Preguntas frecuentes
Claude Opus 4.7 mejora en coding agéntico, razonamiento y uso de herramientas, posicionándose como el mejor modelo del mercado para programar, debuggear y ejecutar tareas largas.
Opus 4.7 destaca en benchmarks como SWE-bench Verified (93.9%) y GPQA Diamond (94.2%), mostrando su capacidad superior en coding y razonamiento científico.
Podés probarlo en claude.ai, Claude Code, o integrarlo mediante la API usando el model ID 'claude-opus-4-7'.
Usá Opus 4.7 cuando necesités la mejor calidad, tareas complejas o agentes autónomos. Sonnet 4.6 es ideal para la mayoría de los casos por ser rápido y barato.
Opus 4.7 puede cerrar 9 de cada 10 issues reales, mejorando significativamente la productividad para programadores, automatizadores e investigadores.
Fuentes e inspiración
Mirá los posts originales donde desarrollamos estas ideas en redes.
Llevate el próximo en tu inbox
NewsletterUn mail al mes con el próximo recurso.





