La compañía de inteligencia artificial presenta su modelo más avanzado capaz de programar durante 30 horas continuas y que promete revolucionar el desarrollo de software.
Anthropic, la compañía de inteligencia artificial fundada por dos ex ejecutivos de OpenAI, acaba de lanzar Claude Sonnet 4.5, su modelo más avanzado hasta la fecha y el que la firma considera “el mejor modelo de programación del mundo”. Diseñado para ejecutar tareas complejas, programar sin interrupciones durante más de 30 horas y operar directamente sobre entornos de software, la actualización incluye mejoras sustanciales en velocidad, precisión y alineación.
El anuncio marca un hito significativo en la carrera por dominar la IA empresarial, un mercado que se espera alcance los US$155 mil millones para 2030, según proyecciones de Grand View Research.
Características clave
Claude Sonnet 4.5 destaca por su habilidad para mantener concentración en tareas complejas durante más de 30 horas continuas, una característica que lo posiciona como líder en el benchmark SWE-bench Verified, que mide capacidades reales de programación de software. El modelo alcanzó un puntaje del 77.2% en esta evaluación, superando significativamente a sus competidores.

En el ámbito del uso de computadoras, Claude Sonnet 4.5 obtuvo un 61.4% en OSWorld, un benchmark que evalúa tareas computacionales del mundo real. Esta cifra representa un salto considerable frente al 42.2% que alcanzó su predecesor hace apenas cuatro meses.
Además, el lanzamiento viene acompañado de actualizaciones importantes en todo el ecosistema de Anthropic:
- Claude Code, una herramienta de línea de comandos que ahora incluye checkpoints para guardar progreso y permitir reversiones instantáneas junto con una extensión nativa para VS Code.
- Función de creación de archivos que permite generar hojas de cálculo, presentaciones y documentos directamente en la conversación.
- Extensión Claude for Chrome quedó disponible para usuarios del plan Max que se inscribieron en la lista de espera.
- Para desarrolladores, el Claude Agent SDK, una infraestructura que permite construir agentes personalizados con las mismas herramientas que utiliza Anthropic internamente. Esto habilita aplicaciones empresariales más sofisticadas, desde asistentes técnicos hasta sistemas de automatización con razonamiento contextual.
Seguridad y privacidad
Ahora bien, el modelo ha sido entrenado bajo el marco ASL-3, con filtros avanzados para prevenir respuestas engañosas, evasión de controles o generación de contenido sensible. Anthropic enfatiza que Claude Sonnet 4.5 es “el modelo frontera más alineado” que han lanzado, con mejoras sustanciales en comportamientos como reducción de adulación, engaño, búsqueda de poder y tendencia a fomentar pensamiento delirante. La compañía también realizó avances significativos en defensa contra ataques de inyección de prompts, uno de los riesgos más serios para capacidades agénticas.
Claude Sonnet 4.5 está disponible para todos los usuarios a través de la API de Claude. El precio se mantiene igual que Claude Sonnet 4: US$3 por millón de tokens de entrada y US$15 por millón de tokens de salida.
Las mejoras del modelo ya están generando resultados concretos en empresas que lo adoptaron de forma temprana. GitHub Copilot reporta avances significativos en razonamiento multi-paso y comprensión de código. Cursor, una plataforma de desarrollo, confirmó rendimiento de nivel superior en tareas de programación de largo alcance. Y por su parte, Devin experimentó un incremento del 18% en rendimiento de planificación y del 12% en puntuaciones de evaluación integral.
Con este lanzamiento, Anthropic refuerza su posición en el competido mercado de modelos de lenguaje empresarial, donde compite directamente con GPT-4 de OpenAI y Gemini de Google. La apuesta de la compañía por capacidades de programación avanzadas y uso autónomo de computadoras, podría redefinir la manera en que las empresas implementan soluciones de IA en sus operaciones.
Lea también: Comienza el cierre del Gobierno de EE. UU. tras el rechazo del Senado a un acuerdo de financiación de último minuto
