Los fundadores de Anthropic, Dario y Daniela Amodei, declararon a Forbes que su nuevo modelo empresarial supera a sus rivales GPT-4 de OpenAI y Gemini 1.0 Ultra de Google.

Anthropic anunció una nueva serie de modelos de lenguaje grande que, según la empresa de inteligencia artificial, son los más inteligentes del mundo hasta la fecha, superando las ofertas de la competencia de OpenAI y Google.

Llamada Claude 3, la nueva “familia” de modelos de Anthropic viene en tres versiones – Opus, Sonnet y Haiku – que varían en rendimiento y precio. Opus, la versión más potente y costosa de ejecutar, superó a GPT-4 de OpenAI y Gemini 1.0 Ultra de Google en una serie de pruebas de referencia que miden la inteligencia, según la compañía. Opus y Sonnet, la oferta de nivel medio, se pusieron a disposición el lunes, mientras que Haiku se lanzará en una fecha que se anunciará más adelante.

En una entrevista, el cofundador y director ejecutivo Dario Amodei dijo que la familia de modelos se diseñó teniendo en cuenta diferentes casos de uso empresarial. “Claude 3 Opus es, al menos según las evaluaciones, en muchos aspectos el modelo de mejor rendimiento del mundo en una variedad de tareas”, agregó.

En una serie de temas de prueba populares que incluyen conocimientos generales de pregrado (MMLU), matemáticas de primaria (GSM8K), código informático (HumanEval) y conocimientos de preguntas y respuestas (ARC-Challenge), Claude 3 Opus superó a GPT-4 de OpenAI y Gemini 1.0 Ultra de Google, según los puntos de referencia compartidos por la compañía. En el punto de referencia de conocimiento general, Claude 3 Opus también superó a Mistral Large, el modelo lanzado de primera línea del unicornio de IA de código abierto Mistral, lanzado la semana pasada.

Sin embargo, la versión de Claude 3 que verá la mayoría de los usuarios, Claude 3 Sonnet, tuvo un rendimiento más a la par con GPT-4: por delante en algunos puntos de referencia, por detrás en otros. Y Amodei reconoció que los puntos de referencia de Anthropic no tuvieron en cuenta las actualizaciones recientes de OpenAI y Google (GPT-4 Turbo y Gemini 1.5 Pro) ya que sus pares aún no han publicado las evaluaciones de prueba correspondientes. “Me sorprendería que no tuviéramos un desempeño competitivo”, dijo.

A un costo de US$15 por millón de tokens de entrada – equivalente al texto de 2,500 páginas de libros – y US$75 por millón de tokens de salida, Claude 3 Opus es más caro que la versión preliminar de GPT-4 Turbo de OpenAI, que cuesta US$10 y US$30 por millón de tokens, respectivamente. Amodei y su cofundadora y hermana Daniela Amodei le dijeron a Forbes que esperan que Opus sea utilizado por empresas que necesitan el rendimiento más vanguardista para funciones como análisis de datos complejos e investigación biomédica.

Claude 3 Sonnet, en comparación – que es cinco veces más barato – tendría sentido para la mayoría de las tareas, agregaron, con usos que van desde la búsqueda y recuperación en grandes almacenes de datos, pronósticos de ventas y marketing dirigido hasta la generación de código.

El modelo de menor costo, Claude 3 Haiku, costará solo una fracción de eso, útil para interacciones en vivo con clientes, moderación de contenido y gestión de inventario logístico. La versión Haiku aún se desempeñó a la par con la última versión insignia de Anthropic de Claude 2, el modelo anterior que lanzaron hace solo ocho meses, dijo Dario Amodei: “Es muy competitivo con otros modelos de la misma clase. Esto es una gran ganancia”.

Anthropic's reported benchmark performance placed Claude 3 Opus ahead of OpenAI's GPT-4.
El rendimiento de referencia informado de Anthropic colocó a Claude 3 Opus por delante de rivales como GPT-4 de OpenAI. Anthropic.

Los tres modelos permitirán indicaciones de hasta 200,000 tokens (aproximadamente del tamaño de un libro), más que los 128,000 admitidos por GPT-4 Turbo. Los usuarios de Opus podrán solicitar límites de 1 millón de tokens para algunos usos, dijo Anthropic, lo que coincide con el límite que Google ha ofrecido a algunos usuarios de Gemini 1.5 Pro.

Formado por siete investigadores que abandonaron OpenAI, Anthropic históricamente ha tenido como objetivo separarse de su progenitor y otras empresas en el campo a través de un enfoque más profundo en la seguridad de la IA. Algunos expertos de la industria se han preguntado si esto ha frenado a la compañía y han cuestionado el rendimiento de su modelo en los últimos meses, incluso en las redes sociales. En una popular tabla de clasificación de evaluadores humanos basada en crowdsourcing, Claude 1 actualmente tiene una calificación más alta que sus sucesores Claude 2.0 y el Claude 2.1 actualizado.

Dario Amodei descartó esas calificaciones como solo una evaluación basada en humanos de un número finito de tareas de consumo. Reconoció que si bien Claude 2 era más seguro que su predecesor de una manera que satisfacía a los investigadores de Anthropic, eso se produjo a costa de “rechazos incorrectos” más altos, o rechazos de indicaciones que el modelo creía que se acercaban demasiado a sus barreras de seguridad. La familia Claude 3 funciona mucho mejor que sus predecesores al no servir esos rechazos, afirmó Anthropic. Las indicaciones inofensivas con contenido cercano a sus límites de seguridad se rechazan aproximadamente el 10% de las veces, en comparación con el 25% de Claude 2.1. “Ahora estamos avanzando hacia un mayor equilibrio entre los dos, algo que obtiene lo mejor de ambos mundos”, dijo Amodei. “Es realmente difícil trazar un límite complejo de la manera correcta. Siempre estamos tratando de hacerlo mejor”.

Mientras que empresas como Inflection, Character.AI e incluso OpenAI se han aventurado más en casos de uso para consumidores, Anthropic se centra en clientes comerciales. Los usuarios de su chatbot gratuito para consumidores, también llamado Claude, ahora tendrán acceso a Sonnet, mientras que las personas que quieran probar Opus necesitarán suscribirse a la versión paga de US$20 al mes. Pero los lanzamientos de Claude 3 se hicieron pensando más en casos de uso empresarial, dijo Daniela Amodei. Los clientes de Claude incluyen a las empresas tecnológicas Gitlab, Notion, Quora y Salesforce (un inversionista de Anthropic); el gigante financiero Bridgewater y el conglomerado SAP, así como el portal de investigación empresarial LexisNexis, la compañía de telecomunicaciones SK Telecom y el Instituto Oncológico Dana-Farber.

Entre los primeros usuarios de prueba de Claude 3, el fabricante de software de productividad Asana encontró una mejora del 42% en el tiempo de respuesta inicial, dijo el ejecutivo especializado en IA, Eric Pelz, en un comunicado. La empresa de software Airtable dijo que había integrado a Claude 3 Sonnet en su propia herramienta de IA para ayudar con la creación de contenido más rápido y el resumen de datos.

En cuanto a cuánto costó entrenar a Claude 3 (cuánta computación y durante cuánto tiempo), los cofundadores de Anthropic se negaron a dar detalles. Si bien Claude 2 se lanzó en julio pasado, Amodei dijo que eso no era un indicio, ya que la compañía a veces entrena múltiples modelos a la vez, dependiendo de la disponibilidad de grupos de unidades de procesamiento de gráficos (GPUs, por sus siglas en inglés).

Anthropic, que recientemente recaudó US$750 millones con una valoración de U$18.400 millones, según informó Forbes, planea agregar funciones como interpretación de código, funciones de búsqueda y citas de fuentes en los próximos meses. “Continuaremos escalando nuestros modelos y haciéndolos más inteligentes, pero también continuaremos tratando de hacer que los modelos más pequeños y económicos sean más inteligentes y eficientes”, dijo Amodei. “Habrá actualizaciones grandes y pequeñas a lo largo del año”.

Este artículo fue publicado originalmente en Forbe US