Puede que el modelo fronterizo de OpenAI no haya asombrado cuando llegó a principios de este año, pero las investigaciones indican que ahora es mucho mejor que otros a la hora de escribir código con menos vulnerabilidades.
Cuando OpenAI lanzó la última versión de su chatbot GPT-5 en agosto, su director ejecutivo, Sam Altman, presumió de sus capacidades de nivel “doctoral”. Pronto se desató una avalancha de quejas sobre su falta de naturalidad en la conversación y la ausencia de mejoras evidentes, y Altman admitió posteriormente que el lanzamiento había sido un desastre.
Sin embargo, un área en la que GPT-5 sí destacó fue en la escritura de código con menos vulnerabilidades . Un estudio de Veracode, una empresa de ciberseguridad valorada en 2.500 millones de dólares, aplicó 80 tareas de autocompletado de código a más de 100 modelos de lenguaje de gran tamaño. En estas tareas existían formas de completarlas sin vulnerabilidades, pero también otras que incluían una debilidad conocida.
Veracode descubrió que, en el 72 % de las tareas, el modelo GPT-5 Mini de OpenAI generó código sin vulnerabilidades, un aumento considerable respecto al casi 60 % obtenido por los modelos anteriores en la misma prueba a principios de año. El modelo GPT-5 estándar le siguió de cerca con un 70 %, mientras que Google Gemini 2.5 Pro obtuvo el tercer mejor resultado con un 59 %, seguido de Grok 4 de XAI con un 55 %. Claude Sonnet 4.5 de Anthropic alcanzó el 50 %, una disminución respecto al 53 % obtenido por su predecesor, Claude Sonnet 4, en la misma prueba a principios de año. Todos los modelos presentaron vulnerabilidades básicas en su código, como la inyección SQL, que permite a un atacante acceder a la información de la base de datos con comandos sencillos.
Ninguna de las empresas punteras en inteligencia artificial había respondido a las solicitudes de comentarios en el momento de la publicación.
Aunque no está del todo claro por qué los modelos GPT-5 han mejorado tanto, es probable que se deba a los pasos de razonamiento adicionales que ha introducido OpenAI, según Veracode. Dado que la IA ahora realiza más comprobaciones antes de generar un resultado, lleva a cabo algo similar a la revisión de código.
“Hay que felicitarlos por haber invertido realmente en mejorar la seguridad”, dijo Jens Wessling, director de tecnología e investigador principal.
A pesar de la mejora de OpenAI, Wessling afirma que los resultados demuestran que aún queda camino por recorrer antes de que se pueda confiar en la IA para más tareas de programación. Incluso con una tasa de aciertos del 72%, el modelo de OpenAI introducía una vulnerabilidad conocida en una de cada cuatro tareas de programación. «Si bien es una gran mejora, una de las mayores que hemos visto, todavía no alcanza el nivel que consideraría suficiente para implementarlo sin revisarlo», añadió.
Una de las razones por las que los modelos siguen escribiendo código poco seguro es que han sido entrenados con enormes repositorios de código que contienen vulnerabilidades, añadió Chris Wyospal, fundador de Veracode.
“Se trata de aprender de cosas que han sido codificadas de forma intuitiva, proyectos de estudiantes”, añadió. “Vas a encontrarte con muchas cosas que no han pasado por un proceso de seguridad”.
Este artículo fue publicado originalmente por Forbes US
Lea también: Intuit pagará a OpenAI US$100 millones en un acuerdo que integra TurboTax a ChatGPT
