OpenAI cree que DeepSeek “destiló” sus datos para el entrenamiento

La destilación es una técnica empleada por los desarrolladores de modelos de IA, en la que los resultados generados por un modelo de IA avanzado se utilizan para entrenar un modelo más pequeño.

OpenAI cree que los resultados de sus modelos de inteligencia artificial pueden haber sido utilizados por la startup china DeepSeek para entrenar su nuevo modelo de código abierto que impresionó a muchos observadores y sacudió los mercados financieros estadounidenses el lunes, según un informe del Financial Times.

Datos clave

El creador de ChatGPT dijo al Financial Times que había visto alguna evidencia que sugiere que DeepSeek puede haber accedido a sus datos a través de la “destilación”, una técnica en la que los resultados de un modelo de IA más grande y avanzado se utilizan para entrenar y mejorar un modelo más pequeño.

Bloomberg informó que OpenAI y su principal patrocinador, Microsoft, estaban investigando si DeepSeek utilizó la interfaz de programación de aplicaciones (API) de OpenAI (que permite a otras empresas y plataformas aprovechar el modelo de inteligencia artificial de la empresa) para llevar a cabo la “destilación”.

Según el informe del FT, las dos empresas habían investigado y bloqueado cuentas que usaban la API el año pasado por sospechas de destilación (una violación de los términos y condiciones de OpenAI) que creían que pertenecía a DeepSeek.

El problema fue señalado por primera vez por David Sacks, designado como “zar de la IA” por el presidente Donald Trump, quien le dijo a Fox News que había “evidencia sustancial” de que DeepSeek destilaba resultados de los modelos de OpenAI y agregó: “No creo que OpenAI esté muy contento con esto”.

Sacks agregó que, en los próximos meses, las principales empresas de inteligencia artificial de Estados Unidos comenzarán a tomar medidas para “tratar de prevenir la destilación”, lo que “definitivamente ralentizaría algunos de estos modelos imitadores”.

La aplicación también ha suscitado preocupaciones de seguridad nacional en la Casa Blanca y su impacto está siendo revisado por el Consejo de Seguridad Nacional, dijo la secretaria de prensa de la Casa Blanca, Karoline Leavitt, y agregó: “Esta es una llamada de atención para la industria de inteligencia artificial estadounidense”.

¿Qué es la destilación?

La destilación es una técnica empleada por los desarrolladores de modelos de IA, en la que los resultados generados por un modelo de IA avanzado se utilizan para entrenar un modelo más pequeño. El modelo más grande y complejo suele denominarse modelo del profesor, mientras que el más pequeño se denomina modelo del estudiante. El objetivo de la destilación es intentar garantizar que el modelo del estudiante pueda alcanzar un nivel de rendimiento comparable al del profesor utilizando menos recursos informáticos. Según el autor de Stratechery y analista tecnológico Ben Thompson, es probable que empresas como OpenAI, Anthropic y Google ya estén utilizando la destilación para optimizar sus modelos y el proceso es sencillo si una empresa posee y opera tanto el modelo del profesor como el del estudiante. Sin embargo, un modelo del estudiante propiedad de un tercero que aproveche los modelos patentados avanzados de una empresa para la destilación suele ser una violación de los términos y condiciones. Los términos de servicio de OpenAI prohíben a los usuarios copiar sus servicios o utilizar su resultado para “desarrollar modelos que compitan con OpenAI”.

¿Qué pueden hacer las empresas para evitar la destilación?

Las empresas como OpenAI pueden impedir que terceros utilicen la destilación restringiendo su acceso. Esto podría implicar prohibir sus cuentas, bloquear sus direcciones IP o establecer límites de frecuencia en la cantidad de consultas que pueden realizar terceros. Sin embargo, no está claro si estos métodos serían eficaces para excluir por completo la destilación.

Cita crucial

En respuesta a los comentarios de Sacks, OpenAI le dijo a Fox News que utiliza “contramedidas” para proteger su propiedad intelectual y agregó: “a medida que avanzamos… es de vital importancia que trabajemos en estrecha colaboración con el gobierno de los EE. UU. para proteger mejor los modelos más capaces de los esfuerzos de los adversarios y competidores por tomar tecnología estadounidense”.

Crítico principal

Mike Masnick, el fundador del medio de noticias tecnológicas TechDirt, comentó sobre la reacción de OpenAI a la destilación: “Entonces, mira, estoy seguro de que soy una minoría aquí en Bluesky que cree que entrenar sistemas de IA no es una infracción de derechos de autor. Pero, además, amigo, no hay forma de que OpenAI pueda presentar este argumento sin parecer muy, muy tonto”.

Este artículo fue publicado originalmente en Forbes US

Lea también: ¿Qué es DeepSeek?, la nueva startup china de IA que compite con OpenAI y afirma ser mucho más barata

OpenAI cree que DeepSeek “destiló” sus datos para el entrenamiento

Datos clave

¿Qué es la destilación?

¿Qué pueden hacer las empresas para evitar la destilación?

Cita crucial

Crítico principal

Más de IA

Relacionados

Recomendados

Lo Último