La demanda señala que Microsoft y sus colaboradores violan los derechos legales de millones de programadores que dedicaron años de trabajo a escribir el código original.
A finales de junio, Microsoft lanzó un nuevo tipo de tecnología de inteligencia artificial capaz de generar su propio código informático.
La herramienta, llamada Copilot, se diseñó con la intención de hacer más rápido el trabajo de los programadores profesionales. Conforme los programadores teclean en sus computadoras, la herramienta sugiere bloques de código informático ya establecidos que pueden agregar de inmediato a su propio código.
A muchos programadores les encantó la nueva herramienta, o al menos les causó intriga. En cambio, a Matthew Butterick, un programador, diseñador, escritor y abogado de Los Ángeles, no le pareció nada bien. Este mes, junto con un equipo de abogados, interpuso una demanda (que pretende se considere de carácter colectivo) en contra de Microsoft y las demás empresas de renombre detrás del diseño y lanzamiento de Copilot.
Al igual que muchas otras tecnologías innovadoras de IA, Copilot desarrolló sus habilidades a partir del análisis de enormes cantidades de datos. En este caso, se basó en miles de millones de líneas de código informático publicadas en internet.
Butterick, de 52 años, considera que este proceso es similar a la piratería, pues el sistema no le da ningún crédito al trabajo existente. La demanda señala que Microsoft y sus colaboradores violan los derechos legales de millones de programadores que dedicaron años de trabajo a escribir el código original.
Esta demanda se considera el primer ataque legal contra una técnica de diseño llamada “entrenamiento de IA”, un método para crear inteligencia artificial que se espera reconfigure la industria tecnológica. En años recientes, muchos artistas, escritores, críticos y activistas interesados en la privacidad se han quejado de que las empresas entrenan a sus sistemas de IA con datos que no les pertenecen.
Esta demanda tiene ecos en las últimas décadas de la industria tecnológica. En las décadas de 1990 y 2000, Microsoft se opuso al surgimiento del software de código abierto por considerarlo una amenaza existencial al futuro de la empresa. En vista de la creciente importancia del código abierto, Microsoft a fin de cuentas lo aceptó e incluso adquirió GitHub, hogar de los programadores de código abierto y el espacio en que construían y almacenaban su código.
Casi todas las generaciones nuevas de tecnología, incluso los motores de búsqueda en línea, han enfrentado retos legales parecidos. En general, “no hay ni leyes ni jurisprudencia que cubran el tema”, explicó Bradley J. Hulbert, abogado del área de propiedad intelectual especializado en esta área cada vez más importante del derecho.
La demanda forma parte de una corriente de desconfianza en torno a la inteligencia artificial. A varios artistas, escritores, compositores y personas de otras profesiones creativas les preocupa la posibilidad de que ciertas empresas e investigadores utilicen su trabajo para crear nueva tecnología sin su consentimiento y sin darles ningún tipo de compensación. Las empresas entrenan de esta manera a una amplia variedad de sistemas, como generadores de arte, sistemas de reconocimiento de voz como Siri y Alexa, e incluso automóviles autónomos.
Copilot se basa en tecnología construida por OpenAI, un laboratorio de inteligencia artificial establecido en San Francisco que cuenta con 1000 millones de dólares de respaldo financiero de Microsoft. OpenAI encabeza una tendencia cada vez más generalizada enfocada en entrenar tecnologías de inteligencia artificial con datos digitales.
Después de que Microsoft y GitHub lanzaron Copilot, el director ejecutivo de GitHub, Nat Friedman, tuiteó que utilizar código existente para entrenar el sistema era un “uso justo” del material según la legislación de derechos de autor, un argumento que emplean con regularidad las empresas e investigadores que construyeron estos sistemas. Lo cierto es que ningún caso presentado ante tribunales ha cuestionado esta postura hasta ahora.
“Las ambiciones de Microsoft y OpenAI van mucho más allá de GitHub y Copilot”, afirmó Butterick en una entrevista. “Quieren entrenar con todo tipo de datos que encuentren en cualquier parte, de manera gratuita, sin necesidad de consentimiento, para siempre”.
En 2020, OpenAI dio a conocer un sistema llamado GPT-3. Un grupo de investigadores entrenó ese sistema con una cantidad enorme de texto digital, incluidos miles de libros, artículos de Wikipedia, registros de conversaciones y otros datos publicados en internet.
Este sistema identificó patrones en todo ese texto y así aprendió a predecir la siguiente palabra en una secuencia. Cuando alguien escribía unas cuantas palabras en este “enorme modelo de lenguaje”, el sistema completaba la idea con párrafos enteros de texto. De esta manera, llegó a escribir sus propias publicaciones en Twitter, así como discursos, poemas y artículos noticiosos.
Para sorpresa de los investigadores que construyeron el sistema, este incluso podía escribir programas de computación, pues al parecer aprendió a partir de un número incalculable de programas publicados en internet.
Así que OpenAI dio un paso más y entrenó a un sistema nuevo, Codex, con un nuevo conjunto de datos que contenía específicamente código. Al menos parte de este código, según informó más adelante el laboratorio en un artículo de investigación en el que describía la tecnología, provino de GitHub, un popular servicio de programación propiedad de Microsoft y operado por esa misma empresa.
Este nuevo sistema se convirtió en la tecnología de base para Copilot, que Microsoft distribuyó a algunos programadores a través de GitHub. Después de probar Copilot con un número relativamente pequeño de programadores por un periodo aproximado de un año, lo distribuyó a todos los creadores de código de GitHub en julio.
Butterick se identifica como un programador de código abierto y forma parte de una comunidad de programadores que comparten su código de manera gratuita con el mundo. En los últimos 30 años, el software de código abierto ha ayudado a impulsar el surgimiento de la mayoría de las tecnologías que los consumidores emplean a diario, como los navegadores web, los teléfonos móviles y las aplicaciones para celulares.
Aunque el software de código abierto se diseñó para compartirse sin costo alguno con otros creadores de código y empresas, este intercambio está regido por licencias cuyo objetivo es garantizar que se emplee en beneficio de la comunidad de programadores en general. Butterick cree que Copilot ha violado estas licencias y que, a medida que mejore, hará que los creadores de código abierto se vuelvan obsoletos.
Después de quejarse públicamente durante meses por este asunto, presentó la demanda con otros cuantos abogados. El procedimiento todavía se encuentra en sus primeras etapas y el tribunal todavía no ha certificado que se trate de una demanda colectiva.
Para sorpresa de muchos expertos legales, la demanda de Butterick no acusa ni a Microsoft ni a GitHub ni a OpenAI de contravenir derechos de autor. La demanda toma otro enfoque y argumenta que las empresas violaron los términos de servicio y políticas de privacidad de GitHub, además de estar en conflicto con legislación federal que exige que las empresas incluyan información sobre los derechos de autor cuando utilicen cierto material.
Butterick y otro abogado involucrado en la demanda, Joe Saveri, explicaron que el juicio podría abordar más adelante la cuestión de los derechos de autor.
Cuando le preguntaron si la empresa podía hacer comentarios sobre la demanda, un vocero de GitHub se negó a responder; más tarde, añadió en un comunicado enviado por correo electrónico que la empresa ha estado “comprometida con la innovación responsable en lo que respecta a Copilot desde un principio y seguirá trabajando en la evolución del producto para darles el mejor servicio posible a los desarrolladores de todo el mundo”. Microsoft y OpenAI se negaron a hacer comentarios acerca de la demanda.