SAN FRANCISCO — El otoño pasado, Google anunció una tecnología innovadora de inteligencia artificial llamada BERT que cambió el modo en que los científicos construyen los sistemas que aprenden cómo escribe y habla la gente.
Sin embargo, BERT, tecnología que ahora está integrada en servicios como el motor de búsquedas en internet de Google, tiene un problema: tal vez está adoptando prejuicios del mismo modo en que un niño imita el mal comportamiento de sus padres.
BERT es uno de varios sistemas de inteligencia artificial que aprenden una cantidad inmensa de información digitalizada que proviene de fuentes tan variadas como libros viejos, artículos de Wikipedia y notas periodísticas. Es probable que en todo ese material estén integradas décadas e inclusos siglos de prejuicios, además de algunos nuevos.
Por ejemplo, es más probable que BERT y sus pares asocien a los hombres con la programación de computadoras y, por lo general, no les dan a las mujeres todo el crédito que merecen. Un programa decidió que casi todo lo que se había escrito sobre el presidente Donald Trump era negativo, aun cuando el contenido real era halagador.
A medida que se instale inteligencia artificial nueva y más compleja en una variedad cada vez mayor de productos, como los servicios de publicidad en línea y el software empresarial o los asistentes digitales parlanchines como Siri de Apple y Alexa de Amazon, recaerá presión sobre las empresas tecnológicas para prevenir los sesgos inesperados que se están descubriendo.
Sin embargo, los científicos todavía están aprendiendo cómo funcionan las tecnologías como BERT, llamadas “modelos de lenguaje universal”, y a menudo quedan sorprendidos con los errores que tiene la nueva inteligencia artificial.
Una tarde reciente en San Francisco, mientras hacía investigación para un libro sobre inteligencia artificial, el computólogo Robert Munro introdujo cien palabras a BERT: “joyería”, “bebé”, “caballos”, “casa”, “dinero”, “acción”. En 99 de los 100 casos, BERT tendía a asociar más esas palabras con hombres que con mujeres. La palabra “mamá” fue el valor atípico.
“Es la misma inequidad histórica que siempre hemos visto”, comentó Munro, quien tiene un doctorado en lingüística computacional y solía supervisar la tecnología de lenguaje natural y traducción en Amazon Web Services. “Ahora, con algo como BERT, ese prejuicio se puede seguir perpetuando”.
En una publicación de blog, Munro también describe cómo examinó los servicios de cómputo en la nube de Google y Amazon Web Services que ayudan a otros negocios a agregar capacidades lingüísticas en aplicaciones nuevas. Los dos servicios fueron incapaces de reconocer el pronombre “suya”, aunque identificaron de manera correcta “suyo”.
“Estamos conscientes del problema y estamos tomando las medidas necesarias para abordarlo y solucionarlo”, mencionó un vocero de Google. “Mitigar los prejuicios en nuestros sistemas es uno de nuestros principios para la inteligencia artificial y una de nuestras prioridades”. Amazon no respondió a varias solicitudes para ofrecer comentarios.
Desde hace tiempo, los investigadores han advertido sobre los prejuicios en la inteligencia artificial, que aprende a partir de inmensas cantidades de datos, incluidos los sistemas de reconocimiento facial que usan los departamentos de la policía y otras agencias gubernamentales, así como algunos servicios populares en internet de gigantes tecnológicos como Google y Facebook. Por ejemplo, en 2015, la aplicación Google Fotos fue sorprendida etiquetando a afroestadounidenses como “gorilas”. Los servicios que Munro escudriñó también mostraron prejuicios en contra de las mujeres y las personas de raza negra.
BERT y otros sistemas similares son mucho más complejos, demasiado complejos para que alguien pueda predecir qué harán al final.
“Incluso las personas que construyen estos sistemas no comprenden cómo se comportan”, señaló Emily Bender, profesora de la Universidad de Washington que se especializa en lingüística computacional.
BERT es uno de muchos modelos de lenguaje universal que se utilizan en la industria y la academia. Hay otros llamados ELMO, ERNIE y GPT-2. A manera de broma entre los investigadores de la inteligencia artificial, a menudo les dan nombres de personajes de Plaza Sésamo [Bert es la abreviatura de Bidirectional Encoder Representations from Transformers (Representaciones de Codificador Bidireccional de Transformadores)].
Estos sistemas aprenden los matices del lenguaje analizando cantidades enormes de textos. Un sistema que creó OpenAI, un laboratorio de inteligencia artificial de San Francisco, analizó miles de libros autopublicados, entre ellos novelas románticas, de misterio y de ciencia ficción. BERT analizó la misma biblioteca de libros y miles de artículos de Wikipedia.
Al analizar todos estos textos, cada sistema aprendió una tarea específica. El sistema de OpenAI aprendió a predecir la siguiente palabra en una oración. BERT aprendió a identificar la palabra faltante en una oración (como en “Quiero ______ ese auto porque es barato”).
Mediante el aprendizaje de estas tareas, BERT llega a comprender de manera general cómo une la gente las palabras. Luego puede aprender otras tareas analizando más datos. Como resultado, permite que las aplicaciones de inteligencia artificial mejoren a un ritmo que antes era imposible de lograr.
“BERT cambió todo por completo”, comentó John Bohannon, director de ciencia en Primer, una empresa emergente de San Francisco que se especializa en tecnologías de lenguaje natural. “Puedes enseñarle todo los trucos a un poni”.
Google ha utilizado BERT para mejorar su motor de búsqueda. Antes, si escribías “Do aestheticians stand a lot at work” (¿Los estilistas tienen que pasar mucho tiempo de pie en el trabajo?) en el motor de búsqueda de Google, este no entendía bien lo que le estabas preguntando. Palabras como “stand” (estar de pie) y “work” (trabajo) pueden tener múltiples significados. Sin embargo, ahora, gracias a BERT, Google responde de manera correcta esta pregunta con un enlace que describe las exigencias físicas de la vida en la industria del cuidado de la piel.
No obstante, las herramientas como BERT incorporan los prejuicios, según un artículo de investigación que acaba de publicar un equipo de computólogos de la Universidad Carnegie Mellon. Por ejemplo, el artículo mostró que es más probable que BERT asocie la palabra “programador” con hombres que con mujeres. Los sesgos del lenguaje pueden ser un problema particularmente difícil en sistemas conversacionales.
A medida que proliferen estas nuevas tecnologías, los prejuicios podrán aparecer casi en todas partes. Hace poco tiempo, en Primer, Bohannon y sus ingenieros usaron BERT para crear un sistema que permite que los negocios juzguen de forma automática el sentimiento de los titulares de los periódicos, los tuits y otros contenidos de medios en línea. Los negocios usan estas herramientas para tomar decisiones informadas sobre la comercialización de acciones y otros asuntos cruciales.
Sin embargo, después de entrenar esta herramienta, Bohannon se percató de un prejuicio constante. Si un tuit o titular tenía la palabra “Trump”, casi siempre la herramienta lo juzgaba como algo negativo, sin importar cuán positiva fuera la opinión.
“Esto es difícil. Se necesita mucho tiempo y atención”, mencionó Bohannon. “Encontramos un sesgo evidente. Pero ¿cuántos otros habrá?”.
[…] Sin embargo, BERT, tecnología que ahora está integrada en servicios como el motor de búsquedas en internet de Google, tiene un problema: tal vez está adoptando prejuicios del mismo modo en que un niño imita el mal comportamiento de sus padres. BERT es uno de varios sistemas de inteligencia artificial que aprenden una cantidad inmensa de información digitalizada que proviene de fuentes tan variadas como libros viejos, artículos de Wikipedia y notas periodísticas. Es probable que en todo […] La inteligencia artificial aprende todo de nosotros, incluso nuestros prejuicios […]