Nuevo modelo para generar imágenes a partir de texto en lenguaje natural

Hace algo más de un mes publicábamos la noticia sobre el anuncio de Dall·e 2, la segunda versión de una IA que es capaz de generar imágenes en diversos acabados a partir de lenguaje natural. Y hoy traemos el anuncio de “Imagen”, un nuevo modelo de Google AI que ante evaluadores humanos supera en calidad de imagen y fidelidad respecto al input a Dall·e.

https://gweb-research-imagen.appspot.com

(Foto generada con “Imagen”)

Tal como lo describen, Imagen es un modelo de difusión de texto a imagen con un grado de fotorrealismo sin precedentes y un profundo nivel de comprensión del lenguaje. Otra de las características de Imagen es que es un modelo no entrenado con COCO (un conjunto de datos de imágenes de objetos grandes en un contexto determinado) y aun así obtiene mejores resultados que otros modelos si entrenados.

Al igual que sucedía con Dall·e, los creadores han optado por no liberar el código fuente ni proporcionar una demostración pública por consideraciones éticas debido a riesgos potenciales de uso indebido. En primer lugar por la complejidad del potencial impacto en la sociedad de una herramienta así. En segundo lugar por la dependencia de grandes conjuntos de datos, en general sin depurar, que suelen reflejar estereotipos sociales, puntos de vista opresivos, asociaciones despectivas o perjudiciales con grupos de identidad marginados… Aunque filtraron una parte de los datos, hay otros de los que es conocido que contienen una amplia gama de contenidos inapropiados, como imágenes pornográficas, insultos racistas y estereotipos sociales perjudiciales. Como se corre el riesgo de que Imagen haya heredado estos sesgos, se decide no liberarlo para su uso público hasta que no existan salvaguardas. Por último, si bien se ha realizado un amplio trabajo de auditoría de los modelos de etiquetado de imagen a texto y de imagen para detectar formas de sesgo social, se ha trabajado comparativamente menos en los métodos de evaluación de sesgo social para los modelos de texto a imagen. Las evaluaciones preliminares también sugieren que Imagen codifica varios sesgos y estereotipos sociales, incluyendo un sesgo general hacia la generación de imágenes de personas con tonos de piel más claros y una tendencia a que las imágenes que retratan diferentes profesiones se alineen con los estereotipos de género occidentales. Por último, incluso cuando centramos las generaciones lejos de las personas, nuestro análisis preliminar indica que Imagen codifica una serie de sesgos sociales y culturales cuando genera imágenes de actividades, eventos y objetos. Nos proponemos avanzar en varios de estos retos y limitaciones abiertos en futuros trabajos.

Seguro que pronto tendremos más novedades en este campo.