El sistema desarrollado por OpenAI es capaz de insertar objetos en imágenes preexistentes en posiciones determinadas y de acuerdo al contexto.
OpenAI ha presentado la segunda versión de DALL-E, una inteligencia artificial que es capaz de crear imágenes realistas y con pretensiones artísticas a partir de descripciones provistas por los usuarios. Podemos pedirle que dibuje una jirafa subiendo una escalera y DALL-E nos ofrecerá precisamente eso. Peo lo verdaderamente destacable en esta versión no es tanto la calidad de la imagen producida como la correcta combinación de los elementos que la componen.
En contexto
Cuando se agrega un objeto a una imagen preexistente la IA es capaz de entender el contexto en el que aparece. El usuario puede determinar el lugar dentro de la imagen en el que quiere el nuevo elemento. En uno de los ejemplos ofrecidos es posible agregar un perro a una galería de arte. Si el destino es una plataforma por delante de los cuadros aparece un perro de carne y hueso, si en cambio se elige el interior de un cuadro el perro aparece como un elemento plano del cuadro y de acuerdo a la escena del mismo.
En general, los elementos aparecen con las texturas adecuadas, las sombras y los reflejos adecuados no solo en función de si mismos sino de toda la imagen.
Variaciones
DALL-E también puede tomar imágenes y crear una serie de variaciones inspiradas en una imagen original. Las imágenes producidas están lejos de ser simples cambios de ángulos. Son coherentes, mantienen cierta armonía y calidad de composición e incluso varían los elementos (dentro de ciertos límites).
Capacidad y limitaciones
Todo lo que hemos señalado anteriormente es posible porque DALL-E 2 ha aprendido a discernir la relación que existe entre los objetos que los textos le sugieren. Una capacidad que la primera iteración del programa no tenía. La segunda versión también ha mejorado notablemente la definición de las imágenes que produce.
Los desarrolladores apuntan que todavía existen notorias limitaciones a lo que la IA puede hacer. Por ejemplo, si tiene que trabajar con una imagen mal etiquetada el sistema reproduce dicho error. También es capaz de asociar imágenes con ciertas palabras, pero ignora las categorías a las que la palabra está vinculada. En el ejemplo citado el sistema es incapaz de utilizar la imagen de un babuino para producir un mono aullando.