Esta es Stable Diffusion XL, la última IA generativa de imágenes

La startup de IA Stability AI presenta su último modelo de IA generativa de imágenes, Stable Diffusion XL 1.0.

A mediados de julio, Stability AI anunció el lanzamiento de Stable Diffusion XL 1.0. Esta IA es un modelo de texto a imagen que la compañía describe como su versión “más avanzada” hasta la fecha. Está disponible en código abierto en GitHub además de la API de Stability y las aplicaciones de consumo, ClipDrop y DreamStudio. Stable Diffusion XL 1.0 ofrece colores “más vibrantes” y “precisos” y mejor contraste, sombras e iluminación en comparación con su predecesor.

Una imagen generada por Stable Diffusion XL 1.0. Créditos de imagen: Estability AI

En una entrevista, Joe Penna, jefe de aprendizaje automático aplicado de Stability AI, señaló que Stable Diffusion XL 1.0, puede producir imágenes de resolución completa de 1 megapíxel “en segundos” en múltiples relaciones de aspecto. El modelo contiene 3.500 millones de parámetros. Los “parámetros” son las partes de un modelo aprendidas a partir de datos de entrenamiento. Estos definen la habilidad del modelo en un problema, en este caso generando imágenes.

Mejoras técnicas

Stable Diffusion XL 1.0 se ha mejorado en el área de generación de texto. Si bien muchos de los mejores modelos de texto a imagen luchan por generar imágenes con logotipos legibles, Stable Diffusion XL 1.0 es capaz de generar texto y legibilidad “avanzadas”, dice Penna.

Y, según lo informado por SiliconAngle y VentureBeat, Stable Diffusion XL 1.0 admite la pintura interior (reconstrucción de partes faltantes de una imagen), la pintura exterior (ampliación de imágenes existentes) y las indicaciones de “imagen a imagen”, lo que significa que los usuarios pueden ingresar una imagen y crear variaciones más detalladas de esa imagen.

Imágenes generadas por Stable Diffusion XL 1.0.

Además, el modelo comprende instrucciones complicadas de varias partes dadas en indicaciones breves, mientras que los modelos anteriores de difusión estable necesitaban indicaciones de texto más largas.

Cuestiones morales

La versión de código abierto de Stable Diffusion XL 1.0 puede, en teoría, ser utilizada por malos actores para generar contenido tóxico o dañino, como falsificaciones profundas (deepfakes) no consentidas. Eso es parcialmente un reflejo de los datos que se usaron para entrenar el sistema: millones de imágenes de toda la web.

Innumerables tutoriales demuestran cómo usar las propias herramientas de Stability AI, incluido DreamStudio, un front-end de código abierto para Stable Diffusion, para crear deepfakes. Muchos otros muestran cómo ajustar los modelos básicos de difusión estable para generar pornografía.

Penna no niega que el abuso sea posible, y reconoce que el modelo también contiene ciertos sesgos. Pero agregó que Stability AI tomó “medidas adicionales” para mitigar la generación de contenido dañino al filtrar los datos de entrenamiento del modelo en busca de imágenes “inseguras”, publicar nuevas advertencias relacionadas con avisos problemáticos y bloquear tantos términos problemáticos individuales en la herramienta como sea posible.

Exclusión voluntaria

El conjunto de entrenamiento de Stable Diffusion XL 1.0 también incluye obras de arte de artistas que han protestado contra compañías como Stability AI que usan su trabajo como datos de entrenamiento para modelos generativos de IA. Stability AI afirma que está protegido de la responsabilidad legal por la doctrina del uso justo, al menos en los EE. UU.

Stability AI, que tiene una asociación con la startup Spawning para respetar las solicitudes de “exclusión voluntaria” de estos artistas, dice que no ha eliminado todas las obras de arte marcadas de sus conjuntos de datos de entrenamiento, pero que “sigue incorporando las solicitudes de los artistas”.

“Estamos mejorando constantemente la funcionalidad de seguridad de Stable Diffusion y nos tomamos en serio la iteración de estas medidas”, dijo Penna. “Además, nos comprometemos a respetar las solicitudes de los artistas de ser eliminados de los conjuntos de datos de entrenamiento”.