Parámetros SDXL para generar imágenes de alta calidad

Do not index

canonical-url

Publish

Stable Diffusion XL ha marcado un punto de inflexión en la generación de imágenes basadas en IA al proporcionar una solución de código abierto capaz de crear imágenes de alta calidad y alta definición. Además, representa un verdadero avance en la composición de imágenes y el renderizado fotorrealista sobre todo de rostros

En este artículo, echamos un vistazo a lo que ha cambiado con Stable Diffusion XL (SDXL), su arquitectura actual y los parámetros óptimos para explotar todo su

Arquitectura técnica y funcionamiento de SDXL

SDXL introduce varias mejoras importantes.

La U-Net, la columna vertebral de la IA generativa, es más grande y combina un mayor número de bloques de atención y un contexto de atención cruzada más amplio.

Al igual que las versiones anteriores de Stable Diffusion 1.5 y 2.1, el modelo funciona sobre la base de varios componentes expertos. Inicialmente, el modelo básico genera ruido latente que luego se refina durante las etapas de eliminación de ruido. Para ello, el modelo de difusión utiliza un enfoque único en dos etapas

Forward Diffusion : se introduce ruido aleatorio en una imagen en cantidades controladas.

Reverse Diffusion : la imagen se desnaturaliza para reconstruir su contenido original.

La red U-Net apoya este proceso: ha sido entrenada para predecir el ruido de una imagen con ruido aleatorio y calcular la pérdida entre el ruido previsto y el real. Con un gran conjunto de datos y múltiples etapas de ruido, el modelo es capaz de hacer predicciones precisas sobre cómo el ruido modifica las imágenes. Como resultado, el modelo puede identificar si el ruido está más o menos cerca de una imagen final y dirigir la eliminación del ruido en consecuencia.

Novedades en SDXL

SDXL está introduciendo un nuevo codificador de texto, que ha sido entrenado con descripciones más verbosas y detalladas (prompts) y asociado a imágenes de mayor resolución, lo que permite a SDXL comprender mejor lo que se le pide.

Otras mejoras notables de SDXL son :

SDXL 1.0 dispone de un mayor número de parámetros U-Net, lo que permite generar imágenes más complejas.

A diferencia de sus predecesores, SDXL adopta una distribución no uniforme, allanando el camino para mejorar las capacidades de aprendizaje.

Con la inclusión de OpenCLIP ViT-bigG y un codificador de texto adicional, CLIP ViT-L, SDXL integra eficazmente la información de texto en el proceso de generación de imágenes.

Al introducir los parámetros Size-Conditioning, Crop-Conditioning y Multi-Aspect Conditioning, el modelo puede adaptar su generación de imágenes en función de diversas pistas.

La adición de un segundo modelo de refinamiento, el Refinador capaz de procesar datos de alta calidad y alta resolución y de captar detalles locales complejos. Está diseñado para mejorar las imágenes de escenas con poco ruido, lo que da lugar a imágenes de mayor calidad y alta frecuencia. El Refinador entonces como un modelo de seguimiento que interviene después del modelo base para mejorar la calidad de la imagen

En definitiva, SDXL 1.0 supera a sus predecesores y se sitúa a la vanguardia de los generadores de imágenes más modernos.

Parámetros óptimos para SDXL

Para aprovechar todo el potencial de SDXL 1.0, es esencial conocer sus principales parámetros:

Escala CFG

También conocida como escala de orientación, determina la fuerza del clasificador que guía el proceso de muestreo.

Entender la orientación de la difusión

Aunque los modelos de difusión son muy eficaces para el muestreo, la calidad y la diversidad de las muestras obtenidas siguen siendo imperfectas.

Tradicionalmente, se utiliza un clasificador externo para guiar el proceso de muestreo, garantizando así una mejor calidad de la muestra, pero este método añade complejidad al requerir el entrenamiento del clasificador adicional.

Stable Diffusion utiliza un método alternativo de orientación sin clasificador. Este enfoque innovador utiliza un modelo de difusión dual: un modelo condicional (adaptado a condiciones específicas) y un modelo incondicional (para la generación de forma libre). Al fusionar los resultados de estos dos modelos, SDXL consigue un equilibrio entre la calidad de la muestra y la diversidad, sin necesidad de un clasificador externo

Este método no sólo es más sencillo, ya que evita la necesidad de un clasificador adicional, sino que también es ligeramente más lento, ya que implica un doble procesamiento en cada etapa.

Elegir bien la ponderación de la orientación

El peso de la orientación es esencial para determinar la calidad y la alineación de las imágenes generadas en relación con la indicación dada.

Se trata de un indicador que controla la fuerza del modelo condicional en relación con el texto, el grado de adhesión a su entrada.

Un valor de 0 producirá imágenes prácticamente aleatorias, con poca atención a la indicación. Un valor más alto refuerza la importancia del modelo condicionado y la adhesión al texto.

Opte por valores más bajos si le apetece obtener resultados más aleatorios o creativos que se alejen más de su descripción; por el contrario, los valores más altos producirán imágenes que reflejen más fielmente su mensaje, pero es probable que sean menos imaginativas (e incluso menos cualitativas).

Con SDXL, el intervalo ideal es entre 3 y 13.

Por ejemplo, aquí hay 6 imágenes producidas con las mismas indicaciones pero con diferentes escalas CFG:

Ver el Prompt

cinematic film still humanoid goat wearing a black suit, detailed photo, depicting everyday life, sitting on a bench at the park, upper body shot. shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, grainy

📌

más sobre la CFG y su funcionamiento, consulte nuestra guía sobre la Báscula CFG

Etapas del muestreo (steps)

Es el número de pasos de muestreo (o eliminación de ruido) realizados

Comprender la generación iterativa

Los modelos de difusión son procesos iterativos: empiezan generando ruido aleatorio, y en cada etapa se elimina parte de este ruido, lo que da como resultado una imagen de mejor calidad.

El parámetro de pasos determina el número de iteraciones o ciclos que experimentará el modelo. Un mayor número de pasos suele dar como resultado una imagen de mejor calidad, a costa de un cálculo de inferencia más lento.

Equilibrio entre rapidez y calidad

Aunque un mayor número de pasos de eliminación de ruido mejora la calidad del resultado, es importante encontrar un equilibrio entre calidad y velocidad, sobre todo porque, a partir de cierto punto, los nuevos pasos no aportan realmente ningún cambio relevante.

En el caso de la SDXL, hay que contar con unas 30 etapas para obtener imágenes de buena calidad. Más allá de 30, cada etapa ofrece un rendimiento decreciente y, a partir de 50, es prácticamente imposible mejorar la imagen

Como ya se ha mencionado, SDXL se suministra con dos modelos: el modelo básico y el Refinador. Cuando el segundo está activo, toma el relevo del primero tras un determinado número de pasos, definido en %. Así, a 0,8, toma el relevo en el 80% de las pulverizaciones, es decir, a partir del paso 24 de 30

He aquí un ejemplo de 6 imágenes producidas con las mismas indicaciones pero variando el número de pasos:

Ver el prompt

cinematic film still humanoid crocodile wearing a moutarde suit, detailed photo, depicting everyday life, sitting in a bar, upper body shot. shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, grainy

Scheduler

En el contexto de la difusión estable, los schedulers son algoritmos utilizados con el componente U-Net. Desempeñan un papel central en el proceso de eliminación de ruido y operan varios en cada etapa de iteración para producir una imagen limpia a partir de una imagen con ruido totalmente aleatorio.

La función principal de estos algoritmos de planificación es perturbar progresivamente los datos con un ruido aleatorio creciente (lo que se conoce como proceso de "difusión") y, a continuación, eliminar secuencialmente este ruido, por lo que a veces también se denominan "muestreadores" (sampler en ingles)

Con SDXL 1.0, algunos schedulers pueden generar una imagen satisfactoria en sólo 20 pasos. Entre ellos, UniPC y Euler Ancestral tienen fama de ofrecer los resultados más nítidos y rápidos en comparación con sus homólogos. Sin embargo, muchos usuarios prefieren programadores como DPM++ 2M, que requieren más pasos pero a menudo consiguen mejores resultados.

Por ejemplo, aquí hay 4 imágenes generadas con las mismas indicaciones y el mismo número de pasos (25) pero con diferentes programadores.

ver el prompt

cinematic film still humanoid panda wearing a pink suit, detailed photo, depicting everyday life, sitting on a wooden chair, upper body shot. shallow depth of field, vignette, highly detailed, high budget, bokeh, cinemascope, moody, epic, gorgeous, grainy

Prompt negativo

La consulta negativa es una técnica que le permite especificar lo que no desea ver en el resultado generado, sin proporcionar ninguna información adicional.

Aunque las indicaciones negativas no son tan esenciales como la indicación principal, desempeñan un papel crucial para evitar la generación de imágenes indeseables o extrañas. Su uso garantiza que el contenido generado se ajuste más a la intención del usuario al excluir explícitamente los elementos indeseables.

Con SDXL, puedes conformarte con un breve mensaje negativo predeterminado y mejorarlo en cada caso si es necesario.

Ejemplo de aviso negativo que se utilizará por defecto: borroso, texto, marca de agua, logotipo, firma, boceto, feo.

📌

Véase también nuestro artículo sobre los prompt negativos

Eso es todo, ahora conoces los principales parámetros de generación de imágenes con Stable Diffusion XL y cómo utilizarlos para obtener el mejor efecto. Ahora todo lo que tienes que hacer es empezar a crear tus imágenes con AI.

Parámetros SDXL