Guía del Fooocus Prompt Image

Más información sobre el Image Prompt con Stable Diffusion y Fooocus

Guía del Fooocus Prompt Image
Do not index
Do not index
canonical-url
Publish
Publish
Fooocus es una moderna interfaz que facilita la instalación y el uso de Stable Diffusion XL. Inspirado en Midjourney, Fooocus pretende que no solo la generación de imágenes basada en texto, sino también los usos más avanzados de la IA de generación de imágenes sean sencillos y accesibles.
Uno de estos usos avanzados es el image prompting, que consiste en utilizar una imagen para complementar el texto y guiar el proceso de generación. Esto permite copiar el estilo de una imagen, elementos de composición, la posición de una persona o incluso su cara
En este artículo veremos cómo funciona la imagen de aviso en Fooocus y los distintos usos que puedes darle.
⚠️
Este tutorial asume que ya estás familiarizado con Fooocus y su uso básico - si no, empieza por leer nuestra Guía de inicio de Fooocus.

¿Qué es el Image Prompt?

El Image Prompt le permite utilizar una imagen como parte de la indicación en la generación de texto a imagen para influir en la composición, el estilo y los colores de la imagen de salida.
Sin embargo, esto difiere de la generación imagen a imagen, que utiliza la imagen de referencia como punto de partida para generar una nueva imagen, con o sin texto. En este caso, la imagen actúa como entrada complementaria a la indicación de texto, y el texto y la imagen influyen en la generación global de la imagen durante la etapa de acondicionamiento.
La mayoría de las veces, la imagen de aviso se configura en Difusión Estable utilizando un modelo neuronal llamado IP-Adapater.
En Fooocus, la funcionalidad del Image Prompt está más desarrollada y también se basa en una serie de adaptaciones específicas puestas en marcha por los desarrolladores: Negative embedding, attention hacking y un algoritmo adaptativo de equilibrado/ponderación
Estas adaptaciones hacen que el Image Prompt de Fooocus sea aún más eficiente y evitan los problemas que se encuentran frecuentemente con el Adaptador IP en interfaces como ComfyUI y Automatic1111.

¿Cómo se utiliza el Image Prompt?

Activar el image prompt

En Fooocus, se puede acceder a todas las funciones que dependen del uso de una o varias imágenes de referencia activando Input Image debajo del campo del prompt. A continuación, se puede acceder al image prompt haciendo clic en la pestaña correspondiente.
notion image
A continuación verá 4 selectores - Fooocus le permite utilizar de una a 4 imágenes de referencia para generar sus imágenes con el image prompt.

Image Prompt simple

Empecemos por generar una imagen inicial utilizando el clásico texto-a-imagen y luego veamos cómo el Image Prompt puede influir en el resultado.
Una simple prompt como "a female basketball player" producirá una imagen como ésta.
notion image

Con una sola imagen de referencia

Mantengamos este prompt pero agreguemos una imagen en la primera casilla del Image prompt (ya sea haciendo clic y arrastrando la imagen a la zona, o haciendo clic sobre ella para elegirla a través del explorador de archivos).
notion image
Al hacer clic en Generar, obtenemos una imagen que está influenciada tanto por nuestro prompt (un jugador de baloncesto) como por nuestra imagen (un retrato de una mujer rubia con una iluminación de neón bastante suave, pero con un efecto de alto contraste)
notion image
Esta imagen utiliza la configuración por defecto de la imagen de aviso de Fooocus, que da mayor importancia al texto, por lo que la imagen no influye mucho en los colores ni en el estilo final.
Por ejemplo, tomemos una otra imagen generada. Esta imagen de referencia tiene un estilo y unos elementos bastante marcados y distintivos (blanco y negro, efecto de humo, etc.), con los ajustes básicos, la imagen resultante conserva muy poco de esto:
Imagen de referencia
Imagen de referencia
Ejemplo de resultado
Ejemplo de resultado
Hay un poco de expresión facial, los colores son más apagados... Pero en realidad no hay un gran parecido con el estilo original.
Afortunadamente, Fooocus dispone de las herramientas para cambiar esta situación.

Ajuste de la intensidad de la imagen de aviso

Debajo de las imágenes de referencia, hay una pequeña casilla Advanced que permite activar las opciones avanzadas de configuración de la imagen de referencia
Debajo de cada imagen, ahora puede establecer dos parámetros: Stop At y Weight. Juntos, estos valores le permitirán ajustar la fuerza de influencia de su imagen de referencia y la forma en que determinará la imagen final
Weight representa el peso o la importancia de la imagen. Su valor por defecto es 0,6. Cuanto más alto se ajuste, más pesada será la imagen y más influirá en el resultado, como se muestra en las siguientes imágenes tomadas con la misma imagen de referencia
Weight 0,4
Weight 0,4
Weight 0,6
Weight 0,6
Weight 0,8
Weight 0,8
Weight 1
Weight 1
Weight 1,2
Weight 1,2
Weight 1,4
Weight 1,4
📌
Tenga en cuenta que aquí no hemos intentado influir en el resultado modificando la indicación de texto. Sin duda podríamos añadir palabras clave como "blanco y negro", "humo" o "tinta" para obtener un resultado más cercano a la imagen de referencia con menos Weight.
El otro parámetro cuyo valor puede modificar es Stop At. Corresponde al momento del proceso de generación en el que la imagen de referencia deja de utilizarse para guiar el resultado final. Este momento se expresa en centésimas: a 0,5 (valor por defecto), la imagen se utiliza para el primer 50% de la generación, es decir, la mitad de los pasos
Volvamos a la misma imagen y al mismo prompt, pero esta vez variando el Stop at mientras mantenemos Weight en 1 (un valor donde la influencia de nuestra imagen es claramente visible):
Stop At 0,3
Stop At 0,3
Stop At 0,5
Stop At 0,5
Stop At 0,7
Stop At 0,7
Stop At 0,9
Stop At 0,9
El interés de Stop at puede parecer menos obvio - pero este parámetro en realidad le permite variar el efecto de la imagen de aviso de una manera diferente al peso (weight).
Con un Stop at más bajo, el Image Prompt influirá principalmente en la composición general de la imagen (por ejemplo, la silueta general, la posición del rostro, las zonas claras y oscuras, etc). Un valor más alto reforzará la importancia de la imagen por los detalles, la textura o el color
Para que se haga una idea de lo que es posible, aquí tiene algunos ejemplos de generación con la imagen de aviso y otros ajustes.
notion image
notion image
notion image
notion image
notion image
notion image

Utilizar varias imágenes

Otro uso potente y sencillo de la imagen de aviso es utilizar varias imágenes para combinarlas.
Funciona incluso sin necesidad de añadir un aviso de texto: basta con añadir una imagen en las dos primeras casillas del aviso de imagen y ejecutar la generación para que Fooocus combine las dos imágenes.
Es muy eficaz, por ejemplo, para recrear la foto de un personaje en un entorno inspirado en otra imagen:
notion image
Por supuesto, puede añadir un sencillo prompt para controlar cómo se combinan las imágenes:
notion image
Y, por supuesto, esta técnica puede combinarse fácilmente con los ajustes Peso y Parar en, tal como se ha explicado para la generación con una sola imagen de referencia:
notion image

Aviso de imagen avanzado

Probablemente se habrá dado cuenta de que, además de ajustar los parámetros Weight y Stop at, al activar el modo Advanced también aparece una opción adicional debajo de las imágenes de referencia: ImagePrompt, PyraCanny, CPDS o FaceSwap
notion image
La primera opción, ImagePrompt, corresponde simplemente a la operación estándar que acabamos de ver. Las otras 3 opciones son otras formas de utilizar la imagen de referencia para dirigir o controlar la generación, cuyo funcionamiento vamos a ver ahora.

ControlNet en Fooocus

Aunque no se llaman modos PyraCanny o CPDS, corresponden a una implementación de ControlNet en Fooocus. Ambos son modelos de control:
PyraCanny
Este es un controlador que identifica contornos en la imagen usando un filtro piramidal Canny. Stable Diffusion XL y Fooocus trabajan con imágenes de 1024px y a esta resolución un filtro Canny estándar pierde fácilmente los detalles. El método piramidal utilizado por Fooocus combina varias detecciones Canny y luego las combina para captar las estructuras mejor que una detección estándar.
CPDS
Este controlador utiliza un algoritmo de reconocimiento de estructuras basado en el “Contrast Preserving Decolorization(CPD). Se trata de una modificación del reconocimiento de profundidad de imagen (Depth) que funciona de forma muy parecida, pero más rápida. Tenga en cuenta que, a pesar del nombre de la técnica, no «blanquea» la imagen final.
Ambos modos permiten controlar la posición de los caracteres en una imagen, así como su estructura y composición.
PyraCanny captará más fácilmente ciertos detalles finos y líneas claras de la imagen original, mientras CPDS se concentrará más en la composición general y en los distintos planos de la imagen
Dicho así, la utilidad y las diferencias entre estos dos modos pueden no parecer obvias, así que echa un vistazo a los siguientes ejemplos, generados a partir de la misma imagen de referencia, sólo cambiando el modo de imagen de consulta y dejando que Fooocus utilice su Weight y Stop at por defecto.
Imagen de referencia
Imagen de referencia
Modo ImagePrompt
Modo ImagePrompt
Modo PyraCanny
Modo PyraCanny
Modo CPDS
Modo CPDS
La imagen de referencia se generó con la frase "A princess praying in a Church". Para las otras 3 imágenes, la frase se cambió por "A princess praying on a balcony, amazing landscape".
Observe cómo en la imagen con la PyraCanny han seguido las líneas de las vidrieras y los bancos para crear elementos adicionales. Este efecto es menos visible con el modo CPDS; por otra parte, los detalles de los vestidos también se respetan mejor con la PyraCanny.
Probemos con otra imagen:
Imagen de referencia
Imagen de referencia
Modo ImagePrompt
Modo ImagePrompt
Modo PyraCanny
Modo PyraCanny
Modo CPDS
Modo CPDS
Aquí, la imagen de referencia se genera con el mensaje "Pirate ship in a sea storm", y luego el mensaje se cambia para las otras 3 imágenes a "Pirate ship flying in outer space, stars and galaxies".
Ajuste del efecto ControlNet
Los parámetros Weight y Stop a también funcionan con los modos ControlNet PyraCanny y CPDS
Al igual que en el modo estándar, el Peso determina la fuerza con la que se aplica la tensión de la imagen a la generación. Cuanto más alto sea, más similares serán las líneas y la composición de la imagen.
Tomemos como ejemplo este hombre con smoking, que vamos a utilizar con un prompt muy sencillo, "a man holding a beer", variando el Peso de imagen del prompt en PyraCanny
Imagen de referencia
Imagen de referencia
PyraCanny / Weight 0,3
PyraCanny / Weight 0,3
PyraCanny / Weight 0,5
PyraCanny / Weight 0,5
PyraCanny / Weight 0,7
PyraCanny / Weight 0,7
PyraCanny / Weight 0,9
PyraCanny / Weight 0,9
PyraCanny / Weight 1,1
PyraCanny / Weight 1,1
También podemos variar el Stop at para que la imagen de referencia se utilice durante más tiempo en la generación, lo que ayuda a mantener la restricción en los detalles añadidos más tarde en la generación. Volvamos a nuestro ejemplo con un Weight ligeramente aumentado a 0,7
PyraCanny / Stop at 0,3
PyraCanny / Stop at 0,3
PyraCanny / Stop at 0,5
PyraCanny / Stop at 0,5
PyraCanny / Stop at 0,7
PyraCanny / Stop at 0,7
PyraCanny / Stop at 0,9
PyraCanny / Stop at 0,9

Copiar caras con FaceSwap

El último modo, Faceswap es otra técnica diferente
En este caso, Fooocus utiliza un algoritmo de detección y copia de caras para orientar la generación de modo que reproduzca los rasgos de la persona en la imagen de referencia.
FaceSwap funciona con cualquier imagen que contenga una cara: no es necesario recortar la imagen para centrar o aislar la cara, Fooocus detectará la cara y la utilizará como referencia para generar la imagen
notion image
Los ajustes predeterminados (Stop at 0,9 y Weight 0,75) funcionarán en la mayoría de los casos y son un buen punto de partida. Por supuesto, puede variar estos ajustes para aumentar o disminuir el efecto. Tenga en cuenta que un Peso más alto forzará rápidamente la imagen a repetir la misma cara, desde el mismo ángulo y posición
Para obtener un mayor parecido, puede ser útil utilizar 2 imágenes de referencia de la misma persona, lo que proporciona al facewap más detalles para (re)componer un rostro en la nueva imagen, o permite combinar diferentes aspectos de un mismo personaje.
notion image
FaceSwap tenderá a reproducir no sólo la cara sino también el peinado de tu imagen de referencia, así que recuerda adaptar la indicación de texto si quieres forzar un poco más la variedad y cambiar el color o el estilo del pelo
notion image

Combinar diferentes imágenes

No sólo puedes utilizar varias imágenes en Image Prompt, sino que también puedes combinar distintos modos al mismo tiempo.
Por ejemplo, es muy fácil combinar un modelo de control y FaceSwap para recrear una foto de un personaje en una determinada pose o situación
notion image
Ahora ya sabes cómo integrar imágenes de referencia para influir significativamente en el estilo, la composición y los colores de tus creaciones gracias al indicador de imágenes Fooocus.
tienes que hacer es probar por ti mismo estas diferentes técnicas y experimentar variando los parámetros y combinando Images Prompts con prompts personalizados y variosEstilos para adquirir tu propia experiencia y dominar la generación con Fooocus
 

Pague una vez para acceder de por vida a la generación de imágenes con Stable Diffusion y Diffus

🔥 Lifetime Deal con -60% 🔥

Aproveche la oferta

Written by