Preparar el entrenamiento de un LoRA

Cómo configurar el dataset de entrenamiento par un LoRA Flux

Preparar el entrenamiento de un LoRA
Do not index
Do not index
canonical-url
Publish
Publish
 

El arte de preparar su Dataset

Los LoRA ofrecen un enfoque inteligente y eficaz para personalizar el modelo Flux[dev] sin tener que volver a entrenarlo por completo.
Esta técnica permite adaptar el modelo a conceptos, personas o estilos específicos, manteniendo al mismo tiempo una huella ligera en términos de cálculo y almacenamiento.
Entrenar un LoRA también es relativamente fácil e incluso puede hacerse en línea, como se explica en nuestro LoRA Flux Training Tutorial.
Pero la clave de un LoRA eficaz reside en la calidad de su dataset de entrenamiento. Las imágenes que elija y prepare influirán directamente en el rendimiento y la versatilidad de su LoRA.
En este artículo veremos cómo crear un conjunto de datos óptimo. Veremos aspectos esenciales como la cantidad de imágenes necesarias, la importancia de la diversidad y la calidad, y la creación de captions, las descripciones de las imágenes que ayudan a la IA a comprender mejor lo que quieres enseñarle.

Selección de imágenes

El primer paso para crear su conjunto de datos es seleccionar las imágenes que se utilizarán como datos de entrenamiento.

Reglas de oro para seleccionar las imágenes

La cantidad ideal: ni mucha ni poca

La primera regla para seleccionar las imágenes de entrenamiento es tener la cantidad ideal (suficiente pero no demasiada). Se necesitan suficientes imágenes para que el modelo aprenda el concepto en toda su diversidad. Pero si tiene demasiadas, corre el riesgo de sobrecargar el LoRA con información (y aumentar el tiempo de entrenamiento).
El objetivo de un LoRA de personas o personajes es de entre 15 y 20 imágenes, y posiblemente algunas más para poses o estilos. Algunos usuarios han sido capaces de crear un LoRA de personas con sólo 14 imágenes, pero creo que es mejor utilizar más.

Diversidad: la clave para un LoRA versátil

La segunda regla, que complementa a la primera, es construir sobre la diversidad.
La variedad es la clave de un modelo versátil. Aquí tienes tres consejos para diversificar tu conjunto de imágenes:
  • Cambia de escenario: muestra a tu sujeto en distintos entornos. Un retrato en interior, en exterior, en la ciudad, en la naturaleza... Tu LoRA aprenderá a adaptarse a cualquier contexto.
  • Juega con las poses: Si trabajas con personas u objetos, varía los ángulos y las posiciones. De frente, de perfil, en movimiento... Esto ayudará a tu LoRA a comprender la estructura tridimensional de lo que tiene que representar.
  • Experimenta con la luz: un mismo sujeto puede tener un aspecto muy diferente según la iluminación. Incluya imágenes tomadas a pleno sol, a la sombra, con luz artificial... De este modo, tu LoRA aprenderá a manejar las sombras, los reflejos y las condiciones de iluminación.
Para una LoRA de una persona, intenta conseguir una buena mitad de retratos para que pueda captar bien los rasgos faciales y los detalles. Complétalo con 1/4 de plano general de la cara y 1/4 de planos variados con perfiles y otros ángulos de visión.

Calidad: excelencia antes que cantidad

Otro criterio importante a la hora de elegir tus imágenes es la calidad. Tus imágenes no tienen por qué ser necesariamente de alta definición (las imágenes de 512x512 suelen dar tan buenos resultados como las de mayor tamaño), pero sí tienen que ser de alta calidad. A menos que esto forme parte del estilo que quieres conseguir con tu LoRA, evita las imágenes borrosas o dañadas.
Ten en cuenta que una sola imagen de baja calidad puede repercutir negativamente en los resultados del entrenamiento. A menos que realmente te falten varias imágenes, es mejor tener una menos que una más de mala calidad.

Precisión: evitar la confusión

Por último, la cuarta regla es utilizar imágenes que ilustren con precisión lo que quieres conseguir. No utilices imágenes que puedan crear confusión al mezclar tu concepto con otro.
Para un personaje, intenta tener sólo fotos en las que él o ella sea el sujeto principal y en las que su rostro sea la única cara visible.
Para objetos o criaturas, asegúrate de que tu objeto es el sujeto principal de la imagen y es claramente reconocible.
Siguiendo estas 4 reglas (cantidad, diversidad, calidad y ausencia de confusión) darás a tu LoRA los medios para generar imágenes variadas y realistas.

Ejemplo

Para mi LoRA Groquik, he recopilado 20 imágenes del personaje encontradas en Internet. Algunas de las imágenes fueron recortadas para mantener el foco en Groquik y evitar largos textos publicitarios.
notion image
Nombres y formatos de archivo
Aunque no se trata de una regla absoluta y algunas herramientas reconocen otros formatos, recomendamos utilizar imágenes en formato PNG o JPGEG con un nombre único seguido de un número.
Esta convención de nomenclatura también es útil para asociar descripciones a las imágenes, como se explica a continuación.

Describir las imágenes

Este paso no es necesariamente obligatorio, pero puede mejorar mucho la calidad de su LoRA.

¿Por qué escribir descripciones?

También conocidas como captions, estas descripciones son un poco como indicaciones inversas: durante el entrenamiento, se utilizarán para describir la imagen al modelo y ayudarle a identificar lo que, en la imagen, corresponde a su concepto (y por lo tanto lo que no).
Para cada una de sus imágenes, escriba una leyenda (en inglés) que describa lo que está presente en la imagen y no forma parte de lo que el LoRA tiene que aprender.
Por ejemplo, para un LoRA de una persona que siempre lleva barba y gafas, éstas deben omitirse en las descripciones. En cambio, si a veces lleva gafas y a veces no, sería mejor incluirlas en la descripción. La LoRA podrá entonces generar retratos con o sin gafas, en función de si están presentes o no en la descripción.
Tus captions también te permiten elegir una o más Trigger words. Estas son las palabras clave que se pueden utilizar en el prompt para indicar el concepto o personaje de la LoRA.

¿Cómo escribo las descripciones?

Describir una veintena de imágenes en inglés puede convertirse rápidamente en una tarea tediosa, sobre todo si se trata de escribir descripciones largas y exhaustivas que abarquen todos los detalles de la imagen.
🇪🇸
Como suele ocurrir, el inglés es el idioma recomendado para escribir los pies de foto. Si no dominas el inglés, una buena solución es escribir en español y utilizar después una herramienta de traducción automática como Deepl.
Una buena solución para simplificar el trabajo es utilizar herramientas de IA para analizar y describir imágenes (lo que a veces se denominaImaage to Prompt). Hay varias herramientas de este tipo disponibles en Internet, pero yo recomiendo especialmente JoyCaption, que está disponible gratuitamente en HuggingFace.
No obstante, recuerda comprobar las descripciones y corregirlas. En primer lugar, porque a veces la IA alucina y describe cosas que no están realmente en la imagen. En segundo lugar porque, como hemos explicado antes, también tienes que eliminar de tus descripciones los elementos que forman parte de lo que quieres que tu LoRA aprenda.
Además de describir la imagen, también es útil empezar tus descripciones con una palabra clave que sirva para identificar el personaje o concepto de tu LoRA y funcione como trigger word.
Un formato eficaz para sus descripciones es seguir esta palabra clave con una descripción detallada de la imagen, como la que se obtiene con JoyCaption.

¿Es realmente necesario utilizar descripciones?

El uso de descripciones no es absolutamente necesario y todavía es posible entrenar un LoRA que funcione sin utilizar ninguna descripción en absoluto. Algunos diseñadores también consiguen muy buenos resultados utilizando sólo una palabra clave trigger word para describir todas sus imágenes.
Sin embargo, las pruebas realizadas y compartidas por mnemic en Civitai muestran que la combinación de palabra clave + descripción larga produce LoRAS que combinan eficacia y flexibilidad. A veces necesitarán indicaciones más largas para activarse correctamente, pero a menudo son capaces de realizar más variaciones (estilo, ropa de las personas, etc.).

Ejemplo

Para el Groquik LoRA, he utilizado JoyCaption para obtener una descripción larga de mis imágenes.
 
A continuación, he reelaborado estas descripciones para eliminar los elementos de descripción del personaje (barriga grande, color, antena/oído, etc.) y añadir la palabra clave «Un personaje groquik». El resultado final es la siguiente descripción:
A Groquick character. The image is a digital cartoon drawing of a Groquick. The character has a smooth, continuous appearance. It stands upright on two large, round feet. The character is wearing a white, flat-topped hat with a red band around the middle. It is smiling. One hand is raised in a waving gesture, with the fingers slightly spread apart. The background of the image is plain white, which makes the character stand out vividly. The drawing style is clean and bold, typical of classic cartoon animation, with solid, bright colors and simple, exaggerated lines that emphasize the character's round, smooth shape. There are no additional objects or elements in the background, ensuring the character remains the focal point of the image.
Combinar imagen y descripción
Con la mayoría de las herramientas de formación LoRA, la descripción se añade creando un archivo .txt del mismo nombre para cada imagen, que contiene su descripción.
notion image

¡Embárquese en la aventura LoRA!

En última instancia, la creación de un conjunto de datos de calidad para su LoRA es un acto de equilibrio que requiere creatividad y experiencia. Pero ahora tiene las claves para seleccionar y preparar sus imágenes con eficacia:
  1. Busque la cantidad ideal: entre 15 y 20 imágenes para un buen equilibrio.
  1. Busca la diversidad para conseguir un LoRA versátil.
  1. Concéntrese en la calidad de la imagen más que en la cantidad.
  1. Asegúrese de que sus imágenes ilustran con precisión su concepto.
  1. Utilice descripciones pertinentes (títulos) para mejorar el aprendizaje.
Al igual que con la redacción de avisos y la generación de imágenes, la práctica es esencial para dominar el arte de la formación LoRA. Así pues, no dude en experimentar con distintos enfoques y ajustar su método en función de los resultados que obtenga. Cada LoRA que cree le permitirá perfeccionar su técnica.
Ahora que dispone de toda la información necesaria, sólo tiene que empezar a preparar su conjunto de datos. Tanto si desea crear un LoRA de personaje, de estilo artístico o de concepto, estos principios le guiarán hacia la creación de un modelo flexible y de alto rendimiento.
No dudes en compartir tus experiencias y creaciones. Tus comentarios y éxitos pueden inspirar a otros diseñadores y contribuir a la evolución de esta apasionante tecnología.

Pague una vez para acceder de por vida a la generación de imágenes con Stable Diffusion y Diffus

🔥 Lifetime Deal con -60% 🔥

Aproveche la oferta

Written by