Un poco más de un mes después de lanzar su avanzado modelo de texto a imagen, Ideogram ha presentado una actualización que introduce varias características nuevas, incluyendo referencias basadas en descripciones y prompting negativo. Estas mejoras, disponibles en la plataforma web de Ideogram, buscan ofrecer a los usuarios un mayor control sobre la creación de imágenes, al mismo tiempo que mejoran la calidad y coherencia de los resultados. Esta actualización representa un paso significativo para competir con rivales consolidados en el campo de la generación de imágenes, como Midjourney y DALL-E.
¿Qué hay de nuevo en Ideogram?
Con el lanzamiento inicial de la versión 1.0 en febrero, los usuarios tuvieron acceso a una función de "magic prompt" que enriquecía su entrada. Construyendo sobre esta base, Ideogram ha introducido una nueva capacidad llamada Describe, que genera subtítulos a partir de imágenes de referencia. Los usuarios pueden subir una imagen pública generada por Ideogram o una propia, lo que incita a la IA a producir una descripción textual que luego puede refinirse para crear una imagen similar adaptada a necesidades específicas.
Además, Ideogram implementa el prompting negativo, permitiendo a los usuarios indicar lo que no quieren en sus resultados. Esta función ayuda a eliminar ciertos objetos o estilos de la generación final. Asimismo, los usuarios pueden elegir entre los modos Rápido, Predeterminado o de Calidad para la generación de salidas. El modo Rápido produce imágenes básicas en aproximadamente cinco segundos, mientras que el modo de Calidad se centra en el fotorealismo en unos veinte segundos. El modo Predeterminado encuentra un equilibrio, generando imágenes en unos doce segundos.
Si bien aún no se ha visto la adopción de estos modos por parte de los usuarios, Ideogram fomenta su uso para generar rápidamente una imagen básica y luego perfeccionarla para obtener resultados de mayor calidad.
Mejoras en Fotorealismo y Renderizado de Texto
Ideogram también está mejorando las capacidades de renderizado de texto, presumiblemente con una reducción del 15% en las tasas de error. Aunque este cambio puede parecer modesto, la empresa afirma que supera a DALL-3 Vivid en la generación de caracteres y palabras. Aunque no se han compartido estadísticas que comparen el modelo actualizado con Midjourney, Ideogram sostiene que la última versión ofrece mejor coherencia de imagen y fotorealismo, con evaluadores humanos prefiriéndola entre un 30% y un 50% más que su predecesora en alineación de prompts, coherencia de imagen y calidad de renderizado de texto. Desde el lanzamiento de la beta pública el año pasado, Ideogram ha atraído a más de siete millones de creadores.
Actualmente, el prompting negativo y los modos de velocidad son exclusivos para los usuarios en los planes Básico y Plus de Ideogram. La disponibilidad de la función de subtitulación de imágenes de referencia aún no está clara, aunque podría ser gratuita, similar a la función Remix. Las mejoras en la coherencia de texto e imagen son accesibles para todos los usuarios.