El miércoles, OpenAI Anunciar DALL-E 3, la última versión del modelo de síntesis de imágenes de IA que presenta integración total con ChatGPT. DALL-E 3 muestra imágenes siguiendo de cerca descripciones complejas y manejando la creación de texto dentro de la imagen (como etiquetas y rótulos), lo cual es un desafío para los modelos anteriores. Actualmente en fase preliminar de investigación, estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre.
Al igual que su predecesor, DALLE-3 es un generador de texto a imagen que crea nuevas imágenes basadas en descripciones escritas llamadas indicaciones. Aunque OpenAI no ha publicado ningún detalle técnico sobre DALL-E 3, el modelo de IA en el corazón de versiones anteriores de DALL-E se entrenó en millones de imágenes creadas por artistas y fotógrafos humanos, algunas de las cuales tienen licencia de archivo. Sitios como Shutterstock. Es probable que DALL-E 3 siga la misma fórmula, pero con nuevas técnicas de entrenamiento y un tiempo de entrenamiento computacional más prolongado.
A juzgar por los ejemplos proporcionados por OpenAI en su blog promocional, DALL-E 3 parece ser un modelo de fotomontaje radicalmente más capaz que cualquier otro disponible en términos de seguimiento de indicaciones. Si bien los ejemplos de OpenAI han sido cuidadosamente elegidos por su efectividad, parecen seguir fiel y convincentemente instrucciones rápidas para representar objetos con distorsiones mínimas. En comparación con DALL-E 2, OpenAI dice que DALL-E 3 optimiza pequeños detalles como las manos de manera más efectiva, creando imágenes virtualmente atractivas sin la necesidad de piratería o ingeniería rápida.
-
Imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Ilustración de un aguacate sentado en la silla de un terapeuta diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un agujero en el medio. Terapeuta, cuchara, garabatos notas».
Abierto AI
-
Imagen de DALL-E 3 proporcionada por OpenAI con el reclamo: «Un vasto paisaje hecho enteramente de diferentes carnes se extiende frente al espectador. Delgadas y jugosas colinas de rosbif, árboles de muslos de pollo, ríos de tocino y rocas de cerdo». Crea una escena surrealista”, pero la vista es apetitosa. El cielo está decorado con sol de pepperoni y nubes de salami”.
Abierto AI
-
Imagen de DALL-E 3 proporcionada por OpenAI con el siguiente mensaje: «Miniatura de una cafetería decorada con plantas de interior. Vigas de madera se entrecruzan arriba, resaltando una estación de bebidas frías con pequeñas botellas y tazas».
Abierto AI
-
Imagen DALL-E 3 proporcionada por OpenAI con el reclamo: «Un primer plano de un cangrejo ermitaño enclavado en arena húmeda, con espuma de mar cerca y resaltando detalles de su caparazón y textura de arena».
Abierto AI
-
Imagen de DALL-E 3 proporcionada por OpenAI con el siguiente reclamo: «La artesanía en papel muestra a una niña dándole un suave abrazo a su gato. Ambos se sientan entre macetas, con el gato ronroneando contento mientras la niña sonríe. La escena está decorada con papel hecho a mano. flores y hojas.»
Abierto AI
-
Imagen DALL-E 3 proporcionada por OpenAI con el reclamo: «Una vista en pixel art de la Torre Coit erguida en Telegraph Hill, con una vista panorámica de la ciudad debajo y pájaros volando alrededor».
Abierto AI
-
Imagen de DALL-E 3 proporcionada por OpenAI con el reclamo: «Los pequeños reyes de las papas usan coronas majestuosas, se sientan en tronos y supervisan un vasto reino de las papas lleno de temas y castillos de papas».
Abierto AI
-
Imagen DALL-E 3 proporcionada por OpenAI con el reclamo: «Ilustración de un corazón humano hecho de vidrio transparente, parado sobre un pedestal en medio de un mar tormentoso. La luz del sol atraviesa las nubes, iluminando el corazón y revelando un pequeño universo en su interior. «. «La cita ‘Encuentra el universo dentro de ti’ está grabada en letras negritas en el horizonte».
Abierto AI
-
Imagen de DALL-E 3 proporcionada por OpenAI con el reclamo: «Mujer de mediana edad de ascendencia asiática, su cabello oscuro con mechones plateados, roto y agrietado, intrincadamente incrustado dentro de un mar de porcelana rota. La porcelana brilla con pintura salpicada. Patrones en una armoniosa mezcla de azul «Brillante y mate, verde, naranja y rojo, su danza se captura en una yuxtaposición surrealista de movimiento y quietud. Su tono de piel, un tono de porcelana claro, añade una cualidad casi mística a su forma».
Abierto AI
En comparación, Midjourney, un modelo de síntesis de imágenes de IA de otro proveedor, muestra bien los detalles realistas, pero aún requiere una cantidad significativa de retoques poco intuitivos con indicaciones para obtener control sobre la salida de la imagen.
El DALL-E 3 también parece manejar texto dentro de imágenes de una manera que sus predecesores no podían (algunos modelos de la competencia como Stable Diffusion XL y Floyd profundo Mejoran en eso.) Por ejemplo, se creó perfectamente una caricatura de aguacate con la cita del personaje, un mensaje que incluía las palabras: «Ilustración de un aguacate sentado en la silla de un terapeuta diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un cráter en el medio. » Encapsulado en un bocadillo.
En particular, OpenAI dice que DALL-E 3 se ha «construido de forma nativa» en ChatGPT y llegará como una característica integrada de ChatGPT Plus, lo que permitirá mejoras conversacionales en las imágenes de una manera que utiliza el asistente de IA como socio de lluvia de ideas. Esto también significa que ChatGPT podrá generar imágenes basadas en el contexto de la conversación actual, lo que podría conducir a nuevas capacidades. El asistente Bing Chat AI de Microsoft, también basado en tecnología OpenAI, ha podido crear imágenes en el chat desde marzo.
La tetera que creó la tormenta
Abierto AI
La versión original de DALL-E. apareció en enero de 2021, y OpenAI lanzó su secuela dramáticamente más capaz en abril de 2022, iniciando una nueva era de imágenes generadas por IA con una fanfarria tan asombrosa que cautivó a sus probadores beta cerrados iniciales. Los modelos DALL-E utilizan una tecnología llamada Propagación latente Eso refina el ruido en imágenes que «reconoce» a partir del conocimiento que obtiene del entrenamiento en el conjunto de datos y la guía del vector. La misma tecnología permitió que surgiera el modelo de peso abierto Stable Diffusion en agosto del año pasado.
Dado que DALL-E aprende conceptos sobre imágenes durante el entrenamiento extrayendo un conjunto de datos masivo de obras de arte generadas por humanos, la tecnología de generación de imágenes de IA ha sido muy controvertida desde su introducción el año pasado. La tecnología ha provocado protestas de artistas que temen que reemplace o replique de manera poco ética sus métodos, demandas por infracción de derechos de autor basadas en imágenes robadas utilizadas como datos de entrenamiento sin consultar a los titulares de derechos de autor, y nuevas resoluciones de derechos de autor de la Oficina de Derechos de Autor. . Juez del Tribunal de Distrito.
Como un guiño a estas controversias, OpenAI dice que DALL-E 3 está diseñado para rechazar solicitudes que soliciten una imagen al estilo de un artista en vivo. OpenAI también Proporciona un modelo Los creadores pueden optar por no utilizar sus imágenes para entrenar futuros modelos. Parece poco probable que estas medidas satisfagan a los artistas que normalmente creen que el entrenamiento en IA debería ser solo opcional en lugar de incluirse en los conjuntos de datos de imágenes de forma predeterminada.
Abierto AI
Actualmente, la política de derechos de autor de EE. UU. establece que sólo las obras de arte creadas por IA no pueden recibir protección de derechos de autor, por lo que técnicamente cualquier imagen creada con DALL-E 3 pasaría a ser de dominio público. Aunque OpenAI no lo reconoce explícitamente, sí dice que «las imágenes que cree con DALL-E 3 son suyas y no necesitan nuestro permiso para reimprimirlas, venderlas o comercializarlas». Este es un cambio marcado con respecto al año pasado cuando OpenAI Uso restringido de la imagen DALE-2 Basado en una licencia que establece que OpenAI “es dueño de todas las generaciones”.
En términos de seguridad, OpenAI dice que, al igual que DALL-E 2, ha implementado filtros de detección de imágenes y palabras clave en DALL-E 3 para limitar su capacidad de producir contenido violento, sexual u odioso. El sistema también está programado para rechazar solicitudes que generan fotografías de figuras públicas por su nombre, lo que causó problemas con el generador de fotografías rival Midjourney, impulsado por inteligencia artificial, cuando creó fotografías falsas del arresto de Donald Trump.
OpenAI dice que trabajó con expertos conocidos como el “Equipo Rojo” para identificar y mitigar riesgos potenciales, como sesgos dañinos o generar propaganda y desinformación. OpenAI no ha ofrecido ninguna palabra sobre el potencial de su herramienta para hacer esto. Doblar el récord histórico Sin embargo, con insultos apenas disimulados, dice que está experimentando con una herramienta de «clasificador de fuente» que podría ayudar a determinar si una imagen fue creada por DALL-E 3 o no.
Por el momento, todavía no tenemos acceso a DALL-E 3 para probarlo, pero OpenAI dice que el generador de imágenes de IA se está sometiendo a pruebas cerradas. Planea ponerlo a disposición de los clientes de ChatGPT Plus y Enterprise «en octubre a través de API y en Labs a finales de este otoño».
«Explorador amigable con los hipster. Fanático del café galardonado. Analista. Solucionador de problemas. Alborotador».
More Stories
Microsoft dice que Call of Duty: Black Ops 6 establece un récord en la cantidad de “adiciones de suscriptores de Game Pass el día del lanzamiento”.
Las descargas de Call of Duty: Black Ops 6 maximizan su uso de Internet
Nada hace que el teléfono brille en la oscuridad