parte
parte
Introducción
Presentamos el modelo de texto a imagen autorregresivo Pathways (Parti), un modelo de generación de texto a imagen autorregresivo que logra la generación de imágenes fotorrealistas de alta fidelidad y admite una síntesis rica en contenido que involucra composiciones complejas y conocimiento del mundo. Los avances recientes con modelos de difusión para la generación de texto a imagen, como Imagen de Google, también han demostrado capacidades impresionantes y un rendimiento de vanguardia en los puntos de referencia de investigación. Parti e Imagen se complementan en la exploración de dos familias diferentes de modelos generativos, autorregresivos y de difusión, respectivamente, lo que abre interesantes oportunidades para las combinaciones de estos dos poderosos modelos.
Parti trata la generación de texto a imagen como un problema de modelado de secuencia a secuencia, análogo a la traducción automática; esto le permite beneficiarse de los avances en modelos de lenguajes grandes, especialmente las capacidades que se desbloquean al escalar datos y tamaños de modelos. En este caso, los resultados de destino son secuencias de tokens de imagen en lugar de tokens de texto en otro idioma. Parti utiliza el potente tokenizador de imágenes, ViT-VQGAN, para codificar imágenes como secuencias de tokens discretos y aprovecha su capacidad para reconstruir tales secuencias de tokens de imágenes como imágenes visualmente diversas de alta calidad.
Observamos los siguientes resultados:
- Mejoras de calidad consistentes al escalar el codificador-decodificador de Parti hasta 20 mil millones de parámetros.
- Puntuación FID de disparo cero de última generación de 7,23 y puntuación FID ajustada de 3,22 en MS-COCO.
- Eficacia en una amplia variedad de categorías y aspectos de dificultad en nuestro análisis de Narrativas localizadas y PartiPrompts, nuestro nuevo punto de referencia holístico de más de 1600 indicaciones en inglés que lanzamos como parte de este trabajo.
Punto de referencia PartiPrompts
PartiPrompts (P2) es un amplio conjunto de más de 1600 indicaciones en inglés que lanzamos como parte de este trabajo. P2 se puede utilizar para medir las capacidades del modelo en varias categorías y aspectos de desafío.
Las indicaciones de P2 pueden ser simples, lo que nos permite medir el progreso de la escala. También pueden ser complejos, como la siguiente descripción de 67 palabras que creamos para la obra de Vincent van Gogh. La noche estrellada (1889):
Pintura al óleo sobre lienzo de un cielo nocturno azul con energía turbulenta. Una luna creciente amarilla difusa y brillante brillando en la parte superior. Debajo de las estrellas amarillas que estallan y los remolinos azules radiantes, un pueblo distante se encuentra en silencio a la derecha. Conectando la tierra y el cielo hay un ciprés con forma de llama con ramas rizadas y oscilantes a la izquierda. La torre de una iglesia se eleva como un faro sobre las ondulantes colinas azules.
Agradecimientos
Parti es una colaboración que abarca a los autores de varios equipos de investigación de Google:
Jiahui-yu*Yuan Zhong Xu†Jing Yu Koh†Thang Luong†Gunjan Baid†Zirui Wang†Vijay Vasudvan†Alejandro Ku†Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge†Yonghui Wu*
*Contribución igual †Contribución básica
Nos gustaría agradecer a Elizabeth Adkison, Fred Alcober, Tania Bedrax-Weiss, Krishna Bharat, Nicole Brichtova, Yuan Cao, William Chan, Zhifeng Chen, Eli Collins, Claire Cui, Andrew Dai, Jeff Dean, Emily Denton, Toju Duke, Dumitru Erhan, Brian Gabriel, Zoubin Ghahramani, Jonathan Ho, Michael Jones, Sarah Laszlo, Quoc Le, Lala Li, Zhen Li, Sara Mahdavi, Kathy Meier-Hellstern, Kevin Murphy, Paul Natsev, Paul Nicholas, Mohammad Norouzi, Ruoming Pang, Niki Parmar, Fernando Pereira, Slav Petrov, Vinodkumar Prabhakaran, Utsav Prabhu, Evan Rapoport, Keran Rong, Negar Rostamzadeh, Chitwan Saharia, Gia Soles, Austin Tarango, Ashish Vaswani, Tao Wang, Tris Warkentin, Austin Waters y Ben Zevenbergen por sus útiles debates y orientación, Peter Anderson, Corinna Cortes, Tom Duerig, Douglas Eck, David Ha, Radu Soricut y Rahul Sukthankar por la revisión y los comentarios del artículo, Erica Moreira y Victor Gomes por su ayuda con la coordinación de recursos, Tom Small por diseñar la marca de agua Parti, Google ML Data oper equipo de ations por recopilar evaluaciones humanas sobre nuestras imágenes generadas y otros en el equipo de Google Brain y el equipo de investigación de Google por su apoyo a lo largo de este proyecto.
También nos gustaría agradecer en particular al equipo de Imagen, especialmente a Mohammad Norouzi, Chitwan Saharia, Jonathan Ho y William Chan, por compartir sus resultados casi completos antes de lanzar Imagen; sus hallazgos sobre la importancia de la orientación de CF fueron particularmente útiles para el modelo final de Parti. También agradecemos al equipo de Make-a-Scene, especialmente a Oran Gafni, por la útil discusión sobre la implementación de la guía CF en modelos autorregresivos. Agradecemos a los autores de DALL-E 2, especialmente a Aditya Ramesh, por su útil debate sobre la evaluación de MS-COCO. También agradecemos a los autores de DALL-Eval, especialmente a Jaemin Cho, por ayudarnos a reproducir sus números.
Nota
Este no es un producto de Google con soporte oficial.