视觉 Token 不错与 LLMs 词表无缝对都了!推特 拳交
V ² Flow,基于 LLMs 不错阻隔高保真自回来图像生成。
跟着 ChatGPT 掀翻自回来建模改换后,连年来商议者们出手探索自回来建模在视觉生成任务的应用,将视觉和文本数据长入在" next-token prediction "框架下。
性爱大师阻隔自回来图像生成的关键是设想向量化 ( Vector-Quantization ) 的视觉 Tokenizer,将视觉内容毁坏化成一样于大言语模子词表的毁坏 Token。
现存关键虽取得弘扬,却永恒面对两大镣铐:
1、传统视觉 tokenizer 生成的毁坏表征与 LLM 词表存在显赫的漫衍偏差。
2、维度哀悼:图像的二维结构迫使大言语模子以逐行形状展望视觉 token,与一维文本的连贯语义展望存在实质冲突。
结构性与特征漫衍性的双重割裂,自满了刻下自回来视觉生成的重要颓势:穷乏概况既保证高保真图像重建,又能与预熟习 LLMs 词汇表在结构上和特征漫衍上长入的视觉 tokenizer。处分这一问题关于阻隔存效的多模态自回来建模和增强的指示罢免智商至关热切。
因此,一个中枢问题是:
能否设想一种视觉 tokenizer,使生成的毁坏视觉 token 在保证高质料视觉重建的同期,与预熟习 LLMs 词汇表阻隔无缝和会?
长入视觉 Token 与大言语模子词表
最新开源的 V ² Flow tokenizer,初次阻隔了将视觉内容径直镶嵌现存大言语模子的词汇空间,在保证高质料视觉重建的同期从压根上处分模态对都问题。总体而言,V ² Flow 主要包括三点中枢孝敬:
视觉词汇重采样器。
如图 1 ( a ) ,将图像压缩成紧凑的一维毁坏 token 序列,每个 token 被表露为大言语模子(举例 Qwen、LLaMA 系列)词汇空间上的软类别漫衍。这一设想使得视觉 tokens 不错无缝地镶嵌现存 LLM 的词汇序列中。换言之,图像信息被径直翻译成 LLM "听得懂"的言语,阻隔了视觉与言语模态的对都。
在图 1 ( b ) 中,经由重采样器处理后,视觉 tokens 的潜在漫衍与大型言语模子(LLM)的词汇表高度一致。这种在结构和潜在漫衍上的高度兼容性,概况镌汰视觉 tokens 径直融入已有 LLM 的复杂性。
△ 图 1 视觉词汇重采样器的中枢设想。
掩码自回来流匹配编码器。
为了阻隔毁坏化视觉 token 的高保真视觉重建,V ² Flow 建议了掩码自回来流匹配解码器。该解码器遴荐掩码 Transformer 编码 - 解码结构,为视觉 tokens 补充丰富的落魄文信息。增强后的视觉 tokens 用于要求化一个特意设想的速率场模子,从法式正态先验漫衍中重建出连气儿的视觉特征。在流匹配采样阶段,该解码器遴荐一样 MA 的形状,以" next-set prediction "的形状渐渐完成视觉重建。
比较于近期建议的仅依赖掩码编码器 - 解码器结构的 TiTok,V2Flow 自回来采样的上风是概况在更少的视觉 token 数目下阻隔更高的重建质料,灵验提升了压缩后果。
△ 图 2 掩码自回来流匹配解码器默示图以及采样阶段算法过程
端到端自回来视觉生成。
图 3 展示了 V ² Flow 协同 LLMs 阻隔自回来视觉生成的过程。为促进两者无缝和会,在已有 LLM 词汇表基础上推广了一系列特定视觉 tokens,并径直专揽 V ² Flow 中的码本进走时行化。熟习阶段构建了包含文本 - 图像对的单轮对话数据,文本领导算作输入指示,而毁坏的视觉 tokens 则算作展望诡计反馈。
在推理阶段,经过预熟习的 LLM 字据文本指示展望视觉 tokens,直至展望到 token 为止。随后,毁坏视觉 tokens 被送入 V ² Flow 解码器,通过流匹配采样重建出高质料图像。
△ 图 3 V ² Flow 与预熟习 LLMs 和会阻隔自回来视觉生成的举座过程。推行物化
重建质料方面,V ² Flow 不管是在 ImageNet-1k 测试数据集的 256 和 512 分手率下均取得了竞争性的重建性能。
比较于字节建议的一维毁坏化 tokenizer TiTok 比较,V ² Flow 专揽更少的毁坏 tokens 阻隔了更高质料的图像重建,显赫提升了举座压缩后果。
文本带领图像生成方面,推行物化标明,比较于刻下两种开始进的自回来生成模子 Janus-Pro-7B 和 Lumina-mGPT-7B,V ² Flow+LLaMA2-7B 概况愈加准确地捕捉文本领导中的语义细节,展示了极具竞争力的生成性能。
开源生态与团队招募:共建多模态翌日
开源愉快:让时期普惠每一位探索者
开源是鼓动 AI 时期进化的中枢能源。本次发布的 V ² Flow 框架已圆善公开熟习与推理代码库,成就者可基于现存代码快速复现论文中的中枢推行。更令东说念主期待的是,团队预报将于近期延续发布:
512/1024 分手率预熟习模子:撑捏高清图像重建与生成
自回来生成模子:集成 LLaMA 等主流大言语模子的开箱即用有诡计
多模态推广器用包:翌日将撑捏视频、3D、语音等跨模态生成任务
加入咱们:共创下一代多模态智能
V ² Flow 作家团队现招募多模态生成算法商议型实习生!要是你渴慕站在 AI 内容生成的最前沿,参与界说自回来架构的翌日,这里将是你阻隔毁坏的绝佳舞台。
咱们作念什么?
探索文本、图像、视频、语音、音乐的长入自回来生成范式
构建撑捏高清、长序列、强语义关联的多模态大模子
攻克数字东说念主、3D 生成、实时交互创作等产业级应用萧条
咱们需要你具备:
硬核时期力
耀眼 Python,熟练使用 PyTorch/TensorFlow 等框架
潜入和会 Diffusers、DeepSpeed 等 AIGC 器用链
在 CV/NLP 限制顶级会议(CVPR、ICML、NeurIPS 等)发表论文者优先
极致创新欲
对多模态生成、自回来架构、扩散模子等时期有浓厚兴味
曾在 Kaggle、ACM 竞赛等赢得 Top 排名者优先
有开源款式孝敬或孤苦成就教授者优先
送达形状:zhangguiwei@duxiaoman.com
论文合资:
https://arxiv.org/abs/2503.07493
开源款式合资:
https://github.com/Davinci-XLab/V2Flow
一键三连「点赞」「转发」「谨防心」
接待在驳倒区留住你的思法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 款式主页合资,以及料想形状哦
咱们会(尽量)实时回话你
� � 点亮星标 � �
科技前沿弘扬逐日见推特 拳交