买球·(中国大陆)APP官方网站

栏目分类

新闻动态你的位置：买球·(中国大陆)APP官方网站 > 新闻动态 > 买球·(中国大陆)APP官方网站作家以＂文生图＂为任务场景-买球·(中国大陆)APP官方网站

买球·(中国大陆)APP官方网站作家以＂文生图＂为任务场景-买球·(中国大陆)APP官方网站

发布日期：2025-02-28 04:25 点击次数：62

买球·(中国大陆)APP官方网站作家以＂文生图＂为任务场景-买球·(中国大陆)APP官方网站

图像生成模子买球·(中国大陆)APP官方网站，也用上想维链（CoT）了！

来自港汉文、北大和上海 AI Lab 的询查团队，将 CoT 与生成模子衔尾到了整个。

实验成果标明，他们的这种门径能灵验提高自记忆图像生成的质地，以致杰出扩散模子。

此外，作家还建议了两种疏淡针对该任务的新式奖励模子——后劲评估奖励模子（Potential Assessment Reward Model，PARM）特殊增强版块PARM++。

其中 PARM++ 引入了反想机制（Reflection Mechanism），进一步优化了图像生成质地。

询查团队不雅察到，自记忆图像生成与 LLM/LMM 具有雷同的推理架构，即：

翻脸化的 Token 默示：不管是话语如故图像数据，自记忆模子都将其量化为翻脸 Token，并通过迟缓展望的花式进行生成。

迟缓解码（Step-by-Step Decoding）：雷同于 CoT 在数知识题上的迟缓推理，自记忆图像生成也不错迟缓生成中间图像，并在生成进程中进行考据与优化。

于是，类比用 CoT 推清楚决数学题的决策，询查团队运筹帷幄了用 CoT 推理进行文生图的新门径。

具体来说，作家以"文生图"为任务场景，并使用了 Show-o 来动作 baseline 模子，询查主要分为测试时考据（Test-time Verification）、奏凯偏好优化（DPO）对皆以及二者的衔尾 3 个部分。

测试时考据

最初，论文探索若何使用奖励模子来进行测试时考据，达成了成果奖励模子（ORM）和进程奖励模子（PRM）决策。

在两者的基础上，作家又建议了两种全新的针关于图像生成任务的后劲评估奖励模子（PARM）和 PARM++。

针对成果奖励模子，论文建议了零样本和微调 2 种决策，均使用 Best-of-N 的花式进行考据，即进行屡次竣工旅途的生成，并从中选择出质地最高的最终图片。

零样本 ORM 基于 LLaVA-OneVision 的 7B 版块，通过底下的 prompt 来引发其动作文生图质地评估的能力：

同期作家也构建了大范围的图文奖励数据来获取微调 ORM，数据格式如下图所示：

而关于进程奖励模子，作家使用了雷同 ORM 的决策，不异尝试了零样本和微调两种花式，并对每个设施进行 Best-of-N 的决策，即迟缓选择出质地最高的中间阶段的生成图片。

可是，作家发现这种 PRM 无法对图像生成有显赫的普及。

通过可视化，作家发现：PRM 在早期生成阶段由于图像敷衍而难以评估，而在后期生成阶段不同旅途的图片趋于相似，导致折柳能力受限。

为了同期衔尾 ORM 的轻视和灵验性，以及 PRM 细粒度逐一设施考据的想想，作家建议了 PARM。

PARM 通过以下三步普及图像生成质地：

明晰度判断（Clarity Judgment）：识别哪些中间设施的图像还是弥漫明晰，可用于后续评估。

后劲性评估（Potential Assessment）：分析现时设施是否有后劲生成高质地的最终图像。

最好选择（Best-of-N ’ Selection）：在高后劲旅途中选择最好的最终图像。

在 PARM 的基础上，作家进一步建议了 PARM++，使模子八成在生成无理时进行自我修正。

具体来说，基于 PARM 选出的最终图片，作家最初使用 PARM++ 评估生成图片是否稳妥文本姿色。

若图片不稳妥条目，会条目 RM 提供瞩见地无理姿色，并证实该姿色，条目生成模子进行自我修正（Self-correction），即模子经受反映，并参考无理信息再行生成成果。

成果标明，PARM++ 进一步将 GenEval 收货普及了 10%，生成成果在物体数目、情愫、空间关系等方面愈加准确。

奏凯偏好优化对皆

作家进一步了引入 DPO 偏好对皆，即使用大范围名次数据教练模子，使其生成成果更稳妥东说念主类偏好。

询查团队构建了 288K 条图文名次数据用于教练。

具体来说，教练进程是接受最大似然优化，调遣模子输出，使其更偏向东说念主类偏好。

同期，论文也进一步使用迭代 DPO，在模子优化后再行生成新数据进行再次教练。

成果标明，首次 DPO 教练使模子在 GenEval 性能普及 9%，而迭代 DPO 的普及比例不错达到 12%，杰出微调 ORM。

测试时考据与 DPO 衔尾

在前述两种门径的基础上，作家探索了将测试时考据与 DPO 对皆相衔尾的计策，以达成端到端的优化。

在 DPO 教练的模子基础上，作家进一步哄骗测试时考据进行筛选，使生成图像质地更高，文本一致性更强。

实验成果标明，衔尾 DPO 和测试时考据后，模子在 GenEval 接头上的全体普及达 27%，杰出了单独使用 DPO 或测试时考据的决策。

全体上看，比拟于现存的扩散模子和自记忆模子，使用 CoT 推理灵验普及了文本生成图像任务质地。

论文地址：

https://arxiv.org/abs/2501.13926

容颜地址：

https://github.com/ZiyuGuo99/Image-Generation-CoT

— 完 —

投稿请职责日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿试验‍

附上论文 / 容颜主页皆集，以及联系花式哦

咱们会（尽量）实时复兴你

一键关爱 � � 点亮星标

科技前沿推崇逐日见

一键三连「点赞」「转发」「贯注心」

接待在评述区留住你的想法！买球·(中国大陆)APP官方网站

上一篇：买球·(中国大陆)APP官方网站予福耀玻璃（03606-买球·(中国大陆)APP官方网站

下一篇：买球·(中国大陆)APP官方网站以及WorfEval——一套系统性评估公约-买球·(中国大陆)APP官方网站

友情链接：