Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training

“Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training”由Bei Liu、Makoto P. Kato等人撰写。2018年best paper。

该论文提出了一种全新的方法,通过多对抗训练,从图像生成英文自由诗。此方法结合深度耦合视觉 - 诗歌嵌入模型与基于RNN的对抗训练,利用多判别器为策略梯度提供奖励,以实现从图像到诗歌的端到端生成。

  1. 研究背景与挑战

    • 跨模态问题:与从主题生成诗歌不同,从图像生成诗歌是跨模态问题。直接从图像提取关键词或字幕作为诗歌生成的种子会丢失大量信息,尤其是对诗歌生成很重要的诗意线索。

    • 主观任务特性:相比图像字幕和段落生成,从图像生成诗歌更主观。一幅图像可以从多个方面与多首诗歌相关,而图像字幕/段落更侧重于描述图像中的事实,结果较为相似。

    • 诗歌形式与风格差异:诗歌句子的形式和风格与叙述性句子不同。该研究聚焦于自由诗,虽不要求格律、押韵等传统诗歌技巧,但诗歌仍需具备一定的诗意结构和语言风格,即“诗意性”。

  2. 相关工作

    • 诗歌生成:传统方法包括基于模板和语法、约束优化下的生成式总结以及统计机器翻译模型。深度学习方法兴起后,RNN被广泛用于诗歌生成。以往工作主要关注诗歌的风格和节奏,近期研究引入主题作为诗歌生成条件,而该研究旨在解决视觉场景启发的诗歌生成问题。

    • 图像描述:图像字幕最初被视为检索问题,后发展出模板填充、结合CNN和RNN等方法,近期GAN也被应用于图像字幕生成。图像段落生成主要关注区域检测和句子的层次结构。但图像字幕和段落生成旨在描述图像事实,与诗歌生成在语言形式和要求上不同。

  3. 研究方法

    • 深度耦合视觉 - 诗歌嵌入:旨在学习一个嵌入空间,使图像和诗歌能投影到同一空间,通过最小化成对排序损失,使图像 - 诗歌对的嵌入特征点积相似度更高。利用三个CNN分别提取图像中物体、场景和情感方面的特征,并通过多标签数据集微调CNN模型。

    • 诗歌生成器作为智能体:采用传统的CNN - RNN模型作为诗歌生成器,使用GRU作为诗歌解码器。通过策略梯度最大化期望奖励来优化模型参数,同时引入基线减少梯度估计方差。

    • 判别器作为奖励:提出多模态判别器和诗歌风格判别器。多模态判别器用于判断生成的诗歌与输入图像的相关性,诗歌风格判别器用于引导生成的诗歌具有诗意性。两者分类结果的线性组合作为策略梯度的奖励函数。

    • 多对抗训练:生成器旨在生成能欺骗判别器的诗歌以获得高奖励,判别器则用于区分生成诗歌与真实诗歌。通过策略梯度和蒙特卡罗采样,基于多个判别器的期望奖励更新生成器。

    • 策略梯度与奖励机制概述: 策略梯度是强化学习中的一种优化算法,它通过最大化期望奖励来更新智能体(在本研究中即诗歌生成器)的策略。简单来说,策略梯度算法会根据智能体在环境中的行为所获得的奖励,来调整智能体的行为策略,使得智能体在未来能够获得更高的奖励。在诗歌生成任务中,奖励的设计至关重要,它直接引导着生成器生成符合要求的诗歌。

  4. 实验

    • 数据集:收集了MultiM - Poem(图像 - 诗歌对数据集)和UniM - Poem(大型诗歌语料库),并基于嵌入模型扩展得到MultiM - Poem (Ex)。对数据集进行了严格的筛选和预处理。

    • 对比方法:与Show and tell (1CNN)、Show and tell (3CNNs)、SeqGAN、Regions - Hierarchical四种基线模型对比,同时对自身模型在有无判别器、不同判别器组合的情况下进行实验。

    • 自动评估指标:采用BLEU、新颖性和相关性三个指标,并计算综合得分。BLEU衡量生成诗歌与真实诗歌的相似程度;新颖性衡量生成诗歌中不常见单词或短语的比例;相关性通过深度耦合视觉 - 诗歌嵌入模型计算图像与诗歌的相关性。

    • 人工评估:在Amazon Mechanical Turk上进行,包括评估视觉 - 诗歌嵌入模型有效性、对比不同方法生成诗歌的多个方面、进行图灵测试等任务,并邀请了专业人士参与。

    • 实验结果:在自动评估和人工评估中,该研究提出的模型在大多数指标上优于基线模型。图灵测试表明,生成的诗歌能让普通注释者和专家产生混淆,证明了模型的有效性。

  5. 研究结论:提出了一种新的从图像生成诗歌的方法,通过结合深度耦合视觉 - 诗歌嵌入模型和基于RNN的多对抗训练,利用多判别器为策略梯度提供奖励。引入了新的数据集,实验证明了嵌入模型和诗歌生成模型的有效性 。

https://zhuanlan.zhihu.com/p/47997084


Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training
http://jrhu0048.github.io/2025/04/20/wen-xian-yue-du/beyond-narrative-description-generating-poetry-from-imagesby-multi-adversarial-training/
作者
JR.HU
发布于
2025年4月20日
更新于
2025年4月21日
许可协议