人工智能领域顶级会议AAAI 2021(The Thirty-Fifth AAAI Conference on Artificial Intelligence)将于2021年2月2线上举办。自然语言处理研究中心在该会议上发表五篇学术论文,涉及检索式和生成式对话、故事生成和新闻标题生成等。届时,论文作者将参会并进行论文报告。以下为各篇论文简介:
[1] The Style-Content Duality of Attractiveness: Learning to Write Eye-Catching Headlines via Disentanglement, Mingzhe Li, Xiuying Chen, Min Yang, Shen Gao, Dongyan Zhao, Rui Yan.
抢眼的新闻标题可以吸引更多的读者点击,发布者可以获得更多的流量和利润,读者可以访问阅读优秀的文章。基于有吸引力标题具有风格和内容的二象性,本文提出一个生成有吸引力标题的任务。文章设计了一个解耦模块从原型标题中分离出风格和内容表示,内容信息帮助捕获重要部分,风格信息指导标题生成。大量实验表明,本文的模型生成的标题既能保持内容一致性,又能有效增加文章点击率。
[2] Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension, Xiuying Chen, Zhi Cui, Jiayi Zhang, Chen Wei, Jianwei Cui, Bin Wang, Dongyan Zhao, and Rui Yan.
本文提出藉由检视模型回答阅读理解问题的能力来改善回应产生的效能,而问题集中在对话中省略的信息。受多任务学习方案的启发,本文提出了一个将这两个任务统一起来的联合框架,共享同一个编码器,用不同的解码器来提取共同的和任务不变的特征来学习特定任务的特征。在实验中,本文使用人工标注来编写和检验一个大型对话阅读理解数据集。在这个数据集上进行的大量实验结果表明,该模型在两个任务上都比几个强基线有了实质性的改进。
[3] Learning an Effective Context-Response Matching Model with Self-Supervised Tasks for Retrieval-based Dialogues, Ruijian Xu, Chongyang Tao, Daxin Jiang, Xueliang Zhao, Dongyan Zhao, Rui Yan.
现有的检索式对话系统忽视了对话数据中许多潜在的、对文本理解和回复预测有益的监督信号,且仍然面临着一些关键的不足,例如上下文的不相关和不一致。为了解决这个问题,本文提出借助为对话数据特别设计的自监督任务来训练基于预训练语言模型的文本-回复匹配模型。实验结果表明,本文提出的方法在两个公开对话数据集上为多轮对话回复选择带来了显著的提高,并刷新了当前的最优结果。
[4] Content Learning with Structure-Aware Writing: A Graph-Infused Dual Conditional Variational Autoencoder for Automatic Storytelling, Meng-Hsuan Yu, Juntao Li, Zhangming Chan, Dongyan Zhao and Rui Yan.
自动故事生成依靠预先对故事情节或是故事骨架进行规划以生成上下文一致的文本,为了模仿人类写故事的过程并利用每个故事的细微内在结构信息,本文将自动故事生成分解为故事情节提取,故事内部架构图构建,图生成和图注入序列內容生成的子问题,提出一种图注入的双条件变分自动编码器模型,捕获结构信息并将其融合到故事生成的过程中。通过该模型,我们能够有效地生成多样且内容一致性的故事,使得自动故事写作更加贴近人类写作的真实场景。
[5] Predictive Adversarial Learning from Positive and Unlabeled Data, Wenpeng Hu, Ran Le, Bing Liu, Feng Ji, Jinwen Ma, Dongyan Zhao, Rui Yan.
从无标注的数据中获取正样本在工业界拥有广泛的应用,例如异常检测,意图挖掘等,加之监督信息的获取往往需要较高的经济成本且标注的负样本代表性有限等因素的影响,使得PU Learning成为一个重要的研究热点,本文针对传统PU learning方法依赖正负数据比例的问题,提出一种基于对抗思想的PAN方法,并在大量的测试中取得了领域最好水平。