NAACL2021丨Knowledge Guided Metric Learning for Few-Shot Text Classification

阅读量：4289 次

发布时间：2019-05-27

本文共 1746 字，大约阅读时间需要 5 分钟。

在这里插入图片描述

作者：凯

单位：燕山大学

论文链接：

Knowledge Guided Metric Learning for Few-Shot Text Classification

Abstract

人类可以在很少的例子中非常有效地区分新类别，主要是由于人类可以利用从相关任务获得的知识。然而，基于深度学习的文本分类模型往往会在标记数据稀缺时难以实现满意的性能。由此，我们在小样本学习任务上引入外部知识。为此我们提出一种新的参数生成器网络，使用该网络，类似的任务可以使用类似的度量，而不同的任务使用不同的度量。通过实验，我们证明了我们的方法优于之前的SOTA文本分类模型。

Introduction

在小样本学习中的关键挑战是充分利用有限标记的例子来查找“正确的”概括。度量学习是一个有效的结局小样本学习问题的方法。在文本分类中直接采用基于度量的方法面临着任务多样化并且意义不同的问题，因为对于一个任务来说，具有高度信息的词语可能与其他任务不相关。

为了解决度量学习中任务多样性的问题，我们提出了一种知识引导的度量学习方法。我们使用知识库的外部知识来模仿人类知识，而且在以前的工作中忽略了外部知识的重要性。我们利用KB的分布式表示而不是象征性的事实，因为象征性的事实面临着较差的普遍和数据稀疏性。基于此类KB Embeddings，我们提出了一种新颖的参数生成器网络来生成任务相关的关系网络参数。通过这些生成的参数，任务相关的关系网络能够对不同的任务应用不同的度量，并确保类似的任务使用类似的度量，而不同的任务使用不同的度量。

Contributions：

受到人类智慧的鼓舞，我们提出了第一种将外部知识引入小样本学习的方法。

提出了一种基于外部知识的新颖参数发生器网络，为不同的任务生成各种度量。

公共数据集的实验结果表明，我们的模型显着优于以前的方法。

Methodology

在这里插入图片描述

模型输入：支持集和查询集的向量

x_i = ([

CLS

w_1,w_2,...,w_T,[

SEP

])

输入到bert中，输出为H

x_i)

∈

R^{(T+2)*d_1}

，其中

d_1

是bert encoder输出层的维度。利用h

x_i)

代表[CLS]标志位向量。

在元学习中利用

c_z

代表类原型，

s_z

代表

z

类的句子集。

接着进行拼接操作。

接着被分别输入到任务相关的关系网络和任务无关的关系网络。其中任务无关关系网络模型是建模一个基础的度量函数，任务相关关系网络适用于不同任务。

任务无关关系网络模块与最初的Relation Network相同， $r^{agn}_{z,j}$ 代表查询实例 $x_j$ 和类原型 $c_z$ 之间的关系。其中 $RN^{agm}$ 代表任务无关关系网络， $\theta^{agn}$ 代表学习参数。

任务相关关系网络：利用额外的知识对不同的任务采用不同的度量。在知识图谱中检索潜在的相关概念

K (S)

。对支持集中的每个实例都用平均KB embedding

e_i

的方法代替。

从而得到任务相关的模型参数

\theta^{rel}

。

最终得到任务相关关系网络的得分。

最终对两个网络得分加起来通过一个sigmoid激活函数，使得得分在一个合理的区间内。

Experiment result

在这里插入图片描述

根据表中结果可以发现，Induction Network和Relation Network都使用单个度量来测量相似性。与这些方法相比，我们将模型的改进归因于模型可以适应具有多样化指标的不同任务的事实。与 ROBUSTTC-FSL相比，我们的模型利用知识来获得隐式任务群集，并以端到端的方式训练，可以减轻错误传播。

转载地址：http://bhmgi.baihongyu.com/

你可能感兴趣的文章

解决elasticsearch7.3版本安装过程中遇到的包括内存不够、线程不够等问题

查看>>

日常项目测试用例检查点（来自一线测试人员的吐血总结）

查看>>

网站建设之域名注册和域名备案

查看>>

解决bootstrap时间输入框总被浏览器记住的记录遮挡住的问题

查看>>

git将一个分支完全覆盖另外一个分支如：dev分支代码完全覆盖某一个开发分支

查看>>