PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction
深圳大学电子信息工程学院 | ACL 2021 | 原文链接 | 源码链接
基于潜在关系和全局对应的联合关系三重提取
BackGround
对于过去的方法,存在关系预测的冗余性,跨度提取的泛化性,效率地下的问题。由此为解决以上问题,将其分解为三个子任务:关系判断、实体抽取、主客体对其,提出了一种基于潜在关系和全局应对的联合关系三元组抽取框架按PRGC
。设计一个了一个预测潜在关系的组件,提取的关系限制在设定的关系子集,应用一个关系特性的序列标记组件来处理主体和客体之间的重叠问题,最后设计了一个全局的通信组件,将主体和客体对齐为三元组。
主要工作内容
设计了一个全新的方式,将任务分解为三个子任务:
- 关系判断,识别句子中的关系
- 实体提取,抽取句子中的所有主语的宾语
- 主语宾语对其:对齐成三元组
- 对于上图中的
CasRel方法
,三元组分为了两个阶段,将对象应用于所有关系
,但是这种方式是冗余的,存在大量无效操作
,而基于区间的抽取方案
,只关注于实体的起始位置,泛化能力差
。而且对于主语宾语的对齐方式。对于主语和宾语的对齐方案
,只能一次处理一个主语,效率低且部署难
。 - 对于TPLinker的方法中,为了避免对齐的曝光偏差,使用了
较为复杂
的编码器,标签稀疏,收敛速度低,基于跨域的提取存在关系冗余和泛化能力
差的问题。(在句子的每个关系下对主题和对象进行对齐,分别造成关系判断的极端冗余和主题-对象对齐的复杂性。同时也存在基于跨度的提取方法的不足。)
PRGC由三个部分组成:
不保留所有的冗余关系,减低计算的复杂度,使用序列标记组件Rel-Spec去抽取主语与宾语,去处理重叠的问题。设计了一个独立于关系的组件来确定主语与宾语在三元组之中是否有效。
- 潜在关系预测
- 关系特定序列标记
- 全局对应
给定一个句子,PRGC首先预测一个潜在关系的子集和一个包含所有主语和主语之间对应分数的全局矩阵;然后对每个潜在关系进行序列标记,并行提取主题和对象;最后列举所有预测的实体对,然后用全局对应矩阵对其进行修剪。
PRGC模型
Encoder
使用一个预训练的BERT【理论上也可以使用Glove,RoBERTa】
PRGC Encoder的输出为Yenc(S) = {h1, h2,…, hn|hi∈Rd×1},其中d为嵌入维数,n为令牌个数。
Decoder
Potential Relation Prediction 潜在关系预测组件
如上图橙色模块
,对关系进行筛选,只需要对于潜在的关系进行实体抽取
。对于n个token的句子中,给定embedding,
h
∈
R
n
×
d
h \in \mathbb{R}^{n\times d}
h∈Rn×d,构建的每个元素为。d将其建模为一个多标签二元分类任务,只需对预测的关系进行realtion-specific sequence tagging。
Relation-Specific Sequence Tagging 关系特定序列标记
在得到
R
p
o
t
R^{pot}
Rpot后(潜在关系的关系特定的句子),进行两个序列操作,分别提取主语和宾语
,进而处理主语宾语重叠的问题。
其中,
u
j
∈
R
d
×
1
u_j \in \mathbb{R}^{d \times 1}
uj∈Rd×1是可训练嵌入矩阵
h
∈
R
n
×
d
h \in \mathbb{R}^{n\times d}
h∈Rn×d中的第j个关系表示,其中nr是全关系集的大小,
h
j
∈
R
d
×
1
h_j \in \mathbb{R}^{d \times 1}
hj∈Rd×1是第I个记号的编码表示,
W
s
u
b
,
W
o
b
j
∈
R
d
×
3
W_{sub},W_{obj}∈\mathbb{R}^{d \times 3}
Wsub,Wobj∈Rd×3是可训练权值,其中标签集{B, I, O}的大小为3。
Global Correspondence 全局对应
全局对应的矩阵是独立于关系的,因此可以与潜在关系预测同时学习。
如模型图中绿色的部分所示:
- 列举所有可能得主宾对
- 在全局矩阵中,检查每一部分的得分,若果超过阈值则保留,否则过滤
h为token表示
训练方式
训练联合模型,对目标函数进行优化,共享PRGC的参数。损失分为以下部分。
n
r
n^r
nr为全关系集的大小,
n
r
p
o
t
n_r^{pot}
nrpot为潜在关系集合大小。总损失是三个部分的总和,权重分配为1。
实验
提出的PRGC方法与之前的工作的比较(%)。黑体为最高分,下划线为次好分,‡为原论文报告的结果打分。
复杂场景:
基于NYT和WebNLG数据集的模型效率比较。除F1-score(%)外,其他方法均由官方实现,默认配置,加粗标记效果最好。复杂度是计算复杂度,FLOPs和Paramsdecoder都是在解码器上计算的,我们分别以批大小为1和24度量推理时间(ms)。
总结
这篇文章,将实体关系抽取,分解成了三部分:
- 抽取潜在关系,减少计算复杂度;
- 对于主语和宾语,使用全连接网络进行抽取出来;
- 列举所有的主宾对,保留超过阈值的三元组对。
然后对于保留下来的三元组对,对照主语宾语的标记,保留正确的三元组。
个人收获是,在抽取的过程中,可以使用类似这篇文章索引
的思想。即,先确定某些东西,然后穷举所有排列组合,基于已知的内容再确定结果。
PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction
深圳大学电子信息工程学院 | ACL 2021 | 原文链接 | 源码链接
基于潜在关系和全局对应的联合关系三重提取
BackGround
对于过去的方法,存在关系预测的冗余性,跨度提取的泛化性,效率地下的问题。由此为解决以上问题,将其分解为三个子任务:关系判断、实体抽取、主客体对其,提出了一种基于潜在关系和全局应对的联合关系三元组抽取框架按PRGC
。设计一个了一个预测潜在关系的组件,提取的关系限制在设定的关系子集,应用一个关系特性的序列标记组件来处理主体和客体之间的重叠问题,最后设计了一个全局的通信组件,将主体和客体对齐为三元组。
主要工作内容
设计了一个全新的方式,将任务分解为三个子任务:
- 关系判断,识别句子中的关系
- 实体提取,抽取句子中的所有主语的宾语
- 主语宾语对其:对齐成三元组
- 对于上图中的
CasRel方法
,三元组分为了两个阶段,将对象应用于所有关系
,但是这种方式是冗余的,存在大量无效操作
,而基于区间的抽取方案
,只关注于实体的起始位置,泛化能力差
。而且对于主语宾语的对齐方式。对于主语和宾语的对齐方案
,只能一次处理一个主语,效率低且部署难
。 - 对于TPLinker的方法中,为了避免对齐的曝光偏差,使用了
较为复杂
的编码器,标签稀疏,收敛速度低,基于跨域的提取存在关系冗余和泛化能力
差的问题。(在句子的每个关系下对主题和对象进行对齐,分别造成关系判断的极端冗余和主题-对象对齐的复杂性。同时也存在基于跨度的提取方法的不足。)
PRGC由三个部分组成:
不保留所有的冗余关系,减低计算的复杂度,使用序列标记组件Rel-Spec去抽取主语与宾语,去处理重叠的问题。设计了一个独立于关系的组件来确定主语与宾语在三元组之中是否有效。
- 潜在关系预测
- 关系特定序列标记
- 全局对应
给定一个句子,PRGC首先预测一个潜在关系的子集和一个包含所有主语和主语之间对应分数的全局矩阵;然后对每个潜在关系进行序列标记,并行提取主题和对象;最后列举所有预测的实体对,然后用全局对应矩阵对其进行修剪。
PRGC模型
Encoder
使用一个预训练的BERT【理论上也可以使用Glove,RoBERTa】
PRGC Encoder的输出为Yenc(S) = {h1, h2,…, hn|hi∈Rd×1},其中d为嵌入维数,n为令牌个数。
Decoder
Potential Relation Prediction 潜在关系预测组件
如上图橙色模块
,对关系进行筛选,只需要对于潜在的关系进行实体抽取
。对于n个token的句子中,给定embedding,
h
∈
R
n
×
d
h \in \mathbb{R}^{n\times d}
h∈Rn×d,构建的每个元素为。d将其建模为一个多标签二元分类任务,只需对预测的关系进行realtion-specific sequence tagging。
Relation-Specific Sequence Tagging 关系特定序列标记
在得到
R
p
o
t
R^{pot}
Rpot后(潜在关系的关系特定的句子),进行两个序列操作,分别提取主语和宾语
,进而处理主语宾语重叠的问题。
其中,
u
j
∈
R
d
×
1
u_j \in \mathbb{R}^{d \times 1}
uj∈Rd×1是可训练嵌入矩阵
h
∈
R
n
×
d
h \in \mathbb{R}^{n\times d}
h∈Rn×d中的第j个关系表示,其中nr是全关系集的大小,
h
j
∈
R
d
×
1
h_j \in \mathbb{R}^{d \times 1}
hj∈Rd×1是第I个记号的编码表示,
W
s
u
b
,
W
o
b
j
∈
R
d
×
3
W_{sub},W_{obj}∈\mathbb{R}^{d \times 3}
Wsub,Wobj∈Rd×3是可训练权值,其中标签集{B, I, O}的大小为3。
Global Correspondence 全局对应
全局对应的矩阵是独立于关系的,因此可以与潜在关系预测同时学习。
如模型图中绿色的部分所示:
- 列举所有可能得主宾对
- 在全局矩阵中,检查每一部分的得分,若果超过阈值则保留,否则过滤
h为token表示
训练方式
训练联合模型,对目标函数进行优化,共享PRGC的参数。损失分为以下部分。
n
r
n^r
nr为全关系集的大小,
n
r
p
o
t
n_r^{pot}
nrpot为潜在关系集合大小。总损失是三个部分的总和,权重分配为1。
实验
提出的PRGC方法与之前的工作的比较(%)。黑体为最高分,下划线为次好分,‡为原论文报告的结果打分。
复杂场景:
基于NYT和WebNLG数据集的模型效率比较。除F1-score(%)外,其他方法均由官方实现,默认配置,加粗标记效果最好。复杂度是计算复杂度,FLOPs和Paramsdecoder都是在解码器上计算的,我们分别以批大小为1和24度量推理时间(ms)。
总结
这篇文章,将实体关系抽取,分解成了三部分:
- 抽取潜在关系,减少计算复杂度;
- 对于主语和宾语,使用全连接网络进行抽取出来;
- 列举所有的主宾对,保留超过阈值的三元组对。
然后对于保留下来的三元组对,对照主语宾语的标记,保留正确的三元组。
个人收获是,在抽取的过程中,可以使用类似这篇文章索引
的思想。即,先确定某些东西,然后穷举所有排列组合,基于已知的内容再确定结果。