关系抽取综述

mac2024-04-11 34

知识图谱之关系抽取

1 概述

知识图谱将知识以图的形式表示，用图的节点来表示概念和实体，用边来表示关系和属性，从而将事物用更小的粒度进行表示和连接，用这种基于符号和方式来表示概念和概念之间的关联关系。从上面的概念可以看出，知识图谱是由实体、属性和关系三部分构成。而实体抽取技术有经典的BiLSTM+CRF的模型已经能够取得很好地效果，属性和关系抽取则成为知识图谱构建体系当中最重要的部分了，对其抽取方式和效果进行研究是非常有必要的。一般来讲，可以根据数据的特点将其分为结构化数据如(数据库表等)、半结构化数据如（infoxBox等）和非结构化数据（网络语料）。结构化的数据往往直接描述了明确的语义关系，可以直接融入到当下的知识库中，半结构化数据也可以通过配置简单规则可快速准确的从数据中抽取关系。但是结构化数据和半结构化数据的占比是非常小的，而且更新缓慢。为了能够及时有效的抽取更多的知识，将目光转向各种非结构化网络语料是非常需要的。因为非结构化文本往往蕴含有大量的语义知识，而且比较高效实时。但是，非结构化文本的句法结构也比较灵活多变，规律性并不强。所以，如何从一段非结构化文本中高准确率、高召回率的抽取出存在特定语义关系的实体对也一直试自然语言处理领域的研究热点。接下来，本文将首先介绍非结构化文本关系抽取的各种不同的方法及其对比情况，实际落地应用和未来的发展。

2 关系抽取技术框架分类体系及其对比

关系抽取即是从一句话中抽取出存在特定关系的实体对，基于这个目的，可以将关系抽取任务转化为分类任务和序列标注任务。分类任务是指通过对文本做特征抽取，然后根据待预测的关系训练多分类模型，每种关系都是一个特定的类别。而序列标注任务将类似于命名实体识别任务，通过预测实体的标记类型来确定两个实体是否存在关系[1]（下文详细叙述）。由于知识图谱在构建过程中，已经存在一个设计好的Schema，也就是说其不再像语义网络那样关系种类不加很强标准约束，而是在某一领域都只会存在有限的关系类型，这就支持我们将关系抽取任务转化为分类任务，并且经过试验证明确实要比序列标注人物表现要更好。所以本文将关注如何将关系抽取任务转化为分类任务来抽取知识。由于关系抽取任务是预测存在关系的实体对，所以对命名实体识别过程就会有很强的依赖。在针对一个特定的句子做关系抽取时，会首先要求识别出语句中的实体，然后再识别两两实体对之间的关系。根据命名实体识别任务(Named Entity Recognition,简称NER)和关系抽取任务之间的关系，可以先做NER再根据NER的结果进行关系抽取。当然也有研究者使用联合抽取的师兄，即同时做两个任务。在实际应用的过程中，NER技术已经相对成熟，而且NER数据集获取也更加容易，但是如果和关系抽取做联合模型，那可用的数据集也将大大缩减，造成NER的误差传播更加的严重。所以实际应用时，还是先做NER，然后再进行关系抽取能够取得更好的效果，本文也采用这种技术体系来完成关系抽取的任务。如果将关系抽取任务转化为分类任务，可以更进一步的将关系抽取算法分为有监督关系抽取算法、boostrap关系抽取算法、无监督关系抽取以及远程监督关系抽取算法。有监督关系抽取有监督关系抽取也就是采用有监督学习的思想：利用人工标注的语料来训练模型，学习句子的句法和语法语义特征，然后基于训练好的模型来做关系抽取。有监督的关系抽取往往准确率和召回率都是比较高的，但是其需要人工标注的训练数据，而标注的成本往往是比较高的。所以其很难扩展大新的领域，只能在一些小规模的垂直领域有很好的落地。 boostrap关系抽取 boostrap关系抽取就是基于boostraping的思想，首先利用少量的种子实例或模板来为每种关系标注少量的种子实体对，基于这些实体对在文本语料库中抽取相关的句子集合，基于这些句子抽取表达关系的模式，一次循环迭代，即“滚雪球”式的关系抽取。boostrap的方法可以较少模型对标注数据的依赖，但是这种方法也容易产生语义漂移的现象，同时抽取结果的准确率较低也是一个需要迫切解决的问题。无监督关系抽取无监督关系抽取是指通过聚类等方法抽取实体之间的关系字符串。这种方法可以抽取非常大量的关系对，但是抽取结果很难映射到知识库中。远程监督关系抽取为了解决有监督关系抽取对人工标注预料的过于以来的问题，2009年Mintz提出了远程监督关系抽取的思想：如果一个实体对在知识库中国存在某种关系，那所有包含该实体对的句子都存在这种关系[2]。基于这种假设就可以完成对文本的远程标注，然后再使用类似有监督学习的思想来训练学习。远程监督关系抽取降低了模型对人工标注语料的依赖，为大规模跨领域的关系抽取提供了实现的可能。自该思想被提出依赖，工业和学术界都在做持续深入的研究，并已取得了很不错的效果。除了上述方法以外，也可以设定规则模板或者基于依存句法等方法来完成关系抽取，本文不做详细论述。下图是对上述几种方法的一个总结：#图1#上文就关系抽取的技术分类框架及其优劣点进行了简单地分析，接下来着重针对有监督关系抽取和远程监督关系的研究热点做简单介绍。

3 有监督关系抽取框架

有监督关系抽取就是利用已经标注好的训练语料，进行有监督的学习，然后实现一个多分类器。传统的有监督关系抽取框架是采用SVM、最大熵模型等等，这种方法将更加依赖于手工构建的词法，或利用nlp工具等构建的句法特征等，这些方法要么依赖于手工提取的特征，要么依赖于精心设计的kernel，不仅容易出错，提取特征的能力也是有限的，当应用到新的领域时不够鲁棒。而随着深度学习方法在nlp领域的应用，将RNN,CNN等深度学习方法应用到有监督关系抽取框架中来解决传统模型对人工构建特征的依赖成为一种趋势。也就是说，nlp任务中任何可以用来提取词法、句法或语法语义的模型都可以用于关系抽取任务来提取非结构化文本的特征。#如图所示# ，是对有监督关系抽取研究思路的基本总结对于传统的机器学习方法，可以提取到的特征就有实体串的上下文字符、两个实体之间的距离、还有实体串在句法树种的路径和位置等等。通过人工设计和构建来抽取句子特征使得模型应用到新的领域时鲁棒性往往都比较差，而且还都需要专家来设计，要耗费的代价也是巨大的。深度学习方法的大规模研究和应用对nlp领域的发展起到至关重要的作用，通过深度学习的模型，研究人员不在需要手工来设计数据的特征，而是让模型自动的学习到句子中所蕴含的语法和句法特征，从而使得模型的鲁棒性大大提高，同时也不需要花费大量的人力和物力来设计特征。下面对一些基于深度学习的经典有监督学习关系抽取框架做一个简单介绍Semantic Compositionality through Recursive Matrix-Vector Spaces（MV-RNN） Richard Socher.2012 这是第一篇用于深度学习的方法来解决关系抽取模型中特征抽取的论文，作者提出使用向量和矩阵来表示语法树中的每个节点，其中向量表示内在含义，矩阵表示邻接词或短语对当前词的影响程度。基于递归神经网络结合句法树来学习任意语法类型和长度的联合向量表示。并在抽取完特征后使用softmax分类器进行多分类学习和预测。 #如图所示# 其中

P = f_M(A,B) = W_M ([A \\ B])

p_1 = f(Ba,Ab)

这篇论文解决了传统模型手动捕获特征的缺点，但也仍然依赖于句法解析等nlp工具。从试验结果来看，这篇论文在使用位置特征、wordNet等特征的基础上，能够取到F1 @82.4 的效果，和传统模型中表现最好的模型SVM@82.2相比，还是有一定的提升，关键是减少了对人工构建特征的依赖。 relation classification via convolutional deep neural network -OCNN Zeng.2014 Base CNN Convolution Neural Network for Relation Extraction Liu. 2013 该篇论文是第一次将CNN这种经典的深度学习模型引入到关系抽取框架中，将关系抽取任务转化为分类任务并使用End-to-End 模型来解决问题。使用Synonym Embedding作为词的特征，这一点后续一部分工作也在使用，相当于引入额外的信息。但是，该模型也有如下缺点 CNN的结构比较简单, 没有Pooling层，容易受噪音影响。仍然使用了一些Linguistic Feature比如POS Tagger, NER 等，并没有完全做到end-to-end的关系抽取使用Synonym Embedding(随机初始化的LookUp Table) 可以引入一部分额外信息，但是却完全忽略了word embedding的语义信息，这一块在后续工作中都会加入pre-train的word embedding. zeng等人在2014年提出的基于CNN的关系抽取框架是真正意义上基于深度学习的End-To-End关系抽取框架。这篇论文解决了liu等人提出的base CNN的诸多问题：例如设计了Pooing层，并引入Position Features（即句中所有字词到两个实体的相对位置）来提升模型的特征抽取能力，这也成为后续关系抽取模型特征输入的经典组合。论文提出模型的整体架构 #如图所示#模型框架解析模型的第一层为一个Embedding层，作者使用了预训练的词向量来完成句子的分布式表示；然后进一步融合了Position Features来组合模型的特征。然后经过单核CNN和池化层来最终得到句子的特征表示，这里需要注意的是作者额外引入了5中Lexical Level 特征来从词级别增强模型对句子特征的描述能力；如下在输出层，作者使用的是Softmax分类器做多分类学习和训练。这篇论文的有点时引入了一个标准的卷积池化特征抽取模型、同时引入了Word Embedding+Position Features 来增强模型对句子的特征抽取能力，模型的抽取效果也确实有一定的提升。但是，该模型也存在一下缺点： 1.只采用但卷积核，特征抽取能力不够强2.需要人工构造Lexical Level 特征 Relation Extraction: Perspective from Convolutional Neural Networks Thien.2014 为了解决OCNN的问题，就自然的引入了多卷积核来基于超级N-gram的思想增强模型的特征抽取能力，同时终于彻底避免了对人工构造特征的依赖。模型框架 #如图所示#与OCNN的对比不再使用Lexical Level Features使用多个卷积核（参数）完全不再使用词法特征，包括wordnet, 词的上下文等。 Classifying Relations by Ranking with Convolutional Neural Networks(CR CNN) Santos.2015 这篇论文是在Thien.2014的基础上进行改进，主要是在损失函数上将原来为softmax+cross-entropy，变为margin based的ranking-loss。模型框架 #如图所示#重新定义的损失函数如下

L=log(1+exp(\gamma (m^+ - s_\theta(x)_{y^+}))) + log(1+exp(\gamma (m^- - s_\theta(x)_{c^-})))

其中

s_\theta(x)_{y^+}

表示句子x正确分类对应的得分，同理

s_\theta(x)_{c^-}

就表示从全连接层得到的分数向量中除去

s_\theta(x)_{y^+}

之外最大的分量，也就是错误分类的最大得分。通过这样设计，在训练过程中

s_\theta(x)_{y^+}

不断增大而

s_\theta(x)_{c^-}

会减小。其中

m^+

和

m^-

表示正确和错误对应的margin 根据作者的试验结果 F1@84.1,和cross-entropy CNN@82.8相比，确实有很大的提升。 Relation Classification via Multi-Level Attention CNNs wang.2016 随着Attention机制的提出，各种机遇Attention的CNN模型被应用到关系抽取当中，其中最好的一篇就是引入两层Attention来突出句子中对关系分类更有贡献的部分。模型框架 #如图所示#该模型提出的背景在于现实世界中，同一关系可以被表达为很多种形式，这就要求模型不仅得考虑词级信息，还得考虑句级和语义级别的信息；也有一些基于神经网络的模型，但大多需要外部依赖，同时，对于关键信息的捕捉还不理想。如图，两次Attention分别为：输入层Attention 用词和实体的词向量相似度作为权重，刻画不同词的影响力。基于上下文与实体的对角矩阵实现，矩阵中各元素反映词语与实体间的强弱关系（即分配的注意力），例如:

a^j_{i,i}=f(e_j,w_i)

就是反映 $w_i $和 $e_j $的联系强弱，注意是内积计算，所以将值填充到对角位置。然后进行归一化得到权重值 $ \alpha^j_i $池化层Attention 对卷积结果进行Attention Pooling，替代原本的Max Pooling。G对应函数的计算方法得到一个相关性矩阵U为权重矩阵，

W^L

为关系嵌入，将G进行归一化，然后得到attention pooling矩阵A,最后与卷积结果计算内积，并max 池化获取输出这种设计可以有效减弱噪声，加强相关性强的词的权重。模型的目标函数

\delta_theta(S,y) = || \frac{w^o}{|w^o|} - {W_y}^L ||

模型损失函数

[\delta_theta(S,y) + (1-\delta_theta(S,y^-))]+\beta||\theta||^2

模型的优点两层Attention: 在文章中的两处Attention 均是基于embedding 的内积来运算的。其中Input Attention 很直观，利用embedding的内积来衡量相关。Distance Function：从margin based ranking loss 出发，类似TransE等模型，使用embedding的逼近来作为距离函数。模型的缺点: Input Layer的attention 使用word 与 entity的 embedding similarity 来作为attention的权重，这里有些问题。比如“ caused by ” 这里的 caused 很关键，但是与e1, e2的相似度应该比较小。而且不同的词在不同的relation中的重要程度是不一样的。使用统一的embedding 可能会有噪音影响。在一个可能原因是Out Of Vocab 的词语也会降低performance。结构复杂复杂度高，收敛困难，尤其是第二个Attention 试验效果分析 #如图所示# Relation Classification via Target-Concentrated Attention CNNs zhu.2017 论文的思想这篇论文就是在wang.2016的基础上定义每个词在不同的relation有不同的权重Attention 矩阵。也就是说Input Layer 引入一个权重矩阵，直接计算word 与 relation的相关度，而不是计算word 与 entity的相关性: 另外，这篇论文去掉了Pool Attention 部分，直接max pooling。自定义的距离函数，而是直接使用类似Santos 2015的那种向量内积计算score的方式. 最终仍然使用ranking loss总的来说，这篇文章在Input Layer的Attention的改进比较符合直观。在没有使用二级Attention 以及改进的损失函数的情况下，可以达到F1@87.5%，相对于上一篇的F1@86.1%还是有提升。不过整体来看，文章的创新点比较少，感兴趣的同学可以移步去看下一年。 Relation classification via recurrent neural network Zhang.2015 在当下的nlp领域中，没有用RNN实现的任务总是带点缺憾的。zhang等人开始尝试使用RNN模型来抽取句子的特征，并声称达到了zegn.2014的效果。模型框架 #如图所示#作者使用使用更加简单的Position Indicators(简称PI)，而非Zeng 2014的Position Feature. PI很简单，直接使用标签来表示两个entity的位置. 比如在数据中例子: “ people have been mov- ing back into downtown ” 这样就将 , <\e1>, , <\e2> 作为四个Indicators. 在训练的时候，直接将这四个标签作为普通的word即可，无需特殊处理. 通过这样的方式来突出两个entity.试验结果从论文中看，是达到了和zeng.2014几乎一致的效果，但实际应用的效果并不是很好。 Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification Zhou.2016 基于RNN对句子建模，在上一篇RNN的基础上做了一点改进，使用标准的的Attention + BiLSTM，效果与(CR CNN)Santos.2015类似,达到了 84%试验结果分析在没有使用词法/语法特征的情况下，达到84%的F1 Score，使用Attention 可以起到作用，能够减弱句子中的噪音词语影响，增强关键词的影响。Attention + BiLSTM 作为NLP Task的标配，在Relation Classification上也取得了不错的效果。文中不足是仅仅使用标准的Attention+LSTM直接简单用到这个Task，创新点几乎没有，并没有针对关系分类这个任务的改进。 [Semantic Relation Classification via Bidirectional LSTM Networks with Entity-Aware Attention Using Latent Entity Typing lee.2019](file:///C:/Users/mirli/Downloads/symmetry-11-00785.pdf) 这篇论文借鉴了wang.2016和zhou.2016两篇论文的思想。在BiLSTM基础上增加了self-attention来让考虑上下文信息，增强词表示学习能力。同时，作者在BiLSTM之后加入entity-aware attention,来融入position Features和Entity Features with Latent Type两个特征。模型的框架 #如图所示#该模型提出了使用self attention和entity-aware attention两层Attention机制来增强模型的特征抽取能力。特别是entity-aware attention加入了位置特征和实体潜在类别，充分利用实体对的先验知识，并增强了模型的可解释性。缺点是计算复杂度高，难以收敛，且实体类别的个数是需要人为进行设定的。 Graph Convolution over Pruned Dependency Trees Improves Relation Extraction zhang.2018 在依存树关系抽取模型的基础上，作者针对依存树修剪过度（容易忽略否定）和并行计算效率存在矛盾的基础上提出图卷积网络(GCN)来存储任意依赖结构信息。保留两个可能存在关系的实体之间的最短路径中的词来修剪树。一般将这类模型称之为Dependency Models。模型框架 #如图所示#作者通过GCN来捕捉词与词之间的依赖关系，融合句法信息来完成词的隐藏表示学习，从而增加模型的特征抽取的能力。在输出层，仍然使用softmax分类器做多分类的学习。将GCN引入到关系抽取等nlp任务当中是当下的一个研究热点，这里只对该模型做简单介绍，感兴趣的同学请移步到论文哈~ Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme zheng.2017 这篇论文将关系抽取任务转化为序列标注的任务，并使用了联合实体和关系抽取的模型。作者提出了新的命名实体和关系抽取的联合序列标注方案 #如图所示# ：标注方案由三部分构成：Ent-Rel-index。其中Ent表示BIES的实体标注，Rel则是关系的缩写标注，例如这里的 CP 和 CF 等，index则别用来区分主实体和客实体。论文采用了BiLSTM模型来实现特征抽取，模型分为Embedding层，Encoding Layer层和Decoding Layer均使用BiLSTM实现，最后使用softmax分类器作为输出，得到各个字符的序列表示。论文的框架 #如图所示#试验分析从试验结果来看，该模型确实取得了很不错的效果。综合来说，这篇论文提出一个新的标注方法，并且研究了利用end-to-end模型来联合抽取实体和关系，实验结果证明该方法非常有效。但是面对重叠关系，依旧存在缺陷。后续将研究在输出层用多分类代替softmax函数来解决重叠关系的问题。 Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism Zeng.2018 这篇论文也使用了实体和关系的联合抽取的思想，并使用了复制机制来实现。在实际情况下，句子中的关系事实往往是最复杂的，不同的关系三元组在一个句子中可能有重叠。现有的关系抽取模型往往考虑的是三元组实体不重叠的问题，而对重叠实体对或单实体重叠的情况考虑较少。作者提出基于复制机制的端到端序列学习模型，来从句子中联合提取关系事实。模型的框架 #如图所示# ：模型使用LSTM模型做模型特征编码，产生输出和隐藏状态。解码过程则比较复杂：首先复制第一个实体，然后复制第二个实体。如此重复，直到生成关系NA停止计算解码器的输出

{O_t}^D,{h_t}^D = g(u_t,{h_{t-1}}^D)

其中

h^D_{t-1}

为t-1时刻解码器隐藏状态，

u^t

表示t时刻解码器输入,被表示成

u_t = [v_t:c_t]W^u

其中

v_t

为注意向量，

c_t

为在时间步t - 1对应的复制实体的嵌入或预测关系。w是一个权矩阵。计算关系及NA置信向量（选择概率最大的关系作为预测关系）

q^T = selu({o_t}^DW^T+b^T)

q_{NA} = selu({o_t}^DW^{NA}+b^{NA})

p^T = softmax([q^T;q^{NA}])

选择第一个实体计算所有单词置信向量，并选择最高的作为预测单词

{q_i}^e = selu([{o_t}^D;{o_i}^E]w^e)

p^e = softmax([q^e;q^{NA}])

复制第二个实体，注意不能重复选取。总结论文对不同三元组提取的场景进行了细致的划分，并精心设计了一个copy模型，联合了实体提取和关系分类两个步骤，总体来说有一定的创新性，但是论文中提到的方案并不能完全解决三元组重叠的问题，除了文中描述的三种情况，还有一种一个关系对应多个实体对的情况，这种情况用论文中方案无法解决。但是这篇论文没有对比模型，感兴趣的同学可以移步过去看一下。 Overcoming Limited Supervision in Relation Extraction: A Pattern-enhanced Distributional Representation Approach 2016 这篇论文必有有意思的地方时没有使用神经网络的模型，而是使用了弱监督学习的方法。作者建立两个模型，互相为对方提供监督。分布模型是判别模型，而模式模型作为生成模型。基于模式的模型会基于模式生成许多候选的实例，而分布模型作为一个判别器则会从中选择出好的实例，并将其作为补充回馈到前者。训练过程中通过不断迭代，同时提升两个模型的性能。作者基于两个task: KB推理和语料级别实体关系抽取。这篇论文证明了仅使用两个简单地模型迭代训练的弱监督模型被证明非常有效的，并且没有使用神经网络的模型，而且只需要少量的人工标注数据。这里不加详细说明，感兴趣的小伙伴可以goole一下看看。 Effectively Combining RNN and CNN for Relation Classification and Extraction 2018 这篇论文使用了将RNN和CNN做模型融合的的方法，在SemEval Task7 的四个子任务中取得了三个第一。作为一名由评测比赛而诞生的论文，作者加了很多工程性的内容。核心技巧在于使用CNN, RNN模型集成。文中还提到了多种方法，不择手段提升最终模型的性能。虽然该模型训练速度可以说是非常慢了，但是还是有很多地方可以借鉴。模型框架 #如图所示#输入是 word embedding + POS + RPE, CNNN部分：一层conv + reu + maxpooling + FC ，没有dropout, 输出prob。 RNN 部分：不加padding的Bi-LSTM + FC + dropout, 输出prob。这样的网络训练20个，得到40个prob, 取平均。本文进行了非常非常详细的实验，正是这样才能在SemEval Task 7 上表现这么好。分析提到的很多feature有拟合数据集或者取巧的嫌疑，不过还是有几点有实际用处，有值得借鉴的地方：比如句子反转RS, 加权的cross entropy, ensemble CNN 和 RNN 模型，以及对于RNN和CNN根据句子长度加权预测的方式。结合这些加上对于深度学习方式的探索，相信还可以将NYT上的表现刷的更高。

4 远程监督关系抽取框架

采用有监督学习的算法来实现有监督的关系抽取能够保证抽取的知识是高质量的，且是高召回率的。但是，有监督学习的方法对标注数据的依赖性也是比较高的，而人工标注语料的获取成本是比较高的。因此在实际应用的过程中，很难获取到用于关系抽取的大量标注数据，这就导致模型的领域可扩展性较差，所以有监督学习的方法一般在评测或学术界做垂域的知识抽取时比较实用，而工业落地则有很大的限制。为了解决这个问题，2009年，在ACL峰会上Mintz提出了使用远程监督来做关系抽取任务的思想，这里的远程监督主要是指远程标注的过程：即如果一个实体对在知识库中存在某种关系，那就假设所有包含这个实体对的句子都表达了这种语义关系。这样，就可以对朴素文本做了一个关系抽取的标注，而无需人工标注啦。基于这这个假设，我们就可以利用已有的知识库（包含设计好的Schema,严格来说应该是知识图谱）对非结构化的朴素文本进行标注（远程监督），这样就构建了大量的标注正例。例如：如果知识库中存在（苹果，CEO, 乔布斯）这条语义关系，那就可以对所有包含该实体对的句子标注 #如图所示#一方面，远程监督确实可以有效地解决关系抽取框架对人工标注数据的依赖问题。但我们也看到，因为远程标注假设过强，不可避免的带来了很多的噪声。例如 “乔布斯每天都要吃一个苹果” 这句话描述的是乔布斯的生活习惯，而在这里苹果应该是一个水果，而不能表达苹果的CEO就是乔布斯这条知识。一般，也会将这种噪声称之为假正例问题，也就是wrong labeled 问题。另一方面，远程监督假设限定了每个实体对仅存在一种语义关系，也就是单标记问题，但是在实际应用中，实体对至今可能存在有多重语义关系。例如娱乐明星 “黄磊” 和 “孙莉” 存在 “校友”、“夫妻”、“师生”等多重语义关系，而这时基本的远程监督模型所无法解决的。上述两个问题属于远程监督假设所自带的缺陷，为了使远程监督的思想能够更好地应用到关系抽取当中，领域内的研究者一直着手来解决上述问题。下面将选取几篇关键性的论文对上述问题的解决方案做简要介绍。首先，贴上当前远程监督关系抽取模型的技术分类和研究现状的调研 #如图所示#4.1 远程监督的基本思想 Paper: Distant supervision for relation extraction without labeled data Mintz.2019在这篇论文中，Mintz提出了远程监督关系抽取的思想，用已有知识库来对齐朴素文本，生成大量的标注数据。在模型的特征方面,Mintz大佬使用了手工构建的词法和句法特征表示句子词法特征实体对之间的词串；这些词语的POS(part-of-speech)标记；句子中那个实体出现在前面；实体1左边k个词和它们的POS标记；(k:0,1,2)实体2右边k个词和它们的POS标记。句法特征利用依存句法解析器(dependency parser) MINIPAR对句子进行解析，然后从解析树中提取实体的依赖路径。依存句法解析的结果是对句子中的词和词组，利用有向的依存关系边进行连接。 #如图所示#特征包括：1.两实体之间的依存路径（dependency path）；2. 对每个实体，增加一个window node做为特征。window node是指与其中一个实体连接，但并不在依存路径中的节点。此外，作者将两实体的POS（命名实体）标记也做为特征加到特征向量中。由于数据量大，使用联合特征来提高精度。联合特征会让特征的命中率降低，但在数据量大的情况下，特征命中率的问题不严重。在特征抽取之后，作者使用多分类逻辑回归模型进行学习和训练训练相同元组的不同句子被放到一个bags中，本文对bags中的实例进行特征抽取与合并，然后作为一个正样例负例构造：随机选取不在freebase中的实体对（有错误的可能，不过很小）训练和测试数据构造：freebase中的关系实例一半用来训练，另一半用来测试。数据使用维基百科数据2:1的训练和测试数据分配。测试时只对在训练时未出现（不属于训练时的freebase中）的实例对分类 4.2 远程监督降噪上面提到：由于 mintz 远程监督的假设过于理想，所以带来很多噪声（wrong-labled，false-positives问题）。据统计，在NYT语料集中，约有31%的假正例问题，这个比例还是非常高的。[思想] 为了解决这个问题，在Modeling Relations and Their Mentions without Labeled Text Riedel.2010这篇论文中，Riedel等人将多示例学习的思想引入到远程监督关系抽取当中,即做At-Least-One假设：在远程监督假设的基础上，进一步假设在所有包含两个entity的句子中，至少有一个句子可以表示relation，即至少有一个标注正确的句子。也就是说如果两个实体对存在某种关系，在所有包含该实体对的句子实例集（bags）中至少有一个实例表达了这种关系关于多示例学习的内容可以参考多示例学习假设训练数据集中的每个数据是一个包(Bag)，每个bag都是一个示例(instance)的集合,每个包都有一个训练标记，而包中的示例是没有标记的；如果包中至少存在一个正标记的示例，则包被赋予正标记；而对于一个有负标记的包，其中所有的示例均为负标记。我们的目的得到每个bag的标签，并不关注bag里面instances的。因为每个bag上的label就是两个entity的relation。采取的措施是根据At-Least-One的假设，每个Bag都有至少有一个标注正确的句子，这样就可以从每个bag中找一个得分最高的句子来表示整个bag 基于At-least-one假设，近年来关于远程监督降噪，我们一步步提出了如下的降噪算法 #如图所示#Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks zeng.2015 zeng等人在ACL2015上提出的模型不仅应用了多示例学习，还改进了有监督关系抽取领域标准CNN模型。下面将进行简单介绍。总的来说，论文思想: 基于多示例学习来解决噪声问题，然后提出PCNN的pooling方式来解决第二个问题同时，这也是第一篇引入深度学习方法的远程监督关系抽取的领域论文。在此之前，原始方法大都是基于词法、句法特征来处理，无法自动提取特征。而且句法树等特征在句子长度边长的话，正确率很显著下降。而采用CNN等深度学习的方法来自动的学习和抽取特征，使得模型的鲁棒性大大的提高。 PCNN模型介绍模型的框架 #如图所示#由于一个实体对会天然的把所在的句子分为三个部分，即实体1之前、实体1和实体2之间、实体2之后的文本。根据这个特点，zeng等人在CNN的基础上提出了分段池化的思想，即将这三部分的卷积结果进行分段最大池化，这样可以得到三个值，相比传统的max-pooling 每个卷积核只能得到一个值，这样可以更加充分有效的得到句子特征信息。假设一共有个N个卷积核，最终pooling之后得到的sentence embedding的size为: 3N, 后面再加softmax进行分类，最终得到输出向量

o

上面的示意图很清晰了，其中的

c_1,c_2,c_3

是不同卷积核的结果，然后都分为3段进行Pooling。下面可以减弱错误label问题的Multi-Instance Learning。这里面有一个概念，数据中包含两个entity的所有句子称为一个Bag。 At-Least-One假设降噪基于At-Least-One思想，zeng等人假设每个Bag都有至少有一个标注正确的句子，这样就可以从每个bag中找一个得分最高的句子来表示整个bag,于是定义如下的目标函数

J(\theta) = \sum_{i=1}^Tlogp(y_i|{m_i}^j;\theta)

j^* = arg max_f p(y_i|{m_i}^j;\theta) 1<= j <= q_i

j* ：计算根据bag中示例和参数，最有可能得到bag对应的关系y_i的示例，然后用该示例的得分计算目标函数论文在NYT数据集上进行测试，从试验结果来看效果还是很不错的，这是第一次将CNN和多示例学习应用到远程监督，并试验证明确实能减弱噪声。但是，作者在MIL直接取置信度最高的示例代表bags，会带来信息的损失。 Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks Jiang.2016 该问从跨句子最大池化的角度来解决 zeng.2015所遇到的问题。基本思想取最高置信度信息丢失：对bag内部的所有sentence embeding做instance-max-pooling的操作关系重叠问题：对于多标签，使用多个二分类函数来做多标签分类，即：使用sigmod计算每一个类别的概率, 然后判断该bag是否可能有这种关系。模型框架 #如图所示#使用CNN或PCNN模型根据句子的嵌入表示抽取特征，然后直接在每一维度取最大值组合出新的向量g之后基于全连接得到中间结果o,最后使用sigmoid得到每个relation的概率，并设定两种损失对比

Loss_{sigmoid} = -\sum_{i=1}^l y_ilog(p_i) + (1-y_i)log(1-p_i)

Loss_{squared} = \sum_{i=1}^l(y_i-p_i)^2

总结仅仅对bags内的sentence的每一维度取了最大值，就可以得到一个很不错的效果，可以考虑其他稍微复杂一些的融合方式，从而得到更多的信息，Attention仅仅取权重，其实还是属于线性融合。 Neural Relation Extraction with Selective Attention over Instances Lin.2016 在zeng.2015的基础上，这篇论文引入了Attention机制来处理噪声问题。[基本思想] 一个bag内可能有很多个positive instance。应用Attention机制可以减弱噪音，加强正样本，因此可以更充分的利用信息。模型的框架 #如图所示#作者提出了不同的方法来综合bags中所有实例的信息 Average 直接取平均:

\sum_{i=1}^n x_{i_s}

，这种将所有instance同等对待的方式还是有缺陷，放大了噪音影响。Attention 目标是增加positive instance的权重，减小noise instance的权重。但是并不知道每个instance的groud truth，但是知道每个bag的label，因此就可以用instance 与该relation label的相关度大小引入Attention: 如下

e_i = x_i Ar,

\alpha_i = \frac{exp(e_i)}{\sum_k exp(e_k)}

其中A为Attention对角矩阵，r可以认为是该数据的relation标签的embedding向量。这样ei就可以一定程度表示句子与标签的相关性。得到加权s作为bag的嵌入，然后与关系标签的embdding 计算相似度作为关系r的得分，然后每个关系的score计算完后，利用softmax来归一化成概率在测试阶段，当前的测试示例没有label，就与关系嵌入矩阵M计算权重耦合，然后得到s,然后使用s在于关系r做线性分类，softmax得到r的预测概率实验分析实验结果 #如图所示#Attention的效果最好, 而且+ONE比+AVE要稍微好一些，也很容易理解，+AVE对噪音数据放大了影响。最后一组实验则是更进一步验证Attention的作用。因为在测试数据中，有超过3/4的bags 只有一个句子。因此文中把拥有多个句子的entity pair 提取出来验证效果，在该子集上使用一下三种设置: One: 表示在每个bag里面随机选择一个句子来进行预测Two: 表示在每个bag里面随机选择两个句子来进行预测All: 使用bag里面所有的句子来进行测试 Reinforcement Learning for Relation Classification from Noisy Data. Feng.18 随着增强学习和对抗网络等技术的发展，将其应用到远程监督关系抽取领域来做假正例识别器收到了越来越多研究者的关注。值得一提的是，这些假正例识别器是时间应用的时候都可以作为一种即插即用的技术，放在远程监督关系抽取模型之前。基本思想分别训练实体选择器（假正例识别器）、关系分类器通过实体选择器，从一组句子中选出高质量的句子，然后通过句子级别的关系分类器来选择关系。并且如果一整个包的句子标签都是错误的，那么实例选择器将会过滤掉整个包。模型的基本架构 #如图所示# 实体选择器状态

s_i

主要包含当前句子，已经选过的句子（平均）以及实体对。一对实体的Vector表示是从预训练的knowledge graph embedding中获得。增强学习为了让奖励更新更加有效，每个袋子将会更新一次。同时，合并每个袋子中选择的句子作为一个纯净的标注数据用于训练动作

a_i

的的取值是{0,1}，表示是否选取一个句子。模型完成所有的选择之后，会有一个最奖励，因此只需要在最终状态s|B|+1接收一个delayed reward，其他状态的奖励都是0。使用平均似然来计算奖励 Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning Qin.18 这篇论文是在feng.2018的基础上做出来了改进。为了解决wrong labeled（样本噪声）问题，人们尝试利用注意力机制对含有噪声的句子集合赋予权重以选择出有效的训练样本。但是，作者认为这种只选择出一个最佳样本的思路并不是最优的策略（因为作者认为假正例应该完全被放入负例集中，而不是分配一个较低的权重）。为了提高模型的鲁棒性，对于假正例不应只是简单的移除，而是应把它们放在正确的位置——负例集合中。模型的框架 #如图所示#框架能够动态识别假正例数据，但是并不是简单的移除，而是将其移动到负例集中，然后对重新分配的训练集进行学习，并使用测试集进行测试，根据测试结果对之前的划分行为进行奖励或惩罚，最终使模型能够自动识别假正例实例。也就是说模型要根据关系分类器性能的变化，决定是保留还是移除当前的实例（即一个句子）。然后，框架进一步使基于深度强化学习策略的 agent 学会如何重建一个纯净的远程监督训练数据集。作者描述为性能驱动、基于决策的强化学习、启发式的识别关于该论文的详细内容可以移步我的个人博客或直接阅读作者的论文。 DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction Qin.18 这篇论文使用了生成式对抗网络对关系抽取任务进行降噪，通过对抗网络获取基于句子层面的生成模型，与传统的对抗网络中用于生成新数据的生成模型不同，这里的生成模型的作用是识别数据集中的噪声数据，对训练集进行降噪来提升关系抽取模型的表现效果。使用判别模型识别错误数据和正确（true/false positive），生成模型则从所有数据中生成真实正确的数据并将其标注为负例，识别所有的错误数据（已知错误和假阳性数据）标注为正例，并将标注好的数据加入到判别模型用于干扰。如果生成模型能够很好地分类，那判别模型的效果将会降低，从而可以判断训练停止的条件。从sentence level层面解决bag噪声问题，和增强学习的思想类似模型结构 #如图所示#生成模型训练完成后，将用于对原始训练集进行降噪。训练集中得分低于阈值的数据将作为噪声数据剔除；而如果所有包含同一实体对的句子的模型得分都低于阈值，那么该实体对及其句子集合将作为其对应关系类别的负例。降噪后的训练集可以应用于任一已有的关系分类模型，使得该模型的表现能够进一步提升。 4.3 多标记学习上文中提及，由于远程监督假设每种关系都只有一种关系，而这与实际的场景是不符的。据统计，NYT语料中7.5%的实体对存在多标记问题。所以 Surdeanu.2012 在Multi-instance Multi-label Learning for Relation Extraction Surdeanu.2012这篇论文中提出了多标记学习的思想。练集中的每个 instance 都有一个 label，但是允许一个实体对在不同的语境中显示不同的标记使用基于潜在变量的图模型，联合建模文本中一个实体对的所有实例及其标签模型架构 #如图所示#作者使用因子图来做特征的抽取，在不知道一个关系提及可能表示的关系时，使用一个隐变量z来表示（为预定一的k个关系标记中的一个或NIL）

M_i

当时实体对应的提及的集合，

x_i

表示句子z是一个多分类器，

y_i

是二分类器，用于表示同一个实体对是否可以具有两个标记，

w

为权重向量使用wike的infoboxes来标注对齐训练数据，对于每个实体对，检索多大50个包含这个实体对的提及从论文给出的试验结果来看，作者提出的方法确实有一定的提升，尤其是在准确率上，这可能是因为MIM模型是具有消除不需要标记的能力这也是第一篇提出多标记学习的论文，之后的论文再多标记学习方面都会简介这个论文。 4.4 其他经典论文 Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions Ji.17 这篇文章引入了额外的Knowledge Graph 信息: 实体描述(entity Description). 从而弥补了背景知识不足的缺陷。每个实体在FB或wiki中都有一段文字描述，文中认为现在的工作都集中在NYT + Freebase数据本身上，却忽略了该数据集中背后的KG信息，其中就有实体的描述信息。因此本文在之前的工作基础上引入了实体描述信息，加强对实体embedding的学习。此外，在处理Multi Instance Learning方面，本文同样使用了Sentence-Level Attention的机制，类似Lin 2016. 借鉴graph embedding的思想，使用两个实体的词向量相减得到关系的分布式表示，然后和句子向量拼接计算权重，然后通过加权耦合得到整个bag的一个表示。模型框架 #如图所示#使用PCNN获取句子向量，然后将每个句子与关系向量联合计算权重，然后使用bag的向量表示计算关系r的预测作者使用CNN模型对描述做特征抽取，使用如下目标函数更新e的表示

L_e = \sum_{i=1}^{||D||} {|| e_i-d_i||_2}^2

GAN Driven Semi-distant Supervision for Relation Extraction Li.2018 由于知识库中知识的不完整性，远程监督数据集中存在一部分错误标记的负例问题（包含真实关系的句子被标记为负例）所以作者提成了一种半远程监督思想的算法来解决上述问题构建一部分小的精准数据集合，适当的利用没有标记的大量实例基于GAN来进一步的利用未标记实例通过示例的定义（描述）相互包含则很有可能存在关系来判断一个负例有没有可能被错误标记模型框架 #如图所示# （句子特征抽取模型没有改进，只在远程监督方面改进）模型包括句子编码器，生成器和判别器。生成器最小化标注数据和未标注数据的分布，判别器则最大化实例之间的区分度。 RESIDE: Improving Distantly-Supervised Neural Relation Extractionusing Side Information Vashishth.2018 在这篇论文中，作者引入了实体类别和关系别名来增强数据的特征提出GCN来对语义信息进行建模模型框架 #如图所示# 从模型中看出，作者使用GCN语法树和GRU来编码句子的表示。给定一个句子，基于CoreNLP生成依赖树，并使用BI-GRU的结果作为节点表示输入到GCN中，然后使用GCN抽取特征删除噪声（边）:通过给每条边分配一个相关性得分，第k层边得分

g_{uv}^k = \Sigma {h_u}^k{w_{luv}}^k + b_{luv}^k)

最终的节点特征编码为

{h_v}^k+1 = f(\sum_{w \in \Nu (v)}{g_{uv}}_k) * (W_{luv}^k{h_u}^k + {b_{luv}^k})

5 业务应用

在实习期间，我们初步构建了一个远程监督的关系抽取框架。整个关系抽取框架可以分为数据处理与远程标注、模型训练、关系预测、下游过滤、boostraping模板生成几个阶段。首先利用KG中已有的数据模式和知识库对网络语料（百科简介等）等进行标注。在这里，我们采用了基于规则的方法对标注的正例做了一个基本的降噪处理，对明显不符合特定语义关系的句法规则的（假）进行过滤。后期可以使用EL技术来确定实体串的ID，从而在做更强更准确的降噪。例如上面举得苹果和乔布斯的例子，就可以通过EL连接到ID来实现降噪。在模型训练阶段，我们尝试了各种经典的句子特征抽取模型：PCNN,CNN,RNN和BiRNN四种模式，目前来看是PCNN拥有最好的特征抽取能力，BiRNN次之，所以可以首选使用PCNN来做特征抽取。在降噪方面，我们采用lin.2016提出的Attention思想降低噪声数据的权重，从而抑制假正例问题对模型的影响。另外，我们借鉴了feng.2018的思想，采用增强学习的技术来训练一个假正例识别器，使得模型能够更好地降噪下游过滤阶段，优先使用基于规则的过滤，根据句法等特征来判断来判断两个实体对是否是不可能存在目标关系的，从而将确定不存在关系的预测结果排除。下一阶段，为了更好地让模型快速拓展至新的领域，应考虑融合kg embedding的信息来做下游过滤。模板生成是指利用远程监督模型预测的结果来生成一批高质量的种子，对高频的模板进行提取得到种子，再应用文本来抽取更多的实体。可以进一步考虑基于种子模板来提取正则模板，提高种子的置信度和覆盖率（只是最后一步需要人工参与，也可以不做）。目前，该关系抽取框架覆盖了“作品”、“专辑”、“演唱者”等8中语义关系，也可以快速的扩充到更多的关系类型，一般来说，最好保证相近领域、数量均衡的关系类型放在一起训练。在远程监督实际落地应用的过程中，还有一个必须要解决的问题就是如何有效的构造负例。因为远程标注只能产生正例，而负例就必须通过采样得到。例如下面一句话： “杜歌 2018年4月，发行与安琥合唱的单曲《打个电话》；同年7月，发行由音乐人高进作词作曲的单曲《在何方》，并在歌曲MV中出演一名缉毒警察” 以及知识库中存在的关系（ “杜歌”，“演唱歌曲”，“打个电话” ）（“高进”，“作品”，“在何方” ）“杜歌”，“饰演”，“缉毒警察” ）一般来说，会将不存在关系的实体对直接采样成负例如表中第一列所示，但是可以看到“杜歌”和“高进”在这句话中是肯定不存在各种待预测目标语义关系的。所以我们根据关系类型为依据来限制可采样的实体，也就是说“高进”作为主体时，对应作品这一关系类型，然后“高进”在这里是个人物，不会成为作品的客体，所以这个负例就被过滤掉。但同时，“高进”和“缉毒警察”这么一个负例也会别过滤掉，为了解决这个问题，我们放宽限制，使得相近的关系类型也可以被采样，从而就保留到了“高进”和“缉毒警察”这么一组负例。试验效果分析在模型训练过程中，我们使用AUC作为性能的评价指标。目前来看 PCNN +attention的模型能够取得更好地效果,muqian ,我们使用的是使用中文百科训练的一个词向量，如果不考虑Bert模型的时效性问题，可以使用Bert模型来做。在通过下游过滤之后，人工标注了Top20的数据对模型进行评估评估结果 #如下表所示# 本文简单介绍了关系抽取领域的一些分类的技术体系和经典的方法，最后介绍了我们使用远程监督思想来做关系抽取的一些探索。下一步，我们将会考虑将远程监督模型作为上游任务，再下游使用kg embedding的信息来做更有效地过滤，从而解决远程监督准确率不高，而基于规则的方法可扩展性较差的问题。参考论文 Relation Classification via Multi-Level Attention CNNs，ACL2016Classifying Relations by Ranking with Convolutional Neural Networks. ACL2015Attention-Based Bidirectional Long Short-Term Memory Networks for Relation ClassificationA Survey of Deep Learning Methods for Relation Extraction. Shantanu Kumar. 2017. Relation Extraction : A Survey. Sachin Pawara,b, Girish K. Palshikara, Pushpak Bhattacharyyab. 2017. Distant supervision for relation extraction without labeled data 09Knowledge-Based Weak Supervision for Information Extraction of Overlapping Relations 2011Modeling Relations and Their Mentions without Labeled Text 2010Multi-instance Multi-label Learning for Relation Extraction 2012Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks 2016 - Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks - Neural Relation Extraction with Selective Attention over InstancesAdversarial Training for Relation Extraction. Yi Wu, David Bamman, Stuart Russell. EMNLP 2017. A Walk-based Model on Entity Graphs for Relation Extraction. Fenia Christopoulou, Makoto Miwa, Sophia Ananiadou.ACL 2018. Reinforcement Learning for Relation Classification from Noisy Data. Jun Feng, Minlie Huang, Li Zhao, Yang Yang, Xiaoyan Zhu. AAAI 2018.Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning. Pengda Qin, Weiran Xu, William Yang Wang. 2018.A Soft-label Method for Noise-tolerant Distantly Supervised Relation Extraction. Tianyu Liu, Kexiang Wang, Baobao Chang, Zhifang Sui. EMNLP 2017. GAN Driven Semi-distant Supervision for Relation Extraction Hierarchical relation extraction with coarse-to-fine grained attention.Attention-Based Capsule Networks with Dynamic Routing for Relation ExtractionGenre Separation Network with Adversarial Training for Cross-genre Relation ExtractionExtracting Entities and Relations with Joint Minimum Risk TrainingRESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side InformationMulti-Level Structured Self-Attentions for Distantly Supervised Relation ExtractionA Hierarchical Framework for Relation Extraction with Reinforcement LearningRanking-Based Automatic Seed Selection and Noise Reduction for Weakly Supervised Relation Extraction 2018Neural Relation Extraction via Inner-Sentence Noise Reduction and Transfer Learning 2018Label-Free Distant Supervision for Relation Extraction via Knowledge Graph EmbeddingCombining Distant and Direct Supervision for Neural Relation Extraction 2019Distant Supervision Relation Extraction with Intra-Bag and Inter-Bag Attentions 2019Adversarial learning for distant supervised relation extraction 2018Graph Convolution over Pruned Dependency Trees Improves Relation Extraction 2018Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism 2018N-ary Relation Extraction using Graph State LSTMJoint extraction of entities and relations based on a novel tagging schemeSelf-training improves Recurrent Neural Networks performance for Temporal Relation Extraction https://www.aclweb.org/anthology/W18-5617Sentence Embedding Alignment for Lifelong Relation ExtractionConnecting Language and Knowledge with HeterogeneoLong-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks Graph Convolution for Multimodal Information Extraction from Visually Rich DocumentsExtracting Entities and Relations with Joint Minimum Risk Training Label-Free Distant Supervision for Relation Extraction via Knowledge Graph EmbeddingRevisiting Distant Supervision for Relation ExtractionA Unified Architecture for Semantic Role Labeling and Relation ClassificationCooperative Denoising for Distantly Supervised Relation Extraction

最新回复(0)