CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition
总结
作者提出了基于注意力机制的卷积神经网络架构,用于中文命名实体识别。
主要的框架是CNN with the local-attention 和Bi-GRU with global self-attention
总体的框架图如下:
Convolutional Attention Layer
字符的嵌入输入
x
x
x
x
=
[
x
c
h
;
x
p
o
s
;
x
s
e
g
]
x = [x_{ch}; x_{pos};x_{seg}]
x=[xch;xpos;xseg]
x
c
h
x_{ch}
xch代表word2vec的词向量
x
p
o
s
x_{pos}
xpos: 代表local context position。CNN的windows size是
k
k
k,
x
p
o
s
x_{pos}
xpos的维度为
k
k
k,独热编码表示
x
s
e
g
x_{seg}
xseg:作者说是由BMES模式编码的分词信息,没有具体解释
local attention步骤
cnn windows有k个元素,
x
j
−
k
−
1
2
,
.
.
.
x
j
.
.
.
.
x
j
+
k
+
1
2
x_{j-\frac{k-1}{2}}, ...x_j....x_{j+\frac{k+1}{2}}
xj−2k−1,...xj....xj+2k+1
s
(
x
j
,
x
k
)
=
v
T
t
a
n
h
(
W
1
x
j
+
W
2
x
k
)
s(x_j,x_k) = v^{T} tanh(W_1x_j + W_2x_k)
s(xj,xk)=vTtanh(W1xj+W2xk)
v
∈
R
d
h
W
1
;
W
2
∈
R
d
h
;
d
e
v \in R^{d_h} W_1; W_2 \in R^{{d_h};de}
v∈RdhW1;W2∈Rdh;de
α
m
=
e
x
p
s
(
x
j
,
x
m
)
∑
n
∈
{
j
−
k
−
1
2
,
.
.
.
,
j
−
k
+
1
2
}
e
x
p
s
(
x
j
;
x
n
)
α_m = \frac {exp s(x_j,x_m)}{\sum_{n \in \{j-\frac{k-1}{2},...,j-\frac{k+1}{2} \}} exp \ s(x_j; x_n)}
αm=∑n∈{j−2k−1,...,j−2k+1}exp s(xj;xn)exps(xj,xm)
h
m
=
α
m
x
m
h_m = α_mx_m
hm=αmxm
卷积步骤
h
j
c
=
∑
k
[
W
c
∗
h
j
−
k
−
1
2
,
.
.
.
,
j
−
k
+
1
2
+
b
c
]
h^c_j = \sum_k[W^c ∗ h_{j-\frac{k-1}{2},...,j-\frac{k+1}{2}}+b_c]
hjc=∑k[Wc∗hj−2k−1,...,j−2k+1+bc]
典型的卷积操作,只不过是最后sum pooling layer
BiGRU_CRF with global Attention
跟BiLSTM+CRF没有什么区别,主要是加了一个中间加了一个global attention
与上面的local attention类似,只不过范围不再是cnn的windows size,而是针对
整个序列