贝叶斯网络
朴素贝叶斯
假设
一个特征出现的概率,与其他特征(条件)独立(特征独立性)
含义:对于给定分类条件下,特征独立 每个特征同等重要 推导
对于给定特征向量
X
=
x
1
,
x
2
,
.
.
.
,
x
n
X=x_1,x_2,...,x_n
X=x1,x2,...,xn类别y的概率根据贝叶斯公式得到:
P
(
y
∣
X
)
=
P
(
y
)
P
(
X
∣
y
)
P
(
X
)
P(y|X)=\frac{P(y)P(X|y)}{P(X)}
P(y∣X)=P(X)P(y)P(X∣y)使用朴素的独立性假设:
P
(
x
i
∣
y
,
x
1
,
.
.
.
,
x
i
−
1
,
x
i
+
1
,
.
.
.
,
x
n
)
=
P
(
x
i
∣
y
)
P(x_i|y,x_1,...,x_{i-1},x_{i+1},...,x_n)=P(x_i|y)
P(xi∣y,x1,...,xi−1,xi+1,...,xn)=P(xi∣y)
P
(
y
∣
X
)
=
P
(
y
)
P
(
X
∣
y
)
P
(
X
)
=
P
(
y
)
∏
i
=
1
n
P
(
x
i
∣
y
)
P
(
X
)
P(y|X)=\frac{P(y)P(X|y)}{P(X)}=\frac{P(y)\prod\limits_{i=1}^nP(x_i|y)}{P(X)}
P(y∣X)=P(X)P(y)P(X∣y)=P(X)P(y)i=1∏nP(xi∣y)由于样本给定,P(X)为常数。故
P
(
y
∣
X
)
P(y|X)
P(y∣X)和
P
(
y
)
∏
i
=
1
n
P
(
x
i
∣
y
)
P(y)\prod\limits_{i=1}^nP(x_i|y)
P(y)i=1∏nP(xi∣y)成正比故
y
^
=
arg max
y
P
(
y
)
∏
i
=
1
n
P
(
x
i
∣
y
)
\hat{y}=\argmax\limits_yP(y)\prod\limits_{i=1}^nP(x_i|y)
y^=yargmaxP(y)i=1∏nP(xi∣y) 高斯朴素贝叶斯
特征服从高斯分布
y
^
=
arg max
y
P
(
y
)
∏
i
=
1
n
P
(
x
i
∣
y
)
\hat{y}=\argmax\limits_yP(y)\prod\limits_{i=1}^nP(x_i|y)
y^=yargmaxP(y)i=1∏nP(xi∣y)
P
(
x
i
∣
y
)
=
1
2
π
σ
y
e
x
p
(
−
(
x
i
−
μ
y
)
2
2
σ
y
2
)
P(x_i|y)=\frac{1}{\sqrt{2\pi}\sigma_y}exp(-\frac{(x_i-\mu_y)^2}{2\sigma_y^2})
P(xi∣y)=2π
σy1exp(−2σy2(xi−μy)2) 多项分布朴素贝叶斯
特征服从多项分布对每个类别y,参数
θ
y
=
(
θ
y
1
,
θ
y
2
,
.
.
.
,
θ
y
n
)
\theta_y=(\theta_{y1},\theta_{y2},...,\theta_{yn})
θy=(θy1,θy2,...,θyn),其中n为特征的数目,
P
(
x
i
∣
y
)
P(x_i|y)
P(xi∣y)的概率为
θ
y
i
\theta_{yi}
θyi参数
θ
y
\theta_y
θy使用MLE估计的结果为:
θ
^
y
i
=
N
y
i
+
α
N
y
+
α
⋅
n
,
α
≥
0
\hat{\theta}_{yi}=\frac{N_{yi}+\alpha}{N_y+\alpha\cdot n}, \ \alpha \ge 0
θ^yi=Ny+α⋅nNyi+α, α≥0
α
=
1
\alpha=1
α=1称为Laplace平滑
α
<
1
\alpha<1
α<1称为Lidstone平滑 假定训练集为T,则
N
y
i
=
∑
x
∈
T
x
i
N_{yi}=\sum\limits_{x\in T}x_i
Nyi=x∈T∑xi
N
y
=
∑
i
=
1
∣
T
∣
N
y
i
N_y=\sum\limits_{i=1}^{|T|}N_{yi}
Ny=i=1∑∣T∣Nyi
y
^
=
arg max
y
P
(
y
)
∏
i
=
1
n
P
(
x
i
∣
y
)
\hat{y}=\argmax\limits_yP(y)\prod\limits_{i=1}^nP(x_i|y)
y^=yargmaxP(y)i=1∏nP(xi∣y) 贝叶斯网络
把系统中的随机变量,根据是否条件独立,绘制到一个有向图中又称有向无环图模型,是一种概率图模型根据概率图的拓扑结构,考察一组随机变量及其条件概率分布的性质一个箭头的两个结点间对应一个条件概率值每个结点给定其直接前驱时,条件独立于其非后继全连接贝叶斯网络
每一对结点之间都有边连接
p
(
x
1
,
x
2
,
.
.
.
,
x
k
)
=
p
(
x
k
∣
x
1
,
.
.
.
,
x
k
−
1
)
.
.
.
p
(
x
2
∣
x
1
)
p
(
x
1
)
p(x_1,x_2,...,x_k)=p(x_k|x_1,...,x_{k-1})...p(x_2|x_1)p(x_1)
p(x1,x2,...,xk)=p(xk∣x1,...,xk−1)...p(x2∣x1)p(x1)
p
(
X
)
=
∏
i
=
1
n
p
(
x
i
∣
x
i
+
1
,
.
.
.
,
x
n
)
p(X)=\prod\limits_{i=1}^np(x_i|x_{i+1},...,x_n)
p(X)=i=1∏np(xi∣xi+1,...,xn)全部随机变量的联合分布
p
(
X
)
=
∏
i
=
1
n
p
(
x
i
∣
p
a
r
e
n
t
s
(
x
i
)
)
p(X)=\prod\limits_{i=1}^np(x_i|parents(x_i))
p(X)=i=1∏np(xi∣parents(xi)) 特殊的贝叶斯网络:结点形成一条链式网络,称作马尔可夫模型