chap2 Probability Distribution笔记

mac2024-01-24  38

1.参数方法与非参数方法

Parametric method: assume a specific functional form for the distribution. Nonparametric method: form of distribution typically depends on the size of the data set. Such models still contain parameters, but control the model complexity rather than the form of the distribution.

2.Conjugate prior

lead to posterior distribution having the same functional form as the prior

2.1 Conjugate prior的意义

方便进行Bayesian inference,甚至是sequential Bayesian inference **sequential Bayesian inference:**得到一个 observation 后,可以算出 posterior;由于选取的是 共轭先验,所以 posterior 和原来的 prior 形式一样,可以把该 posterior 当作新的 prior,用于 下一个 observation,如此迭代下去。对于 stream of data 的情况,这种方式可以实现 real-time learning。

Conjugate prior的计算

以multinomial分布为例,计算一个分布的共轭先验分布 其他分布的共轭先验可类似推导。基本思路是:先确定参数在 prior 中具有的 functional form,然后归一化求系数。

3. 多元高斯分布

基础知识:Linear Algebra + Matrix Theory, Multivariate Calculus

准备: 一元高斯函数在 R 上的积分计算; 任意 random vector 的协方差矩阵是非负定的; 任意正定矩阵 A,存在非奇异矩阵 G,使得 A = G’G; 重积分换元定理; 特征函数(probability density function 的一个傅立叶变换); 线性变换的特征向量和特征值;

待解决的问题: 证明多元高斯的 probability density function 是归一化的; 推导 conditional gauss distribution;(涉及:completing the square,即配方法;待定系数法; inverse of partitioned matrix 公式) 推导 marginal gauss distribution;

对多元高斯的评述: (1) 参数太多,计算复杂(协方差矩阵是维度的平方级的参数个数) (2) 单峰函数,建模能力有限 以上两者形成某种矛盾: 一方面是参数多,模型应该是更 flexible 的; 而另一方面,它却不能建模 multimodal function。

多元高斯的扩展:支持 multimodal function (1) introducing discrete latent variables:例如 Gaussian Mixtures model。 (2) introducing continuous latent variables:例如 Linear Dynamic System。 以及还有其他的扩展。

3.1Linear Gaussian Model

Given Gaussian distribution p(x) and p(y|x),而且 p(y|x)的 mean 是 x 的线性函数,covariance与 x 无关。求:p(y),p(x|y)。

4. 函数的微分

5. The Exponential Family

指数族分布的形式:

6. 无信息先验

The prior intended to have as litter influence on the posterior distribution as possible. 当参数的取值有界时,均匀分布是无信息先验; 当参数的取值无界时,均匀分布不能 normalize,是 improper 的。 Translation invariant 和 Scale invariant 的两类分布的无信息先验。

7.Nonparametric methods

问题:给定 D 维空间中观察到的 N 个数据样本,估计密度函数 p(x) (这是一个unsupervised learning) 方法:在足够小的区域 R 中考虑问题。任取一个点 x,设落入 R 的概率是 P。设观察到 N 个样本,则 R 中落入 K 个点的概率是分别 Bin(K|N,P)。 由于 R 足够小,所以 p(x)在 R 中近似常数,所以:P = p(x) * V,V 是 R 的测度(体积); 由于 N 足够大,二项分别 Bin(K|N,P)的取值集中在均值 N*P 附近,即:K = N * P。 以上两式联立,可以得到区域 R 上的密度函数近似值:p(x) = K / (N * V)。 缺点讨论:h 的大小难以确定。在 regions of high data density,h 应该小一些,否则可能 lead to over-smoothing and washing out of structure that might otherwise be extracted from the data;相反,数据稀疏的地方,h太小可能lead to noisy estimate。所以h的取值和location 有关,而不应该一刀切。

kNN:固定 K,在数据集上计算为了含有 K 个点所需要的 V(一个超球)。注意,kNN 也可以用于 classification,kNN 分类算法是一个最大 posterior 的分类(MAP)。

最新回复(0)