目录
多元正态分布
聚类分析
1. 基本思想
2. 两种类型
3. 相似性度量
4. 分类数的确定原则
5. 聚类方法
5.1 系统聚类法(谱系聚类法/层次聚类法)
5.2 模糊聚类
5.3 k均值聚类
5.4 有序样品的聚类
Q&A
鉴于自己数理基础弱,这部分不做整理了,放一些看了有收获的相关文章,以便参考。
《多元正态分布》:https://blog.csdn.net/omade/article/details/28232047
提出了多维随机变量;多元中,均值用均值向量代替,方差用协方差矩阵代替。给出了多元正态分布表达式,推导了二维。
通过相似程度(距离远近、相关关系),选取度量样本或指标相似程度的统计量,对对象分类,使同类中对象的相似性>与其他类的对象的相似性。目的是,使类内对象同质性最大,使类间对象异质性最大。
基本思路是,选择研究的变量(指标),如有必要则做数据标准化,求相似性,选择聚类方法和类数,对聚类结果解释并评价(评价方法:[1]R^2、伪F值; [2]每次分类的结果做方差分析,研究各类的均值是否有显著差异;多元方差分析/多元均值检验; [3]反复聚类,比较结果,分析可靠性、稳定性。)
注:聚类是不需要提前确定各类标准的,它是根据对象的相似性而分出的类。其实在生活中很常见,比如我们会比较他人和自己的处境相似程度以决定如何行动最有效,远古人类没有经验却能区分动植物大致种类,未受艺术教育的观众也可以将抽象派和写实派的画作聚类。
相关链接(均属于拓展内容),按照知识复杂程度(个人划分的),由浅到深排列。
《聚类方法(Clustering)》:https://wenku.baidu.com/view/0307c12d4b35eefdc8d333db.html
讲座报告。聚类分析的目的是,寻找潜在的“自然”分组结构、感兴趣的关系。介绍了一些聚类算法及数据挖掘方面的聚类。
《聚类分析的思路和方法》:https://wenku.baidu.com/view/1b74ff5184868762caaed5e2.html
与《多元统计分析》(何晓群)的逻辑基本一致。指出了聚类过程是形成一个由小到大的分类系统;聚类的应用如识别用户群体,如根据顾客的购买频率、时间、年龄、性别、消费额等聚类,识别最有消费潜力的用户的特征并投放对应的广告。
《聚类分析》:https://wenku.baidu.com/view/564a70c064ce0508763231126edb6f1aff0071fb.html
部分内容与《实用多元统计分析》一致。
《聚类分析在用户分类中的应用》:https://blog.csdn.net/howardge/article/details/38538003
《arcgis 地图聚类工具》:https://blog.csdn.net/niusi1288/article/details/74356846
《聚类(clustering)与分类(Classification)的区别》:https://blog.csdn.net/gdp12315_gu/article/details/49777797
《聚类方法总结》:https://blog.csdn.net/txwh0820/article/details/52353892
Q型聚类分析:通过变量,对样本分类。
R型聚类分析:通过样本,对多个变量分类。
对数值型变量(大多是此类):
(1)样本间距离:绝对值距离、欧氏距离、明考斯基距离、切比雪夫距离,缺点是距离的大小与各指标观测单位有关,有一定的人为性;没考虑指标间的相关性。
兰氏距离:克服了“距离与单位有关导致的人为性”,但没考虑指标间相关性。
马氏距离:不受指标量纲影响,且考虑了相关性。
(2)变量间相似系数
夹角余弦Cij
Pearson相关系数 rij
对离散型变量:卡方,Ф^2 等
对分类数据:可以通过一些方式定义为数值型
① 类在邻近各类中应该是突出的(各类重心间的距离要大);
② 各类元素不宜多;
③ 类数符合使用目的;
④ 不同方法应有相同的类。
方法:画出X轴——分类数,Y轴——聚合系数(通过类内聚合度及类间分离度得出),在聚合系数变化曲线开始变平缓的点出分类较好。
思想:首先将每个样本单独作为一类,然后将不同类之间距离最近的进行合并,合并后重新计算类间距离,持续进行直到将所有样本归为一类为止。适用于对样本或指标聚类。
对样品(指标)聚类:数据标准化后,先求出样品间距离(指标间相关系数),得出距离矩阵(相似性矩阵),合并后求类间距离并将最近的两类合并,依次计算并合并,画出树状聚类图,可选择类数得到结果。
步骤:
S1. 事先不确定要分多少类,将每个样品各自一类,k 个样品分成了 k 类;
S2. 通过距离或相似程度,对最接近的两个样本或指标合并,得到 k-1 类;
S3. 再找最接近的两类,合并,得到 k-2 类;
……Sk-1. 直至所有样品均在一类,画出谱系图,通过类数确定每类的样品。
(1)类与类间距离的计算
最短距离法:有链接聚合的缺点,浓缩,不够灵敏。
最长距离法:克服了链接聚合的缺点,更扩张,样本量大时易失真(易被异常值扭曲,若存在异常值需剔除)。
重心法:从物理角度出发,有代表性,缺点是没有充分利用样本信息,没有单调性(见4.1(2))。
类平均法:两类间各元素两两之间的平均距离,既不浓缩也不扩张,效果好,应用较广。
离差平方和法(Ward法):来自于方差分析的思想,认为如果分类正确,同类样品之间的离差平方和 SS=∑(xi=x拔)^2 应小,类间样品的SS应大。先将n个样品各自分为一类,每缩小一类,其类内的SS将增大,选择使SS增加最小的两类合并,直至所有样品归为一类。由于全部的分类情况较多,计算量巨大,所以一般只求得局部最优解,而不是精确最优解。
(2)优劣比较原则
[1] 单调性:设第 r 次并类时的类间距离为 Dr,序列 {Dr} 应该是严格单调递增的。重心法没有单调性,其余有。
[2] 浓缩或扩张:A、B 两个方法,在第 k 步时的距离矩阵有 Ak≥Bk,则称 A 比 B 扩张,B 比 A 浓缩。
最短距离法≤类平均≤最长
重心≤类平均≤离差
[3] 定义一个分类函数,即损失函数,求其在某条件下的最优解。
《谱系聚类法》:https://wenku.baidu.com/view/16f0d4aa58fafab068dc02b7.html
很详细,有定义、步骤、例题、R语言代码。
当事物类别差异不清晰时(如气象灾害“重-中-轻”,天气“少云-多云”),多使用模糊聚类。多用于定性变量,具有一定的主观性,结果粗糙,适合于大量数据的快速聚类。
思想:引入了模糊集的概念
S1. 原始数据变换(标准化/极差/对数变换);
S2. 求模糊相似矩阵;
S3. 对模糊矩阵,进行褶积运算,得到模糊等价矩阵;
S4. 给出不同的逐渐下降的置信水平,便可由粗到细分类,可画出树形聚类图。
《模糊聚类分析》:https://wenku.baidu.com/view/86e0aa6b25c52cc58bd6be9a.html
属于非谱系聚类法,画不出树状聚类图;是对样本而不是变量聚类;聚类中无须确定距离阵,也无须存储数据,可应用于比系统聚类法大得多的数据组。
思想:可以不指定类别的个数,在聚类过程中确定;也可以指定各类的聚类中心,再计算个样本到聚类中心的距离,按距离远近分类,形成 k 个新的类,重复至结果稳定。
S1. 确定类别数目 k (事先确定或反复尝试比较后得出);
S2. 确定 k 个类别的初始聚类中心;
S3. 求每个样本到 k 个聚类中心的欧氏距离,根据距离最近原则,将所有样本分到这 k 类中;
S4. 求各类别的每个变量的均值,以均值点作为新的 k 个类别中心。根据中心位置,计算每个样本到新中心的距离,重新分类;
S5. 重复S4,至各类样本无进出为止。
终止条件:① 达到研究者设定的最大迭代次数;② 达到指定精度,即新确定的聚类中心点与上一次迭代的聚类中心点的最大偏移量小于某指定量。
局限/缺点:① 若有两个以上初始形心被归为同一类,会使结果难以区分;② 局外干扰(如异常值)的存在将至少产生一个样本分散的类;③ 抽样方法可能造成,最稀疏类的数据未出现在样本中,此时强行分成 k 类无意义。
前面方法聚类时,样品是独立且地位平等的。而有序样品(如时间、地层深度等在时域或空域存在自然顺序),如1949——2019年的国民收入可分为几个阶段,需要形成不破坏样品顺序的聚类结果。实质是找出分点将有序样品分段,称为分割。此时的分割可能结果远远少于系统聚类法时的结果,所以计算量小,可求出精确最优解。
思想:是分割问题,依据离差平方和方法,将 n 个样品分成 k 类,就是在 n-1 个间隔插上 k-1个棍子。采用费歇尔算法,可求出精确最优解。先求分成两段即插上第一根棍子的最优分割,也即此时各类离差平方和最小的分割。再求插第二根棍子的最优分割,最后得到插入第 k-1 根时的最优分割,完成了聚类。
《有序样品聚类(最优分割法)》:https://www.cnblogs.com/gispathfinder/p/5813310.html
《聚类分析之有序样品的聚类》:https://wenku.baidu.com/view/9f1aab75910ef12d2bf9e721.html
这里定义的类直径就是离差平方和,最后根据离差平方和最小原则选择的。
1. Q型聚类分析与R型的异同点?
相同点:都是聚类分析方法;都涉及到类,类内同质性最大,类间异质性最大。
Q型R型依据变量,对样本进行分类依据样本,对多个变量进行分类目的是将相似的样本并类,便于分析其特征目的是将指标并类,便于精简研究指标,后续可做回归分析或Q型聚类利用距离矩阵利用相似性矩阵作用 ① 利用多个变量对样本分类;② 分类结果直观,聚类谱系图清楚表达数值分类结果;③ 结果比传统的定性分类方法更细致、全面、合理作用 ① 了解变量间及变量组合间的亲疏关系;② 根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或Q型聚类分析《用SPSS做聚类分析》:http://www.wlxt.uestc.edu.cn/wlxt/ncourse/mathlab/web/shiyan/front/StudyArea/pdf/SPSS/SPSS-2.pdf
《Q型聚类分析》:https://blog.csdn.net/wyh7280/article/details/48175067
《R型聚类分析》:https://blog.csdn.net/wyh7280/article/details/48176141
2. 系统聚类法与 k 均值聚类的异同点?
相同点:都按照距离最近原则分类;都是得到局部最优解。
系统聚类法k均值聚类事先不指定类别个数事先确定分为 k 类可以对样本或指标聚类只可以对样本聚类属于谱系聚类法,可画出树状聚类图
非谱系聚类法,画不出树状图
由于每次都需要计算各类间的两两距离,计算复杂度高于k均值聚类,处理的数据量也相应小不用确定距离阵,不用存储数据,所以适合数据量大于系统聚类法的数据组不需要数据点的坐标,只计算距离,可采用多种距离计算方式由于要取均值,所以需要数据点的坐标,只适合用欧氏距离度量相似性,聚类中心是对欧氏距离的简单平均(若是非欧距离则不可简单平均求得)《聚类算法实践(一)——层次聚类、K-means聚类》:https://blog.csdn.net/sky88088/article/details/51501644
3. 最短距离法的缺陷?
不适合对分离得很差的群体聚类(如离得很近的两类其实不满足异质性,但最短距离法看不出),链接聚合(挑选长链聚类的倾向,但链的两端可能很不相似)。
之前复习这部分感觉云里雾里,整理的一些脉络, 结果越整理越详细,哈哈滚雪球。 后面也是,学到问题多的地方,再这么详细地整理吧。
