纯干货！埃森哲的大数据分析框架分享-part 2

mac2024-02-19 58

“接着上一篇的内容，这篇主要讲在PPT中提到的几种分析方法以及每种方法的实现方式”

0、简述

在我们做数据分析或者数据挖掘时肯定要借助一些分析方法来得到我们想要的结果，我们根据PPT的内容主要介绍几种主要的分析方法，具体内容： 1.1 分类与回归 1.2 聚类分析 1.3 关联分析 1.4 时序模型 1.5 遗传算法 2 数据分析工具

每一种分析方法都有整理好的案例介绍（在传送链接里，附python实现代码），先马后看。

1、分析方法

提起数据分析，大家往往会联想到一些密密麻麻的数字表格，或是高级的数据建模手法，再或是华丽的数据报表。其实，“ 分析 ”是每个人都具备的能力；比如预订酒店时，我们会比对多家的价格，地理位置等信息后做出最终选择。这些小型决策，其实都是依照我们脑海中的数据点作出判断，这就是简单分析的过程。对于分析师来说，则需要掌握一套系统的、科学的、符合商业规律的数据分析知识。

几种主要的分析方法汇总如下：

种类

功能

算法

典型应用

分类

回归

分类

决策树、神经网络分类、区别分析、逻辑回归、概率回归

风险分析、客户挽留分析、欺诈探测

回归

线性回归、非线性回归

收益率分析，收入预测，信用价值预测，客户潜在价值预测

聚类

集群分析

K-平均值，神经网络聚类

客户分割

关联

规则

关联分析

统计学，集合理论

交叉销售。捆绑销售

序列关联分析

统计学，集合理论

交叉销售

相似时间序列分析

统计学，集合理论

产品生命周期

时序

模型

时间序列预测

统计时间序列模型、神经网络

销售预测、利率预测、损失预测

1.1、分类与回归

分类模型和回归模型本质一样，分类模型是将回归模型的输出离散化。

"talk is cheap, show you the code"

一定不能少的三个模型：

逻辑回归，决策树，支持向量机

逻辑回归

Logistic 回归算法基于 Sigmoid 函数，或者说 Sigmoid 就是逻辑回归函数。

其函数曲线如下：

逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某信用卡用户发生逾期的可能性。

决策树

决策树对于单调的特征变换是”indifferent”的，也就是说特征的单调变换对于决策树来说不会产生任何影响.优势：

直观的决策过程能够处理非线性特征考虑了特征相关性

支持向量机

SVM最大的好处就是它只依赖于处于分类边界的样本来构建分类面，可以处理非线性的特征，优势：

可以处理高维特征使用核函数轻松应对非线的性特征空间分类面不依赖于所有数据

逻辑回归，决策树，支持向量机三个模型的详细介绍：

https://blog.csdn.net/oliverkehl/article/details/50129999 1.2、聚类分析聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分，类似这种目标群体的分类就是精细化经营，个性化运营的基础和核心，只有进行了正确的分类，才可以有效进行个性化和精细化的运营，服务及产品支持等。

聚类分析是一种定量方法，从数据分析的角度看，它是对多个样本进行定量分析的多元统计分析方法，可以分为两种：对样本进行分类称为Q型聚类分析对指标进行分类称为R型聚类分析

从数据挖掘的角度看，又可以大致分为四种：划分聚类层次聚类基于密度的聚类基于网格的聚类无论是从那个角度看，其基本原则都是：最小化簇间的相似性，最大化簇内的相似性。

常见业务应用场景如下用户分群产品分类异常检测下面这篇文章对这些都有非常详细的解释： https://blog.csdn.net/qq_39422642/article/details/78821812 1.3、关联分析关联分析又称关联挖掘，就是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。简单说就是找出事件间的联系或依赖，通过关联分析找出数据集合中隐藏的关系网络，例如大家都听过的啤酒和尿布的故事。关联分析几个常见的场景：市场组合分析套装产品分析目录设计交叉销售关于关联分析分享一篇数据派的文章，里面有很详细的介绍： 1.4、时序模型时序分析是以分析时间序列的发展过程、方向和趋势，预测将来时域可能达到的目标的方法。此方法运用概率统计中时间序列分析原理和技术，利用时序系统的数据相关性，建立相应的数学模型，描述系统的时序状态，以预测未来。分析一篇有关ARIMA时序模型的案例应用： 1.5、神经网络神经网络应用在分类问题中效果很好。工业界中分类问题居多。LR或者linear SVM更适用线性分类。如果数据非线性可分（现实生活中多是非线性的），LR通常需要靠特征工程做特征映射，增加高斯项或者组合项；SVM需要选择核。而增加高斯项、组合项会产生很多没有用的维度，增加计算量。GBDT可以使用弱的线性分类器组合成强分类器，但维度很高时效果可能并不好。而神经网络在三层及以上时，能够很好地进行非线性可分。第一篇是我之前的一点学习笔记的分享：第二篇是较为详细的《神经网络的理解与实现》，附代码： https://www.cnblogs.com/lliuye/p/9183914.html

2、数据分析工具

下图是原PPT给出的一些分析工具：很多是我们在学生时代肯定会接触到的工具，但是我想说 “Life is short, use Python” 所以上述的分析模型分实现方式里都有python代码。

| 作者Info：

【作者】：A字头【原创公众号】：数据札记倌（Data_Groom）【简介】：这是一个坚持原创的技术公众号，每天坚持推送各种 Python基础/进阶文章，数据分析，爬虫实战，机器学习算法，不定期分享各类学习资源。【福利】：送你新人大礼包一份，关注微信公众号，后台回复：“” 即可获取！

最新回复(0)