一、描述性统计
描述性统计是指将调查样本中的包含的大量数据资料进行整理、概况和计算。是推断性统计的基础。描述性统计是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。
主要包括:数据的频数分析、集中趋势分析、离散程度分析、相关性(协方差,相关系数)、 分布以及一些基本的统计图形。
集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数;
离散趋势统计量:标准差(sd)、方差(var)、极差(range)、变异系数(CV标准差与均值的比率)、标准误、样本校正平方和、样本未校正平方和;
分布情况统计量:偏度、峰度。
案例参考:(链接微信屏蔽,点击最下角“阅读全文”,查看)
herain:一图胜千言:用好图表,好好说话
herain:多元统计分析试题解答 论述题 第一题
herain:数据发现:凭什么登顶富豪榜?
二、回归分析
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
回归方法:线性回归、多项式回归、逻辑回归、逐步回归、岭回归、套索回归、ElasticNet回归。
案例参考:
herain:一元线性回归预测:销售收入与广告支出实战
herain:多元线性回归预测:餐馆营业额与多因素实战
herain:逻辑斯蒂回归:家庭买私家车的概率
三、方差分析
方差分析(ANOVA)又称“变异数分析”或“F检验”,是由R.A.Fister发明的,用于对两个及两个以上的样本集合的统计特性:平均数差别的显著性检验。
参考案例:
统计学--单(双)因素方差分析 - Arya.Mo - 博客园
四、假设检验
假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。
参考案例:
如何用最通俗易懂的方式理解假设检验
假设检验 - 扎心了,老铁 - 博客园
五、相关分析
图表相关分析(折线图及散点图),协方差及协方差矩阵,相关系数,一元回归及多元回归,信息熵及互信息。
参考案例:
5种常用的相关分析方法 - xiwan0902的博客 - CSDN博客
六、聚类分析
聚类效果的好坏依赖于两个因素:1.衡量距离的方法(distance measurement) 2.聚类算法(algorithm)(k means, 层次聚类, 网格聚类)
参考案例:
herain:聚类分析:10种红酒聚类与31省市聚类
七、判别分析
判别分析(discriminant analysis)是一种分类技术。 它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。
参考案例:
herain:判别分析:距离,Fisher, Bayes实例
八、因子分析
因子分析是指研究从变量群中提取共性因子的统计技术,最早由英国心理学家C.E.斯皮尔曼提出。
参考案例:
herain:因子分析与对应分析
九、主成分分析
主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。
参考案例:
herain:主成分分析:你为什么一个人?
十、列联表分析 所谓的列联表即由两个以上的变量交叉分类的频数分布表。卡方检验相关性
参考案例:
列联表分析
十一、信度分析
信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。
参考案例:
练习用R语言做信度检验的过程_的狗_新浪博客
十二、时间序列分析
强调的是通过对一个区域进行一定时间段内的连续遥感观测,提取图像有关特征,并分析其变化过程与发展规模。
参考案例:
时间序列相关算法与分析步骤 - omnispace的博客 - CSDN博客
Facebook 时间序列预测算法 Prophet 的研究【自行搜索】
十三、生存分析
指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。
参考案例:
【r<-统计|绘图】使用R进行生存分析——一文打尽
十四、典型相关分析
CCA(canonical correlation analysis)利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。 它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
参考案例:
herain:典型相关分析:科研投入与产出
十五、R0C分析
R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。
参考案例:
没有找到好的【参考案例】打算自己整一个
十六、对应分析
对应分析是一种多元统计分析技术,主要分析定性数据Category Data方法,也是强有力的数据图示化技术,当然也是强有力的市场研究分析技术。
参考案例:
herain:因子分析与对应分析
对应分析方法与对应图解读方法--七种分析角度-沈浩老师的博客-搜狐博客
十七、多维标度分析
流形学习(Manifold Learning)是机器学习中一大类算法的统称,而MDS就是其中非常经典的一种方法。多维标度法(Multidimensional Scaling)是一种在低维空间展示“距离”数据结构的多元数据分析技术,简称MDS。
参考案例:
详解多维标度法(MDS,Multidimensional scaling)
herain:多维标度分析:城市距离与省市消费
数据分析的主旨,一直是发掘数据中的有价值的信息,更进一步是将信息转换为知识,最难的是将知识升华为洞见;
参数 VS 统计量:用来描述总体特性的测量数称为总体的参数,而用来描述样本特性的测量数称为样本统计量;
推断统计学一般有两种方法,一是使用置信区间估算总体的参数,二是对总体参数的假设值进行决策。后者被称为假设检验。