描述统计
1、在描述统计中,可以通过统计量描述数据的分布特征。
对数据分布特征的测度:①分布的集中趋势(反应向中心值的聚集程度);②分布的离散程度(反应各数据的差异程度,和中心数据的代表程度);③分布的偏态(反应数据分布的不对称性)。
2、集中趋势的测度
集中趋势,是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。
集中趋势的测度 | 概念 | 优点 | 缺点 | 适用范围 |
均值(数值平均数) | 平均数,集中趋势最主要的测度值,数据的重心,解释了数据的平均水平。 | 能充分利用数据全部信息,受到每个观测值的影响,较稳定 | 易受极端值的影响。 | 适用于定量变量,数值型数据,不适用与分类和顺序数据。 |
中位数(位置平均数) | 把一组数据按从小到大的顺序进行排列,位置居中的数值叫做中位数。 | 不受极值个影响,抗干扰性强。 | 没有充分利用数据的全部信息,稳定性差于均值,优于众数。 | 适用于顺序数据和数值型数据,不适用于分类数据。尤其适用分布不对称的数值型数据。 |
众数(位置平均数) | 一组数据中出现次数或频数最多的变量值。 | 不受极值影响。 | 没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一。 | 适用于分类和顺序变量,不适用于定量变量。 |
3、离散程度的测度
离散程度,是指数据之间的差异程度或频数分布的分散程度。离散程度的测度,主要包括极差、方差和标准差、离散系数等。适用于数值型数据。
标准差与方差是应用最广泛的统计离散程度的测度方法,只适用于数值型数据,对极端值也很敏感。、
④离散系数
极差、标准差和方差等都是反映数据分散程度的绝对值。为消除变量值水平高低和计量单位不同对离散程度测定值的影响,需要计算离散系数。
离散系数,也称变异系数或标准差系数,它是一组数据的标准差与其相应的算术平均数之比,是测度数据离散程度的相对指标,用CV表示,其计算公式为: