描述统计及推断统计
什么是统计学
首先统计学是数据分析师必走的一条道路,它可以从科学的角度上说明数的收集、处理、分析和解释,并从数据中得出结论。当然最先遇到的难题就是映入眼前的一大堆让人懵逼的复杂数学公式,直接让人还没开始就直接开摆,但实际学习下来过后发现统计学就在我们身边也没有那么的难,也不一定要会很多公式的推导,我们首先是先理解,从应用层面上,然后再慢慢深入研究,知道他并且会用是我们的第一步,我们先将个最通俗易懂的例子:
案例1:假设一家公司的老板说自己公司平均工资在20000左右,你是不是很心动?但实际上可能老板 60000 张三 6000 李四
8000 王五 5000 所以你去过可能也就是5000~7000的水平可见这个坑有多深。
案例二:2019年国家统计局发布的工资数据中提到:信息传输、软件和信息技术服务业平均工资得以快速增⻓,2019年平均工资为122478元,比上年增⻓9.3%

这么看是不是发现统计学他时时刻刻都在我们身边?将他啃下,我们也能当一名会做生意的老板。
大概讲明白了统计学的的例子,我们继续把统计学中两个重要的分支:描述统计和推断统计,在拿出来说说。
描述统计
- 将一系列复杂数据,减少为几个能起到描述作用的数字(均值,中位数等),用这些有代表性的数字来代表整个数字集。然后还可以将代表性数据图形化/可视化,可以更直观的了解数据,从而用数据解释问题。
- 例如:说一下班级这次考试的情况如何
那描述统计中又有:
- 集中描述统计
- 离散趋势统计
下面先讲解下集中描述统计和离散趋势统计
集中描述统计
反映数据向其中心值靠拢或聚集的程度
均数
描述一组数据在数量上的平均水平,主要用于数值型数据
- 均数的优点:
- 高度浓缩了数据的精华,使大量的观测数据转变成一个代表性的数值;比较敏感,数据任何一个值发生变化,均数都会随之改变。
- 大家熟知、都比较喜欢用、便于比较和传播。
- 均数的缺点:
- 大锅饭,把各个观测数据之间的差异性掩盖了
- 均数受极值的影响很大。
- 上文提到的平均工资的事情,就是均值的缺点造成的
- 均数的使用范围
- 对称分布,特别是正态分布的数据比较适用,但是对于极端性数据均数绝对不适用
- pandas计算均值:
1 | df.mean(axis=0) |
中位数
主要用于顺序型数据。将全体数据从小到大排列,在整个数列中处于中间位置的那个值就是中位数。个数为奇数的中位数,根据位置取中间的那个数即可。个数为偶数的中位数,就是中间两个数值的均值。
- 中位数的优点
- 不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比均数更具有代表性,如上面例子,用中位数则是4500,至少代表了前三个人的工资水平
- 中位数的缺点
- 损失信息,只考虑居中位置,其他变量值比中位数大多少或小多少,它无法反映出来,所以我们也是只能看到部分信息。
- 中位数的应用场景:
- 对于对称性的数据,优先均数,仅仅对于均数不能使用的情况才使用中位数加以描述。
- 在描述数据的时候,我们通常会通过平均数与中位数来认识数据。但有些时候,哪怕我们准确无误的计算出了平均数,也无法改变中位数在对真相的描述中更加准备这个事实,为什么这么说呢?
- 首先,我们关心的多大数现象都可以用多种方式进行描述。但同样的,当我们在对同一事物进行描述的时候,我们说的话(选用的数据)便会影响别人对此事的印象。
- 比如3、4、5、6、102这5个数字,它们的平均数是24,而中位数是5。很明显,24和5之间存在明显的差距。有些时候,你想让整体的数字看起来更大,就用平均数。如果你想让整体数字看起来更小,那就用中位数。这时,就很容易误导看数据的人。因为一看到你的平均数这么大,很自然的就会认为你的东⻄不错。其实不是的。因为这组数据的平均数之所以这么大,完全是因为102这个极值拉大了整体的均值,所以平均数看起来还错。只是这样的话,便会对数据产生一定的误解。因此,从这个⻆度出发,当我们要准确的认识数据的时候,要尽可能避免使用平均数来作为判断对象好坏的唯一标准,我们得加入中位数数据,使得结论更加准确。
- pandas计算中位数/四分位数:
1 | df = DataFrame(data=np.random.randint(0,100,size=(3,5))) |
众数
- 众数是指总体中出现次数最多的标志值,简单来说就是一组数据当中,出现次数最多的那个数。在实际工作中,众数有相当广泛的应用。
- 例如,市场上某种商品一天的价格可能有多次变化,可不必全面登记该商品的全部价格来计算其算术平均数,而只需用该商品成交量最多的那个价格即众数作为代表值,就可以反映出该商品价格的一般水平。
- 又如,在大批量生产的男式皮鞋中有多种尺码,其中40码的销售量最多,这说明40码就是众数,可代表男式皮鞋尺码的一般水平,宜大量生产,而其余尺码的生产量就要相应少一些,这样才能满足市场上大部分消费者的需要。
- pandas计算众数:
1 | s = Series([1,2,3,3,3,3,3,4,5]) |
离散趋势描述
方差
- 案例分析:
- 要从甲乙两名跳远运动员中选出一名去参加运动会,为此专⻔为两人进行了10次跳远比赛,产出了两个人各自10组跳远的成绩记录。选拔标准是,先看他们的平时成绩,如果平时成绩相差无几的话,在看稳定程度。那么,就可以使用方差来衡量其稳定程度。下面来看下,如何一步一步的推导出方差。
- 提问:如果用一组数据的平均数来代表样本平均水平的话,对个体(每个数据)而言,什么指标可以代表个体(每个数据)的离散程度大小?(一次跳远成绩距离均值的距离)
- 可以使用离均差:x-μ(个体偏离均值的程度)
- 提问:可否用离均差的总和来表示整个样本的离散程度?不可以,离均差有正负之分,加和会抵消为0。那怎么办,怎么解决正负号的问题?可以使用离均差的平方和:∑(x-μ)²
但是:
如果比较两个样本的离均差,一个样本量是10个,一个是1000个,实际上二者的离散程度是一样的,但是因为数量不同,造成平方和相加和数值差异很大,这该怎么办? - 显然,我们发现离均差平方和的大小跟样本量有关
- 如果我们能够把离均差平方和/样本量,是不是就解决了这个问题,其实这个就是方差的概念
方差:反映各数据远离其中心值的趋势
pandas计算方差:
1 | s = Series([1,2,3,3,3,3,3,4,5]) |
标准差
方差开根号就是标准差
1 | s = Series([1,2,3,3,3,3,3,4,5]) |
思考:
一组数据携带的信息量的大小可以使用方差来衡量方差越大表示这组数据携带的信息量越大,反之越小。
- 第一组数据:9, 9.1, 9.01, 8.99, 9.1 方差几乎为0
- 第二组数据:9 102 22 1 0.8 方差较大
推断统计
是研究如何利用样本数据来推断总体特征的统计方法。推断统计其实是建立在描述统计的基础之上,在对总体数据有了大致的了解之后,运用一些分析方法,对数据进行预测,并达到统计决策的目的,其实不管是在统计学上,还是在实际的业务分析中,我们做分析的终极目的就是用来得出我们结论,应用于决策。
- 例如:房价预测,通过预测数据来进行销售,用户看到房价走势,如果一路走高,是不是要提早下手。

看完这个篇文章的内容后是否开始一点点的了解?如果还是没有了解也没关系,我们更多的是要了解如何应用进pandas当中,学习他们在分析中的作用,来帮助我们更好的完成所需要的工作。
之后我会找时间讲述下统计学中的几个概念,二项分布和正太分布,拜~