机器学习 -- 统计与分布

时间:2022-12-12 07:55:08

机器学习 -- 统计与分布

机器学习中用到的一些统计方面的概念。

1. 标准差

    公式:

机器学习 -- 统计与分布

 

    假设一个班有30个学生,每个学生的语文课的考试成绩是 Xi, 平均分是80,标准差 不是每个学生的成绩减去平均分的平方的和,再除以学生数,然后再开方。

    意义: 标准差越大,表示学生之间的水平相差较大。

2. 加权均值

    平均值计算时,按照权重的。比如股东大会的投票,股权多的人,虽然也只是一票,但是这一票代表的权重是不一样的。

3. 中位数

    用中位数来描述样本的分布,在一定程度上可以消除个别极端值对整体样本的影响。常见的应用是去掉一个最高值和最低值,然后求平均。

4. 欧式距离

    定义:在一个N维度的空间里,求两个点的距离。这个距离需要用两个点在各个维度的坐标相减,平方后加和再开方。

    二维应用: 勾股定理

5. 曼哈顿距离(出租车距离)

   定义:两个点在标准坐标系上的绝对轴距总和。  c = | y1-y2 | + | y1-y2 |

   应用:计算棋盘上两子之间经过的格数。还有可以方便的计算两个街区之间的经过的街区数。

6. 同比和环比

   如:今年7月份的销售额同比增长80%,环比增长 20%。

   同比是指与相邻时段的同一时期相比。 上面的意思是 今年7月份比去年7月份增长80%。

   环比是指跟上一个报告期相比。上面的意思是 今年7月比今年6月增长20%。注意:对于周期性比较明显的产业,比如网吧什么的,环比并不能代表经营的好坏。比如7,8月份,学生放假,营业额会高。9月份开学后,就降低了。

7. 抽样

    抽样需要注意抽取的样品要有代表性。

8. 高斯分布(又称正态分布)

    高斯分布的概率密度函数:

     

机器学习 -- 统计与分布

    exp 是指自然常数 e 的幂函数,即 e 的多少次幂的概念

   曲线图:

 

机器学习 -- 统计与分布

    高斯分布所表现出的分布特点就是: 一般般的很多,极端的较少。

    如对某地区1000名男性进行身高抽样,结果发现身高是一个 μ = 175cm 的高斯分布, σ=10cm。那么这样一个说明,就可以得出下面的结论:

    身高在 165~175 大约有341人, 身高在 175~185 大约有 341人, 155~165 大约有 136人, 185~195 的人大约有 136人。 这几项加起来,就覆盖了 95.4% 的样本, 如果再多加一个 σ 的话,就涵盖了 99.6% 的样本了。

 

9. 泊松分布

    泊松分布适用于描述单位时间内随机事件发生的次数。也就是说在一个标准时间里,发生这件事的发生率是λ 次(这是一个具体的数字,不是一个概率值),那发生 k 次的概率是多少。公式:

 

机器学习 -- 统计与分布

    参数 λ 是单位时间(或单位面积)内随机事件的平均发生率

    

机器学习 -- 统计与分布

     泊松分布适用的事件需要满足以下3个条件:

     (1) 这个事件是一个小概率的事件   (2) 事件的每次发生是独立的,不会相互影响。  (3) 事件的概率是稳定的。

   例子:  假设在一个公共汽车站上有很多不同线路的公交车,而且平均每5分钟会来 2 辆公交车,求 5分钟内来5辆公交车的概率有多大?  

   此例中, λ = 2, k = 5  , 那么

机器学习 -- 统计与分布

,    得出的概率为 3.61%

  一个结合泊松分布和累积概率的例子: 有一家书店,新华字典销售一直较为稳定而且数量较少(概率较小的事件),平均每周卖出4套。作为书店老板,新华字典应该备多少本为宜?

  这里 λ= 4,求 k 为多少比较合适。 我们可以先求出 k 所对应的各个概率的大小,如下:

机器学习 -- 统计与分布

机器学习 -- 统计与分布

        从上表可以看出,在备货为5件的情况下,大概有 76.63%的销售周不会有供不应求的情况,这些销售周内会有 7.33% 的销售周卖出 1 本, 14.7% 的销售周卖出 2 本。。。也就是说一年52周,大概有 40周满足销售需求。k 值增大为 7 时,大概 92.98% 的销售周不会有供不应求的情况。

       也可以看出, k 小于 λ 的时候,累积函数增加很快,而且每次增加的量要比上一次多。 

10. 伯努力分布

     伯努力分布的分布率:

机器学习 -- 统计与分布

    

   也可以写成: 

    伯努力分布的应用需满足以下条件:

   (1)各次试验中的事件是互相独立的,每一次 n=1 和 n=0 的概率分别为 p 和 q

   (2)每次试验都只有两种结果,即 n=0 或 n=1

   满足伯努力分布的样本有一个非常重要的性质,即满足公式: 

机器学习 -- 统计与分布

   说明: X 指的是试验次数,

机器学习 -- 统计与分布

指的是组合,

机器学习 -- 统计与分布

指的就是 p 的 n 次幂与 (1-p) 的 n-k 次幂的乘积。

   这个公式表示, 如果一个试验满足 

机器学习 -- 统计与分布

的伯努力分布,那么在连续试验 n 次的情况下,出现 n=1的情况发生恰好 k 次的概率为 

机器学习 -- 统计与分布

。 n=1就是对应概率为 p 的情况。

   例如:  李四参加雅思考试,每次考试通过的概率为 1/3, 不通过的概率为 2/3。如果他连续考试 4 次,那么恰好通过 2 次的概率为多少?

   此例中  p=1/3, n=4,k=2, 代入公式得到 8/27