1.置信区间:误差范围(区间)在统计概率中就叫做置信区间;简单来说置信区间就是误差范围
我们用中括号[a,b]表示样本估计总体平均值的误差范围的区间,由于a和b的确切数值取决于你希望自己对于“该区间包含总体均值”这一结果具有可信程度,所以[a,b]被称为置信区间。
2.置信水平:我们选择这个置信区间,目的是为了让“a和b之间包含总体平均值”这一结果具有特定的概率,这个概率就称为置信水平。
蒙特卡罗模拟
1.蒙特卡罗模拟用于求事件的近似概率,它多次执行同一模拟,然后将结果进行平均。
2.用查表法替代计算的这种思想用途十分广泛,性能出现问题时,经常会采用这种方法,查表法是以空间换时间这种通用思想的一个典型列子。
3.模拟模型是描述性而非规定性的,它可以描叔出系统如何在给定的条件下运行,但不能告诉我们如何安排条件才能使系统运行的最好,模拟模型只会进行描述,不会进行优化,但这并不是说模拟不能作为优化过程的一部分,例如,寻找参数设定的最优集合时,经常使用模拟作为搜索过程的一部分。
模拟模型可以按照三个维度进行分类:
确定性与随机性
确定性模拟的行为完全由模型定义,重新运行模拟不会改变结果,随机性模拟在模型中引入了随机性,多次运行同一个模型会得到不同的结果
静态与动态
在静态模型中,时间的作用不大,在动态模型中,时间是个基本要素
离散与连续
在离散模型中,相关变量的值是可数的,例如所有值都是整数,在连续模型中,相关变量的值位于一个不可数集合中,例如实数集合。
补充
PyLab中提供了一个内置函数polyfit,它可以找出最小二乘拟合的近似解。
调用以下函数:
pylab.polyfit (observedXVals, observedYVals, n)
可以找出一组n阶多项式的系数,这个多项式就是定义在observedXVals和observedYVals这两个数组中的数据点的最优最小二乘拟合。
举例来说,调用以下函数:
pylab.polyfit(observedXVals,observedYVals, 1)
可以找出一条由多项式y = ax + b定义的直线,这里的a是直线的斜率,b是Y轴上的截距。在本例中,函数会返回一个带有两个浮点数的数组。同样,二次方程y = ax2+ bx + c可以定义一条抛物线。因此,调用以下函数:pylab.polyfit(observedXVals, observedYVals, 2)可以返回一个带有3个浮点数的数组
显著性
1.费希尔的检验显著性的方法总结如下:
(1)定义一个原假设和一个备择假设。原假设就是“布里斯托·洛奇博士根本品尝不出不同奶茶之间的区别”,备择假设仅当原假设是错误的时候才成立,例如,“布里斯托·洛奇博士可以品尝出奶茶之间的区别”;
(2)理解待评价样本的统计学假设。对于“奶茶测试”,费希尔假设布里斯托·洛奇博士对每一杯奶茶都可以做出独立判断;
(3)计算相关的检验统计量。在本例中,检验统计量就是布里斯托·洛奇博士给出正确答案的可能性;
(4)在原假设成立的情况下,推导出检验统计量的概率。在本例中,就是仅凭运气正确找出所有奶茶的概率,也就是0.014;
(5)确定这个概率是否足够小到可以使你放心地认为原假设是错的,即拒绝假设。这个能使你拒绝原假设的概率要事先决定好,一般为0.05或0.01
P-值
P-值的含义很容易被误解,它经常被认为是原假设为真的概率,但实际上不是。如果P-只很小,就意味着原假设为真的情况下,得到特定样本的可能性很小。
条件概率
1.构成贝叶斯推理的核心思想就是条件概率。
2.P(A|B)表示当B为真时,A为真的概率,它经常读作“给定B时,A的概率”
如果P(A)和P(B)是独立的,那么P(A|B) = P(A)
一般的,如果P(B)!= 0,则:P(A|B)=P(A+B)/P(B)
条件概率也在0到1之间
3.公式P(A|B,C)表示当B和C同时成立时,A成立的概率,假设B和C互不相关,那么通过条件概率的定义和独立概率的乘法法则可知:
P(A|B,C) = P(A,B,C)/P(B,C)
这里的P(A,B,C)表示A,B和C同时为真的概率。
同理,P(A,B|C)表示当C为真时,A和B同时为真的概率。假设A和B是互不相关的,那么:P(A,B|C) = P(A|C)*P(B|C)
贝叶斯定理
P(A|B) = P(A)*P(B|A) / P(B)
在贝叶斯统计中,概率测量的是可信度,贝叶斯定理表明了不考虑证据的可信度和考虑了证据的可信度之间的关系。公式等号左边的部分P(A|B)是后验概率,即考虑了B之后的A的可信度。后验概率定义为先验概率P(A)与证据B对A的支持度的乘积。支持度是A成立的情况下B成立的概率与不考虑A时B成立的概率的比值,即:P(B|A)/P(B)