概统概统
第一章
第二章 概率分布的定义、性质;常用分布;随机变量函数的分布;
第三章 联合分布;边缘分布与条件分布;随机变量的独立性;随机变量的函数的分布(和的分布、线性组合的分布、商的分布、平方和的分布、极值的分布);
第四种 期望,方差,定义性质;随机变量函数的期望,方差;相关系数,协方差;期望方差的应用。
第六章 总体、样本、统计量的概念;三大抽样分布定义、性质以及分位点定义;常用统计量(或枢轴量)的分布
第七章 矩估计和最大似然估计(最大似然不变性原理);参数估计的评价标准(无偏性、有效性、一致性);参数的区间估计(一个正态总体下的双侧和单侧置信区间)
第八章 假设检验的基本思想和实施步骤;可能产生的两类错误和控制方法;一个正态总体参数的单侧与双侧假设检验; 值检验方法。
Q:条件概率公式?贝叶斯公式?全概率公式?
即,在 已经发生的情况下, 发生的概率为 均发生的概率除以 发生的概率。
全概率公式:
贝叶斯公式:
Info:一类概率题目
不太好分类,就记在这里了:如何转换 的条件?
关键是利用 . 直接暴力展开:
可得 ,然后也可以得到 . 因此这个条件和 独立、 独立等价。
Q: 什么是泊松定理?
当 ,伯努利分布的极限(当 )就是泊松分布,也就是:
或者从分布近似相等的角度理解:
当 比较大时,可以用这个公式做近似。
Info:一些常见的分布的性质
二项分布 最可能出现的结果是 .
泊松分布 最可能出现的结果是 ,如果 是整数,则 概率相当,都是最可能的。
如果在单位时间内出现的质点数符合 Poisson 分布,则任意两个质点出现的时间间隔服从指数分布。证明如下:
考虑 时间内没有质点出现,假设 代表质点第一次出现的时间,根据 Poisson 分布,这种情况的概率为:
反之, 时间内有质点出现,概率为:
这就是指数分布的分布函数。其参数为 .
指数分布没有记忆性,也就是:
一维正态分布 ,一维标准正态分布 .
二维正态分布 .
Q: 分布函数的性质
Q: 怎么求连续型随机变量函数的分布啊!
一般地,设 为连续型随机变量,如果已知 的概率密度为 (或分布函数),又设函数 ,求 的概率密度(或分布函数)的步骤如下:
当然,需要特别注意分段函数的范围!
也可以利用直接推导的结论: 假设 的反函数为 ,对于一个严格单调的区间来说,结论是:
如果有多个严格单调的区间,应该对每个区间都计算,然后叠加。
特别地, 的密度函数为 .
Q: 定义二维随机变量的联合分布函数、边缘分布函数、联合分布律、边缘分布律!
联合分布函数:. 矩形区域的表示:
其性质为:函数值处于 区间中;单调性;固定一个变量,关于另一个是右连续函数;矩形区域概率大于等于零。
边缘分布函数:.
联合分布律:.
边缘分布律:.
仅有关于 和 的边缘分布,一般来说不能确定随机变量 的联合分布。
Q: 给出二维连续型随机变量的条件分布的公式。
对于离散型:
对于连续型:
条件概率密度 .
条件分布函数 .
Q: 给出二维随机变量独立的条件。
连续型:设 是二维随机变量,若对于任意实数 ,都有
.
则称 与 相互独立。即 联合分布律等于边缘分布律的乘积,联合概率密度等于边缘概率密度的乘积。
离散型:. 即 .
我们还有:独立性定理 设 是二维连续型随机变量, 是 的联合概率密度,则 与 相互独立的充分必要条件是存在非负可积函数 和 ,使得:
在一切连续点上成立,此时:
使用独立性定义判断时还需要注意定义域的影响,不能看到 可以分解为 的形式,就认为 相互独立。
Info:特殊随机变量函数的分布
离散型随机变量和的分布
即离散卷积公式。
连续型随机变量和的分布
线性函数的分布
是因为不同的 对应的积分区域一个朝下,一个朝上。
商的分布 (积分区域怎么画)
平方和的分布 (积分区域是一个圆)
通过该结论,可以推出 服从参数为 的指数分布。
假设 ,解出 ,结论是:
不知道对不对?感觉用来记忆上面几个例子够用了。
Q: 什么是方差不等式?并且给出证明
对于任意实数 ,
因为:
Info: 常见分布的期望和方差
分布 | 表达式 | 期望 | 方差 |
---|
0-1分布 | | | |
: 个 0-1 | | | |
| | | |
| | | |
Pascal 分布: 个几何 | | | |
| 对于 ,其余为零 | | |
| 对于 ,其余为零 | | |
| | | |
Q: 给出不相关和独立的定义.
与 不相关的等价命题
设随机变量 与 的方差都存在,且 ,,则下列命题等价:
与 不相关;
, , . 这三者的等价关系可以从表达式得出。
.
与 相互独立
由相互独立推出不相关
当 服从正态总体,不相关和相互独立等价,相当于联合密度函数中 。
Q: 什么事 Chebyshev 不等式?并且定性描述其揭示的规律,给出证明。
设随机变量 的数学期望 ,方差 ,则对于任意正数 ,恒有不等式:
或
描述了落在 区间内或区间外的几率,我们现在分析落在区间内的情况,显然, 越小, 越大,落在区间内的几率就越大。
证明从方差的定义出发:
Q: 什么是依照概率收敛?它和数列收敛有什么不同?
依照概率收敛 设 是一个随机变量序列, 是一个随机变量,若 ,有:
则称随机变量序列依概率收敛于 ,记作 . (并不能保证一定发生,只能保证出现偏差的绝对值大于 的概率很小,趋于零)
Q: 什么是序列服从大数定理?并且给出解释。
定义序列服从大数定理 若随机变量序列 满足 ,有:
当 同分布,也等价于:
则称该序列服从大数定律。
大数定律是有关随机变量序列的前 项的算术平均值在一定条件下收敛到这 项的数学期望的算术平均值的定律。
Q: 给出几个常见的大数定律?
大数定律成立的核心是利用 Chebyshev 不等式,证明随机变量的算术平均值收敛到其均值,要求
Chebyshev 大数定理 设随机变量序列 两两不相关,它们的方差存在,且有共同的上界,即 ,,,记 ,则称该序列服从大数定律。
其推广为 Markov 大数定理: 两两不相关的条件可以去掉,代之 ,即 Markov 条件。满足 Markov 条件的序列服从 Markov 大数定律。
Khintchine 大数定理 .
Q: 中心极限定理?
对于均值为 ,方差为 的随机变量,取足够多样本,样本的和近似服从:
样本的均值近似服从:
Q: 给出样本均值和样本方差数字特征
重要结论 设总体 的期望与方差存在,,则:
如果总体 还服从正态分布,
Q: 卡方分布当 时服从什么分布?
时,其密度函数为:
服从参数为 指数分布。
Q: 卡方分布的性质
卡方分布的性质:
期望和方差:.
在独立前提下的可加性:若 , 相互独立,则:
卡方分布的极限是正态分布:当 时, 正态分布。
Q: t 分布的性质
Q: F 分布的性质
若 ,则 .
.
Info 单个正态总体的抽样分布的各种结论
设 , 是来自总体 的一个简单随机样本, 分别为样本均值和样本方差。
则
注意和下面结论的区分:
原因是 不是相互独立的。事实上,限定样本均值 会减少一个自由度。
样本方差和 和样本均值 相互独立。
使用 和 可以推出。
Info 多个正态分布总体的抽样分布的各种结论
设 与 为来自总体 和 的样本,且两样本之间相互独立,记:
则:
.
证明,利用 .
若 ,则:
其中 .
证明,利用 t 分布的定义,注意到
Q: 矩估计法的过程?
矩估计法的理论基础是 Khinchine 大数定律,使用样本的 阶矩作为总体的 阶矩的估计量。如果需要估计 个参数,至少需要研究总体的 阶矩。
Q: 最大似然估计法的过程?
写出似然函数:
求其对数 .
求解似然方程组:
得到 ,确定最大似然估计值为 .
当 单调时,如何处理?极大值/极小值在边界取到。
相关结论:
最大似然估计不变性原理 设 是未知参数 的最大似然估计,又设 是 的连续函数,则 是 的最大似然估计。
Q: 给出一些常见无偏估计量
. 是总体期望的无偏估计量。
样本二阶中心矩 不是总体方差的无偏估计量。
样本方差 是总体方差的无偏估计量。
因为:
当 , 是总体期望的无偏估计量。
当 是 的无偏估计量, 不一定为 的无偏估计量,原因是期望只具有线性性。
Q: 给出估计量有效性的定义
设 和 均为 的 无偏估计量(也就是两种不同的估计方法),对于任意 有
则称 比 有效。
估计量在无偏的情况下,才能评价有效性。
Q: 给出估计量具有一致性的定义和等价条件
一致性的定义 序列 依概率收敛于 ,即 ,有:
则称 为 的一致估计量。
等价条件:.
证明,使用 Chebyshev 不等式。
Info: 指数正态分布
财富的分布并不服从正态分布,而是呈现左偏的一个形状,为什么呢,我们可以猜测影响财富的因素不是相加,而是相乘,比如考入交大可以让你的收入减半,考入浙大可以让你的收入翻倍,如:
两边取对数:
此时,我们就可以说 . 如何求 的期望和方差,利用随机变量函数的期望,设 ,则 ,
Q: 置信区间的定义?
如果 是待估计参数, 是来自总体 的一个样本,如果对于给定的 ,存在 和 ,使得:
则称区间 是 的置信度为 的置信区间。 称为置信度。
置信区间的取法不唯一,需要保证置信度的前提下,最小化置信区间长度,也就是最小化平均长度 .
一般来说,置信度越高,置信区间的长度越长——可靠度和估计的精度是矛盾的,在满足可靠度的前提下,可以增大样本容量,来增加估计的精度。
Q: 给出正态分布总体的区间估计的枢轴量.
对于正态总体 .
为了强调枢轴量只含有待估计参数,不含有其它未知参数,将待估计参数标红。
Q: 给出参数假设检验的步骤.
原假设和备选假设如何选取,原假设一般是认为系统工作正常,备择假设一旦成立,可能说明系统产生严重的问题。
当 为真时,选择合适的 检验统计量 ,检验统计量服从的分布已知。
计算很小的参数 (显著性水平) 对应的拒绝域 ,
也就是构造一个小概率事件 . 当拒绝域位于两侧,称为双侧检验,类似的,在左侧或者右侧称为左侧检验或右侧检验。
观察统计量 的观测值 是否落在拒绝域里面. 由此判断 是否落在 中。
给出结论,若 ,则拒绝 ,否则接受 .
pl 老师上课提出的简单记忆方法,拒绝域的符号和备择假设一致。
Q: 检验统计量怎么选取?
和枢轴量类似。
Q: 什么是参数假设检验的两类错误?
| 接受 | 接受 |
---|
为真 | 正确() | 犯第一类错误() |
为假 | 犯第二类错误() | 正确() |
假设检验的原则 控制犯第一类错误的概率不超过 ,再尽可能降低犯第二类错误的概率。