概率论与数理统计


数字特征

数学期望

image-20221010195355790

image-20221010200055899

image-20221010195854856

方差

image-20221010200011572

image-20221010200120214

image-20221010200208397

协方差的分配律

假设 $X$ 是一个 $n\times m$ 的矩阵,$Y$ 是一个 $m\times p$ 的矩阵,$A$ 是一个 $n\times n$ 的矩阵,$B$ 是一个 $p\times p$ 的矩阵,则有:

image-20230223170316201

其中,$\operatorname{Cov}(X,Y)$ 表示 $X$ 和 $Y$ 的协方差矩阵,其定义为:

image-20230223170333185

其中,$\operatorname{E}[\cdot]$ 表示期望,$^\top$ 表示矩阵的转置。

这个公式可以通过以下推导得到:

image-20230223170357462

因此,当协方差矩阵中的随机变量系数为矩阵时,可以通过左右分配原则将矩阵系数分别乘到协方差矩阵的左右两侧。

样本的修正方差

在统计学中,样本的修正方差是一个用来衡量样本数据的离散程度的统计量。它是在计算样本方差时对无偏性进行修正的结果。

样本方差是用来衡量样本数据的分散程度的统计量,它是每个观察值与样本均值之差的平方的平均值。样本方差通常用于估计总体方差。然而,由于样本方差是基于样本均值估计的,因此它通常会低估总体方差。为了解决这个问题,可以使用样本的修正方差,它是样本方差乘以修正系数(通常为 $n/(n-1)$)得到的结果。这个修正系数的作用是将样本方差的无偏性进行修正,使得它更接近于总体方差的真实值。

因此,样本的修正方差可以更准确地估计总体方差,并且更适用于小样本的情况。

比如对矩估计进行修正:

对于矩估计值进行方差修正的常见方法是使用样本矩的无偏估计来代替真实的总体矩。例如,使用样本均值代替总体均值和使用样本方差代替总体方差。这样做是为了减少由于矩估计带来的偏差,并且可以更准确地估计参数的标准误差。

对于样本均值进行方差修正的方法是使用样本的 修正方差,如前面的回答所述。对于样本方差进行方差修正的方法是使用渐进无偏估计的方差修正系数,也称为Bessel修正,其公式为 $n/(n-1)$。

需要注意的是,对于其他类型的矩估计,可能需要不同的方差修正方法。但是,通常情况下,使用无偏估计来代替总体参数可以降低估计误差并提高估计的精度。

特征函数

(1)用来证明分布的可加性

(2)特征函数用来求k阶矩

image-20221010163725268

image-20221010163950587

image-20221010164125881

image-20221010164150693

image-20221010164205204

image-20221010164230925

image-20221010164315377

常见分布

伽马(Gamma)分布

image-20221010163255291

image-20221010153050660

image-20221010153217983

image-20221010153344363

image-20221010153853820

逆伽马分布

image-20221106113435951

贝塔(Beta)分布

0. Beta函数

image-20221102132152393

image-20221102132210523

image-20221102132223277

Beta分布是一种连续型概率密度分布,表示为 x∼Beta(a,b) ,由两个参数 a,b 决定,称为形状参数

由于其定义域为(0,1),一般被用于建模伯努利试验事件成功的概率的概率分布:

对于硬币或者骰子这样的简单实验,我们事先能很准确地掌握系统成功的概率

然而通常情况下,系统成功的概率是未知的,但是根据频率学派的观点,我们可以通过频率来估计概率

为了测试系统的成功概率,我们做n次试验,统计成功的次数k,于是很直观地就可以计算出。然而由于系统成功的概率是未知的,这个公式计算出的只是系统成功概率的最佳估计。也就是说实际上也可能为其它的值,只是为其它的值的概率较小。因此我们并不能完全确定硬币出现正面的概率就是该值,所以也是一个随机变量,它符合Beta分布,其取值范围为0到1

用一句话来说,beta分布可以看作一个概率的概率密度分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小

1. Beta分布及其函数公式推导

如果随机变量 X 服从参数为 n 和 q 的二项分布,那么它的概率由概率质量函数(对于连续随机变量,则为概率密度函数)为:

image-20221102131130476

把 (1) 表示为变量 q 的函数,即只有 q 这一个变量,写成如下形式

image-20221102131158754

其中 a 和 b 是常量, q∈(0,1)

为了把 (2) 变成一个分布,可以给它乘上一个因子,使它对 q 从0到1积分为1即可,即

image-20221102131219054

令其积分为1

image-20221102131231183

image-20221102131242478

image-20221102131314444

image-20221102131430384

到这里我们已经完整地推出了Beta函数(公式(6))和Beta分布(公式(7))

2. Beta 函数和 Gamma 函数的关系

先做一下前期的推导:

image-20221102131918397

image-20221102131932371

image-20221102131952968

image-20221102132007097

image-20221102132015633

image-20221102132025062

3. Beta 分布的期望与方差

image-20221106185533471

image-20221106185554385

image-20221106185641449

image-20221106185700930

image-20221106185759828

充分统计量和因子分解定理

充分统计量的定义:

image-20221103231153067

因子分解定理:

image-20221103231224149

例子:

image-20221103231336198

顺序统计量

顺序统计量是充分统计量

image-20221103234048460

image-20221103234118664

image-20221103234152731

似然函数

两个定义可以对比来看

image-20221104113954768

image-20221104114011657

似然估计的不变性是指,当我们进行似然函数的最大化时,我们可以对参数进行任何等价变换,而不会影响最终的估计结果。换句话说,如果我们对参数进行一个变换,使得似然函数在新的参数下具有相同的形式,那么我们可以使用相同的最大化方法得到相同的估计值。

例如,假设我们有一个二项分布的似然函数:

$$L(p|n,k) = {n \choose k}p^k(1-p)^{n-k}$$

其中 $p$ 是未知的概率参数,$n$ 是试验的次数,$k$ 是成功的次数。我们可以通过求解似然函数的导数来找到最大似然估计(MLE):

$$\frac{\partial}{\partial p} L(p|n,k) = \frac{k}{p} - \frac{n-k}{1-p}$$

令其等于0,得到:

$$\hat{p}_{MLE} = \frac{k}{n}$$

这是二项分布中 $p$ 的最大似然估计。现在,假设我们对 $p$ 进行一个变换,定义 $q = 1-p$,那么似然函数变为:

$$L(q|n,k) = {n \choose k}(1-q)^kp^{n-k}$$

现在我们要找到 $q$ 的最大似然估计,我们可以使用相同的方法:

$$\frac{\partial}{\partial q} L(q|n,k) = -\frac{k}{1-q} + \frac{n-k}{q}$$

令其等于0,得到:

$$\hat{q}_{MLE} = 1 - \frac{k}{n} = \frac{n-k}{n}$$

我们可以看到,这个结果与 $p$ 的最大似然估计是等价的,即:

$$\hat{p}{MLE} = \frac{k}{n} = 1 - \frac{n-k}{n} = \hat{q}{MLE}$$

这就是似然估计的不变性:对参数的等价变换不会影响估计结果。在实际应用中,这个性质可以使我们更加灵活地选择参数,以便于最大化似然函数并获得更好的估计结果。2

当我们用最大似然估计去拟合一组数据时,有时我们可以对参数进行等价变换,来简化问题或者获得更好的结果。

举个例子,假设我们有一组数据 $(x_1, x_2, …, x_n)$,这些数据服从指数分布,其概率密度函数为:

$$f(x|\lambda) = \lambda e^{-\lambda x}, x \ge 0$$

其中 $\lambda$ 是未知参数。我们希望通过这些数据来估计参数 $\lambda$。使用最大似然估计,我们可以计算似然函数:

$$L(\lambda|x_1,x_2,…,x_n) = \prod_{i=1}^n \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda\sum_{i=1}^n x_i}$$

对 $\lambda$ 求导并令其等于0,我们可以得到 $\lambda$ 的最大似然估计为:

$$\hat{\lambda}{MLE} = \frac{n}{\sum{i=1}^n x_i}$$

但是,有时我们可能更希望估计指数分布的另一个参数,即其均值 $\mu$。注意到指数分布的均值 $\mu$ 和参数 $\lambda$ 之间存在等价变换关系,即:

$$\mu = \frac{1}{\lambda}$$

这意味着,我们可以通过估计均值 $\mu$,然后对其取倒数来得到 $\lambda$ 的估计。为了进行均值的估计,我们可以直接计算数据的算术平均数:

$$\hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i$$

然后,我们可以使用等价变换 $\lambda = 1/\mu$ 得到:

$$\hat{\lambda} = \frac{1}{\hat{\mu}} = \frac{n}{\sum_{i=1}^n x_i}$$

可以看到,这个估计结果和直接对 $\lambda$ 求解的最大似然估计式是一样的。这是因为两种估计方法之间存在着等价变换的关系。通过这种等价变换,我们可以更加灵活地选择估计参数,从而得到更好的结果。

条件期望

定义与性质

image-20221104234034583

image-20221104234048711

image-20221104234309824

image-20221104234430716

image-20221104234456650

共轭分布

共轭分布是概率统计中一个常见的名词,要真正了解它和它的用途,我们需要从贝叶斯学派说起。

贝叶斯学派

贝叶斯学派试图描述观察者在已有的先验知识状态下,在观测到新事件发生后得到后验知识状态。与之对立的是频率学派,频率学派强调从样本数据中直接得到出现的比例或者频率。频率学派需要大量样本数据作为支持,但是实际应用上,比如在药物等真实场景上是没有这么多数据的,因此在真实环境下贝叶斯理论使用更为广泛。

贝叶斯定理

image-20221106142254844

共轭分布的定义

image-20221106142341293

image-20221106142358175

image-20221106142411260

共轭分布的意义

image-20221106142531991

image-20221106142541782

image-20221106142554298

image-20221106142606306

方差分解公式(Law of Total Variance)

在讲方差分解之前,我们需要先理解双期望定理。对于一个X,我们可以根据不同的Y将其任意的划分为几部分:

image-20221106202348969

image-20221106202359807

image-20221106202417619

image-20221106202428512

image-20221106202545248

image-20221106202558803

零碎知识的补充

离散总体的联合分布律怎么求

离散总体的联合分布律指的是给定多个离散随机变量的取值,它们同时出现的概率分布。

设 $X_1, X_2, \ldots, X_n$ 为 $n$ 个离散随机变量,它们的取值分别为 $x_1, x_2, \ldots, x_n$,它们的联合分布律为 $P(X_1=x_1, X_2=x_2, \ldots, X_n=x_n)$。如果这些随机变量是独立的,则可以使用它们各自的分布律来求联合分布律,即:

$$P(X_1=x_1, X_2=x_2, \ldots, X_n=x_n) = \prod_{i=1}^{n} P(X_i=x_i)$$

如果这些随机变量不是独立的,则需要根据它们之间的关系来求联合分布律,具体的方法需要根据具体情况而定。

需要注意的是,如果 $n$ 很大,直接列出联合分布律可能会非常繁琐,此时可以考虑使用概率生成函数或特征函数等工具来求解。

为什么似然函数对于离散总体来说是样本联合分布律,而对于连续总体确实样本的联合密度函数

似然函数是用来衡量模型参数在给定观测数据下的可能性,因此其具体形式取决于所考虑的总体类型。

对于离散总体,样本空间为有限或可数无限个元素的集合,每个元素对应一个可能的观测值。此时,样本的联合分布律指的是在给定总体分布的情况下,多个观测值同时出现的概率,因此样本联合分布律可以写成概率质量函数的形式。似然函数则是将概率质量函数看作关于模型参数的函数,并将样本观测值代入其中,得到一个只与模型参数有关的函数。

对于连续总体,样本空间是实数轴上的一个区间,每个可能的观测值都是一个实数。此时,样本的联合密度函数指的是在给定总体分布的情况下,多个观测值同时出现的概率密度,因此样本联合密度函数可以写成概率密度函数的形式。似然函数则是将概率密度函数看作关于模型参数的函数,并将样本观测值代入其中,得到一个只与模型参数有关的函数。

因此,似然函数的形式取决于所考虑的总体类型,对于离散总体来说是样本联合分布律,对于连续总体来说是样本的联合密度函数。

为什么似然函数对于连续总体是样本的联合密度函数

似然函数是用来衡量模型参数在给定观测数据下的可能性,具体形式与所考虑的总体类型有关。

对于连续总体,样本空间是实数轴上的一个区间,每个可能的观测值都是一个实数。此时,样本的联合密度函数指的是在给定总体分布的情况下,多个观测值同时出现的概率密度,因此样本联合密度函数可以写成概率密度函数的形式。似然函数则是将概率密度函数看作关于模型参数的函数,并将样本观测值代入其中,得到一个只与模型参数有关的函数。

具体来说,假设总体分布的概率密度函数为 $f(x;\theta)$,其中 $\theta$ 是模型参数。设样本 $X_1,X_2,\ldots,X_n$ 是从总体中独立取出的 $n$ 个观测值,其联合密度函数为

image-20230223221709669

其中 $f(x_i;\theta)$ 是总体在参数 $\theta$ 下观测值为 $x_i$ 的概率密度。注意这里假设每个观测值都是独立同分布的,因此样本联合密度函数可以写成各个观测值的概率密度的乘积形式。

然后我们将样本观测值代入联合密度函数中,得到似然函数:

image-20230223221735315

这个函数只与模型参数 $\theta$ 有关,而与样本观测值 $x_1,x_2,\ldots,x_n$ 无关。因此,对于连续总体来说,似然函数是样本的联合密度函数。

连续总体的概率密度有什么含义吗,只是用来计算概率的吗?

连续总体的概率密度函数描述了总体在不同取值点上的密度分布情况,具有以下含义:

  1. 在某个取值点 $x$ 处,概率密度函数 $f(x)$ 表示该点处单位取值范围内的“概率密度”,即总体在这个点上取值的“相对可能性”。注意,这里“概率密度”不等于概率,因为连续总体在单个点处的概率为零。
  2. 在某个区间 $[a,b]$ 上,概率密度函数 $f(x)$ 的积分 $\int_{a}^{b}f(x)dx$ 表示该区间内总体取值的“相对可能性”,即该区间内出现的概率。

因此,概率密度函数描述了总体在各个取值点或区间上的相对可能性,而不是直接描述概率。但是,我们可以使用概率密度函数来计算某个区间内出现的概率,即对其进行积分。

需要注意的是,概率密度函数在计算概率时需要使用积分,而不是简单地将密度函数在某个点上的值当作概率。另外,在使用概率密度函数进行概率计算时,需要保证积分区间是合法的,并且使用正确的积分方法。

用概率密度表示在某个点上的取值的相对可能性有什么意义吗,可以用来做什么

在连续总体中,单个点的概率密度并不代表该点上的概率,因为一个具体的取值点的概率在数学上为零。但是,概率密度函数仍然有其重要的应用和意义:

  1. 概率密度函数可以用来描述总体的分布情况,即在整个样本空间上各个取值的相对可能性分布。通过对概率密度函数的观察,我们可以获得对总体的分布特征的认识,例如总体的中心位置、分布形状、分布范围等。
  2. 概率密度函数可以用来计算某个区间内出现的概率,即将概率密度函数在该区间上的积分作为该区间内总体出现的相对可能性。这在实际应用中非常有用,例如我们可以使用概率密度函数计算某个测量值落在某个区间内的概率,进而评估该测量值的置信度。
  3. 概率密度函数还可以用来进行假设检验和模型比较,例如通过比较两个概率密度函数的差异来评估两个总体的差异,或者通过对拟合概率密度函数的参数进行检验来评估某个总体分布的合理性。

总之,概率密度函数是描述总体分布情况的重要工具,可以用来获得对总体的认识、计算概率、进行假设检验和模型比较等。

我还是不理解”用概率密度表示在某个点上的取值的相对可能性”这一句话

很抱歉,我的回答可能存在误解。在连续总体中,由于每个具体的取值点的概率为零,概率密度函数不能用来直接计算在某个点上的取值的概率。因此,用概率密度函数表示在某个点上的取值的相对可能性是不准确的表述。

更准确地说,概率密度函数在某个点附近的取值较高,可以表示该点附近的取值相对于整个取值空间来说更可能出现。这是由于概率密度函数的值表示了取值的相对可能性分布,可以用来描述不同取值出现的相对概率大小。因此,如果在概率密度函数上的某个点附近的取值出现的概率相对较高,我们可以认为在该点附近取值的可能性相对较大。但需要注意的是,这并不能精确地计算某个具体取值的概率,而只能表示某个取值相对于其他取值的可能性大小。

举个例子,假设我们有一个连续总体的概率密度函数为 $f(x)$。如果我们想知道在某个点 $x_0$ 处取值的概率,我们需要计算 $x_0$ 在一个非常小的区间内出现的概率,即 $\int_{x_0-\epsilon}^{x_0+\epsilon}f(x)dx$,其中 $\epsilon$ 是一个非常小的正数。因为该区间非常小,因此该概率也非常小,通常可以认为是零。因此,我们不能用概率密度函数来计算在某个具体点上取值的概率,只能用来表示不同取值出现的相对可能性大小。

概率分布的理解

原文章地址

连续型随机变量

把分布表推广到无限情况,就可以得到连续型随机变量的概率密度函数。此时,随机变量取每个具体的值的概率为0,但在落在每一点处的概率是有相对大小的,描述这个概念的,就是概率密度函数。你可以把这个想象成一个实心物体,在每一点处质量为0,但是有密度,即有相对质量大小。


参考:

学弱猹

Judgement简单理解Beta函数

Understorm-Lianm【统计学进阶知识(一)】深入理解Beta分布:从定义到公式推导

三岁跳飞机

flyingczx

嘉州de小豪

摸鱼过河————“共轭分布”是什么?

Jie Qiao————直观理解Law of Total Variance(方差分解公式)


文章作者: 马克图布
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 马克图布 !
评论
  目录