连续型随机变量的概率分布

Author

Simonzhou

Published

February 23, 2025

1 连续型随机变量的概率分布

1.1 正态分布(Normal Distribution)

1.1.1 正态分布的概念

若随机变量X的密度函数是

\[f(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, (-\infty<x<+\infty)\] 则称X服从正态分布,记为\(X\sim N(\mu,\sigma^2)\)

Normal Curve comparsion
  1. 正态分布(Normal Distribution):正态分布是最重要的连续型分布,随机变量\(X\)服从均数为\(\mu\),标准差为\(\sigma\)的正态分布,记为\(X\sim N(\mu,\sigma^{2})\)
  2. 正态曲线(Normal curve):即正态分布曲线,\(\mu\)\(\sigma\)是正态分布的两个参数。

Normal Curve
  1. 性质
  • 正态曲线在横轴上方均数处最高
  • 正态分布以均数为中心,左右对称
  • 正态分布有两个参数,即位置参数\(\mu\)形态参数\(\sigma\)
    • 固定\(\sigma\),改变\(\mu\)值,形态不变,曲线沿着\(X\)轴平行移动
    • 固定\(\mu\),改变\(\sigma\)值,中心在\(X\)轴的位置不变
      • \(\sigma\)越小,曲线越陡峭\(\to\)瘦高
      • \(\sigma\)越大,曲线越低平\(\to\)矮胖
    • 正态分布的可加性,当随机变量X服从正态分布\(N(\mu_1,\sigma_1^2)\),Y服从正态分布\(N(\mu_2,\sigma_2^2)\),X与Y独立,则\(X-Y\)服从\(N(\mu_1-\mu_2,\sigma_1^2+\sigma_2^2)\)的正态分布

Different Normal Curve

1.2 标准正态分布

标准正态随机变量U的密度函数用\(\varphi(u)\)表示,为: \[\varphi(u)=\frac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}},(-\infty<x<+\infty)\]

  1. 标准正态分布(Standard normal distribution):是一种特殊的正态分布,通常用\(U\)\(Z\)表示服从标准正态分布的变量,此时称随机变量\(X\)服从均数为0,标准差为1的标准正态分布,记为\(X \sim N(0,1)\)
  • 正态分布:一簇曲线
  • 标准正态分布:一条曲线
  1. 标准正态变换:Z变换、U变换
  • 疑难1:Z值到底表达什么意思?
    • 个体值到均值的距离,有多少个标准差 \(Z = \frac{X-\mu}{\sigma}\)
    • 只有正态分布的资料才能通过Z变换变成标准正态分布
  • 疑难2:标准化变换的公式如何理解?
    • 个体值减去均值,除以标准差,均数和标准差由\(\mu,\sigma\)变为\(0,1\)
TableGrob (1 x 2) "arrange": 2 grobs
  z     cells    name           grob
1 1 (1-1,1-1) arrange gtable[layout]
2 2 (1-1,2-2) arrange gtable[layout]

Normalized Transformation

1.2.1 正态分布、标准正态分布的应用

  1. 正态分布的68-95-99.7法则

Normal
  1. 标准化转换,涉及到以下两个互逆计算
  • 估计某个随机变量在一定取值范围内的观测值个数占全部观测值数量的百分比
  • 通过已知的百分比,估计总体变量值的分布范围(本质同医学参考值范围的计算)
  1. 运用正态近似法计算医学参考值范围

Medical reference range
  1. 运用正态近似法计算置信区间
  2. 正态分布是很多统计学分析方法的理论基础

notice:

  1. 正态曲线上的拐点所对应的横坐标为\(\mu ±\sigma\)
  2. 设随机变量\(X\)的概率密度曲线为\(f(x)=\frac{1}{2\sqrt{p}}e^{\frac{(x+2)^2}{4}}\),若要将\(X\)转化为服从标准正态分布的变量\(\mu\),则所采用的标准化变换为:\(\frac{X-2}{\sqrt{2}}\)(其原式为:\(f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{\frac{-(x-\mu)^2}{2\sigma^2}}\),题目和原式中:\(p=\pi\)

1.2.2 正负偏态分布

Skewed Curves

notice:

  • 左偏,左边尾长,平均数靠近左侧,平均数小于中位数小于众数,负偏态;
  • 右偏,右边尾长,平均数靠近右侧,平均数大于中位数大于众数,正偏态。

1.3 小结

conversion relationship

2 由正态分布引出的三大抽样分布

2.1 t分布

说起t分布,首先要提一句u分布,正态分布(Normal Distribution)是许多统计方法的理论基础。

正态分布的两个参数\(\mu\)\(\sigma\)决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换\([(X-\mu)/\sigma]\)转化成标准正态变量u,以使原来各种形态的正态分布都转换为\(\mu=0,\sigma=1\)的标准正态分布(Standard Normal Distribution),亦称u分布。

根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即\(N(\mu,\sigma)\)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布\(N(0,1)\)

由于在实际工作中,往往\(\sigma^2\)(总体方差)是未知的,常用\(s^2\)(样本方差)作为\(\sigma^2\)的估计值,为了与u变换区别,称为 t 变换,统计量 t 值的分布称为 t 分布。

t-distribution Curves

t 分布是英国统计学家 W.S. Gosset 在 1908 年以笔名 Student发表的论文中提出的, 故后人称为 “学生氏 (Student) 分布” 或 “t 分 布”。

2.2 F分布

F-distribution Curves

2.2.1 F分布的应用

  1. 方差的同质性检验 组与组之间的差异称组间变异(variation between classes),反映在各组的平均数不同。同一组内部被试(个体)之间的差异称组内变异(variation within class),反映在每一个个体之间的差异。
  2. 总变异的分解:
  • 总变异 = 组间变异+组内变异
  • 组间变异 = 实验条件 + 随机误差
  • 组内变异 = 个体差异 + 实验误差 。组内误差都是随机误差。

2.3 \(\chi^2\)分布

Chi-square Distribution Curves

2.3.1 卡方检验应用

  1. 检验连续变量的分布是否与某种理论分布一致。
  2. 检验某个分类变量各类的出现概率是否等于指定概率。
  3. 检验某两种方法的结果是否一致。