【机器学习】004--离散型随机变量:分布与数字特征

Posted by ShawnD on August 2, 2020

事件与随机变量

定义:某一次具体试验中所有可能出现的结果构成一个样本空间, 对于样本空间中的每一个可能的实验结果, 关联到一个特定的数。 这种实验结果与数的对应关系形成了随机变量

离散型随机变量

定义: 随机变量的取值只能是有限多个或者是可数的无限多个值

随机变量关注的要素:

  • 随机变量的取值
  • 试验中每个对应取值的概率
  • 随机变量的统计特征和度量方法

分布列和概率质量函数(probability mass function PMF)

随机变量 表示两次抛掷硬币正面向上的次数,随机变量 的分布列如下表所示:

取值 0 1 2 其他
P $\frac{1}{4}$ $\frac{1}{2}$ $\frac{1}{4}$ 0

概率质量函数就是将随机变量的每个值映射到其概率上,看上去和分布列就是一回事儿。

二项分布和二项随机变量

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
	from scipy.stats import binom
    import matplotlib.pyplot as plt
    import seaborn
    seaborn.set()
    
    fig, ax = plt.subplots(3, 1)
    params = [(10, 0.25), (10, 0.5), (10, 0.8)]
    x = range(0, 11)
    
    for i in range(len(params)):
        binom_rv = binom(n=params[i][0], p=params[i][1])
        ax[i].set_title('n={},p={}'.format(params[i][0], params[i][1]))
        ax[i].plot(x, binom_rv.pmf(x), 'bo', ms=8)
        ax[i].vlines(x, 0, binom_rv.pmf(x), colors='b', lw=3)
        ax[i].set_xlim(0, 10)
        ax[i].set_ylim(0, 0.35)
        ax[i].set_xticks(x)
        ax[i].set_yticks([0, 0.1, 0.2, 0.3])
    
    plt.show()

QA

Q1: 本科我们接触概率密度函数多一些, 但概率质量函数接触地较少, 那你能解释一下概率质量函数和概率密度函数的区别吗?

Q2: 二项分布的概率值可以由参数为λ=np的泊松分布的概率值近似,当n和p的取值在哪个范围内,使得泊松分布近似值较为接近?

Reference