狄利克雷分布 概率密度函數
参数 K ≥ 2 {\displaystyle K\geq 2} 分类数 (整数 ) α 1 , … , α K {\displaystyle \alpha _{1},\ldots ,\alpha _{K}} concentration parameters , α i > 0 {\displaystyle \alpha _{i}>0} 值域 x 1 , … , x K {\displaystyle x_{1},\ldots ,x_{K}} , x i ∈ ( 0 , 1 ) {\displaystyle x_{i}\in (0,1)} , ∑ i = 1 K x i = 1 {\displaystyle \sum _{i=1}^{K}x_{i}=1} 概率密度函数 1 B ( α ) ∏ i = 1 K x i α i − 1 {\displaystyle {\frac {1}{\mathrm {B} ({\boldsymbol {\alpha }})}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}} B ( α ) = ∏ i = 1 K Γ ( α i ) Γ ( ∑ i = 1 K α i ) {\displaystyle \mathrm {B} ({\boldsymbol {\alpha }})={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma {\bigl (}\sum _{i=1}^{K}\alpha _{i}{\bigr )}}}}
α = ( α 1 , … , α K ) {\displaystyle {\boldsymbol {\alpha }}=(\alpha _{1},\ldots ,\alpha _{K})} 期望值 E [ X i ] = α i ∑ k α k {\displaystyle \operatorname {E} [X_{i}]={\frac {\alpha _{i}}{\sum _{k}\alpha _{k}}}} E [ ln X i ] = ψ ( α i ) − ψ ( ∑ k α k ) {\displaystyle \operatorname {E} [\ln X_{i}]=\psi (\alpha _{i})-\psi (\textstyle \sum _{k}\alpha _{k})} (试看 digamma function ) 眾數 x i = α i − 1 ∑ k = 1 K α k − K , α i > 1. {\displaystyle x_{i}={\frac {\alpha _{i}-1}{\sum _{k=1}^{K}\alpha _{k}-K}},\quad \alpha _{i}>1.} 方差 Var [ X i ] = α ~ i ( 1 − α ~ i ) α ¯ + 1 , {\displaystyle \operatorname {Var} [X_{i}]={\frac {{\tilde {\alpha }}_{i}(1-{\tilde {\alpha }}_{i})}{{\bar {\alpha }}+1}},} 其中 α ~ i = α i ∑ i = 1 K α i {\displaystyle {\tilde {\alpha }}_{i}={\frac {\alpha _{i}}{\sum _{i=1}^{K}\alpha _{i}}}}
而且 α ¯ = ∑ i = 1 K α i {\displaystyle {\bar {\alpha }}=\sum _{i=1}^{K}\alpha _{i}} Cov [ X i , X j ] = − α ~ i α ~ j α ¯ + 1 ( i ≠ j ) {\displaystyle \operatorname {Cov} [X_{i},X_{j}]={\frac {-{\tilde {\alpha }}_{i}{\tilde {\alpha }}_{j}}{{\bar {\alpha }}+1}}~~(i\neq j)} 熵 H ( X ) = log B ( α ) + ( α 0 − K ) ψ ( α 0 ) − ∑ j = 1 K ( α j − 1 ) ψ ( α j ) {\displaystyle H(X)=\log \mathrm {B} (\alpha )+(\alpha _{0}-K)\psi (\alpha _{0})-\sum _{j=1}^{K}(\alpha _{j}-1)\psi (\alpha _{j})}
狄利克雷分布是一组连续多变量概率分布,是多变量普遍化的Β分布 。为了纪念德国数学家約翰·彼得·古斯塔夫·勒熱納·狄利克雷 (Peter Gustav Lejeune Dirichlet)而命名。狄利克雷分布常作为贝叶斯统计的先验概率 。当狄利克雷分布维度趋向无限时,这过程便称为狄利克雷过程 (Dirichlet process)。
狄利克雷分布奠定了狄利克雷过程的基础,被广泛应用于自然语言处理 特别是主题模型 (topic model)的研究。
此图展示了当K =3、参数α 从α =(0.3, 0.3, 0.3)变化到(2.0, 2.0, 2.0)时,密度函数取对数后的变化。 维度K ≥ 2的狄利克雷分布在参数α 1 , ..., α K > 0上、基于欧几里得空间 R K-1 里的勒贝格测度 有个概率密度函数,定义为:
f ( x 1 , … , x K ; α 1 , … , α K ) = 1 B ( α ) ∏ i = 1 K x i α i − 1 {\displaystyle f(x_{1},\dots ,x_{K};\alpha _{1},\dots ,\alpha _{K})={\frac {1}{\mathrm {B} (\alpha )}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}} 其中 x {\displaystyle {\boldsymbol {x}}} 满足 ∑ i = 1 K x i = 1 {\displaystyle \sum _{i=1}^{K}x_{i}=1} ,同时对于任意 i ∈ { 1 , … , K } {\displaystyle i\in \{1,\dots ,K\}} ,都有 x i ≥ 0 {\displaystyle x_{i}\geq 0} 。即 x {\displaystyle {\boldsymbol {x}}} 在(K − 1)维的单纯形 开集 上密度为0。
归一化衡量B(α) 是多项Β函数 ,可以用Γ函数 (gamma function)表示:
B ( α ) = ∏ i = 1 K Γ ( α i ) Γ ( ∑ i = 1 K α i ) , α = ( α 1 , … , α K ) . {\displaystyle \mathrm {B} (\alpha )={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma {\bigl (}\sum _{i=1}^{K}\alpha _{i}{\bigr )}}},\qquad \alpha =(\alpha _{1},\dots ,\alpha _{K}).}