توزیع دریکله تابع چگالی احتمال
پارامترها K >= 2 {\displaystyle K>=2} تعداد دسته ها (عددی صحیح) α 1 , … , α K {\displaystyle \alpha _{1},\ldots ,\alpha _{K}} concentration parameter s, که در آن α i > 0 {\displaystyle \alpha _{i}>0} تکیهگاه x 1 , … , x K {\displaystyle x_{1},\ldots ,x_{K}} که در آن x i ∈ [ 0 , 1 ] {\displaystyle x_{i}\in [0,1]} و ∑ x i = 1 {\displaystyle \sum x_{i}=1} تابع چگالی احتمال 1 B ( α ) ∏ i = 1 K x i α i − 1 {\displaystyle {\frac {1}{\mathrm {B} ({\boldsymbol {\alpha }})}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}} که در آن B ( α ) = ∏ i = 1 K Γ ( α i ) Γ ( ∑ i = 1 K α i ) {\displaystyle \mathrm {B} ({\boldsymbol {\alpha }})={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma {\bigl (}\sum _{i=1}^{K}\alpha _{i}{\bigr )}}}} که در آن α = ( α 1 , … , α K ) {\displaystyle {\boldsymbol {\alpha }}=(\alpha _{1},\ldots ,\alpha _{K})} میانگین E [ X i ] = α i ∑ k α k {\displaystyle \operatorname {E} [X_{i}]={\frac {\alpha _{i}}{\sum _{k}\alpha _{k}}}} E [ ln X i ] = ψ ( α i ) − ψ ( ∑ k α k ) {\displaystyle \operatorname {E} [\ln X_{i}]=\psi (\alpha _{i})-\psi (\textstyle \sum _{k}\alpha _{k})} (see digamma function ) مُد x i = α i − 1 ∑ i = 1 K α i − K , α i > 1. {\displaystyle x_{i}={\frac {\alpha _{i}-1}{\sum _{i=1}^{K}\alpha _{i}-K}},\quad \alpha _{i}>1.} واریانس V a r [ X i ] = α i ( α 0 − α i ) α 0 2 ( α 0 + 1 ) , {\displaystyle \mathrm {Var} [X_{i}]={\frac {\alpha _{i}(\alpha _{0}-\alpha _{i})}{\alpha _{0}^{2}(\alpha _{0}+1)}},} که در آن α 0 = ∑ i = 1 k α i {\displaystyle \alpha _{0}=\sum _{i=1}^{k}\alpha _{i}} C o v [ X i , X j ] = − α i α j α 0 2 ( α 0 + 1 ) ( i ≠ j ) {\displaystyle \mathrm {Cov} [X_{i},X_{j}]={\frac {-\alpha _{i}\alpha _{j}}{\alpha _{0}^{2}(\alpha _{0}+1)}}~~(i\neq j)} آنتروپی see text
چندین تصویر توزیع دریکله وقتی که K =3 برای بردارهای مختلف پارامتر α است. بهصورت ساعتگرد از بالا چپ: α =(6, 2, 2), (3, 7, 5), (6, 2, 6), (2, 3, 4). توزیع دیریکله در نظریه احتمال و آمار یک توزیع پیوسته است. این توزیع بهطور کلی حالت گسترش یافته توزیع بتا برای توابع چندمتغیره است. معمولاً از توزیع دیریکله به عنوان توزیع پیشین در مدل سازی بیزی استفاده میشود؛ چرا که توزیع دیریکله مزدوج پیشین (conjugate prior) برای توزیع چندجمله ای و توزیع دسته ای (categorical) است. تعمیم این توزیع فرایند دیریکله است.
تابع چگالی احتمال آن به صورت زیر است:
f ( x 1 , … , x K − 1 ; α 1 , … , α K ) = 1 B ( α ) ∏ i = 1 K x i α i − 1 {\displaystyle f(x_{1},\dots ,x_{K-1};\alpha _{1},\dots ,\alpha _{K})={\frac {1}{\mathrm {B} (\alpha )}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}} به ازای همهٔ x 1 , ..., x K –1 > 0 بطوریکه x 1 + ... + x K –1 < 1, و x K = 1 – x 1 – ... – x K –1 . چگالی در خارج از این ناحیه صفر است. ثابت نرمالیزاسیون به صورت زیر تعریف میشود:
B ( α ) = ∏ i = 1 K Γ ( α i ) Γ ( ∑ i = 1 K α i ) , α = ( α 1 , … , α K ) . {\displaystyle \mathrm {B} (\alpha )={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma {\bigl (}\sum _{i=1}^{K}\alpha _{i}{\bigr )}}},\qquad \alpha =(\alpha _{1},\dots ,\alpha _{K}).} یک حالت خاص زمانی است که تمامی مقادیر α {\displaystyle {\boldsymbol {\alpha }}} مقدار یکسانی داشته باشند، که در اینصورت آن را توزیع دیریکلهٔ متقارن می نامیم. در این حالت توزیع ساده میشود به:
f ( x 1 , … , x K − 1 ; α ) = Γ ( α K ) Γ ( α ) K ∏ i = 1 K x i α − 1 . {\displaystyle f(x_{1},\dots ,x_{K-1};\alpha )={\frac {\Gamma (\alpha K)}{\Gamma (\alpha )^{K}}}\prod _{i=1}^{K}x_{i}^{\alpha -1}.} زمانی که α = 1 {\displaystyle \alpha =1} توزیع معادل با توزیع یکنواخت روی یک تکیهگاه (ریاضی) سیمپلکس K − 1 {\displaystyle K-1} بعدی.
فرض کنیم متغیرهای تصادفی X = ( X 1 , … , X K ) ∼ Dir ( α ) {\displaystyle X=(X_{1},\ldots ,X_{K})\sim \operatorname {Dir} (\alpha )} و : X K = 1 − X 1 − ⋯ − X K − 1 . {\displaystyle X_{K}=1-X_{1}-\cdots -X_{K-1}.} را در اختیار داریم. تعریف میکنیم α 0 = ∑ i = 1 K α i {\displaystyle \textstyle \alpha _{0}=\sum _{i=1}^{K}\alpha _{i}} . بنابرین [ ۱] [ ۲]
E [ X i ] = α i α 0 , {\displaystyle \mathrm {E} [X_{i}]={\frac {\alpha _{i}}{\alpha _{0}}},} V a r [ X i ] = α i ( α 0 − α i ) α 0 2 ( α 0 + 1 ) . {\displaystyle \mathrm {Var} [X_{i}]={\frac {\alpha _{i}(\alpha _{0}-\alpha _{i})}{\alpha _{0}^{2}(\alpha _{0}+1)}}.} علاوه بر این اگر if i ≠ j {\displaystyle i\neq j}
C o v [ X i , X j ] = − α i α j α 0 2 ( α 0 + 1 ) . {\displaystyle \mathrm {Cov} [X_{i},X_{j}]={\frac {-\alpha _{i}\alpha _{j}}{\alpha _{0}^{2}(\alpha _{0}+1)}}.} مد توزیع برداری مانند (x 1 , ..., x K ) است که در آن:
x i = α i − 1 α 0 − K , α i > 1. {\displaystyle x_{i}={\frac {\alpha _{i}-1}{\alpha _{0}-K}},\quad \alpha _{i}>1.} توزیعهای حاشیه ای توزیع دیریکله، توزیع بتا هستند.
مزدوج برای توزیع چندجمله ای/دسته ای[ ویرایش ] این به این معنی است که اگر در مدلسازی مجموعه ای از داده ها از توزیع چندجمله ای/دسته ای استفاده کنیم و توزیع پیشین را دیریکله قرار دهیم، توزیع پسین الزاماً یک توزیع دیریکله خواهد بود. به زبان ریاضی یعنی
α = ( α 1 , … , α K ) = concentration hyperparameter p ∣ α = ( p 1 , … , p K ) ∼ Dir ( K , α ) X ∣ p = ( x 1 , … , x N ) ∼ Cat ( K , p ) {\displaystyle {\begin{array}{lclcl}{\boldsymbol {\alpha }}&=&(\alpha _{1},\ldots ,\alpha _{K})&=&{\text{concentration hyperparameter}}\\\mathbf {p} \mid {\boldsymbol {\alpha }}&=&(p_{1},\ldots ,p_{K})&\sim &\operatorname {Dir} (K,{\boldsymbol {\alpha }})\\\mathbb {X} \mid \mathbf {p} &=&(\mathbf {x} _{1},\ldots ,\mathbf {x} _{N})&\sim &\operatorname {Cat} (K,\mathbf {p} )\end{array}}} بنابرین روابط مقابل برقرار هستند:
c = ( c 1 , … , c K ) = number of occurrences of category i p ∣ X , α ∼ Dir ( K , c + α ) = Dir ( K , c 1 + α 1 , … , c K + α K ) {\displaystyle {\begin{array}{lclcl}\mathbf {c} &=&(c_{1},\ldots ,c_{K})&=&{\text{number of occurrences of category }}i\\\mathbf {p} \mid \mathbb {X} ,{\boldsymbol {\alpha }}&\sim &\operatorname {Dir} (K,\mathbf {c} +{\boldsymbol {\alpha }})&=&\operatorname {Dir} (K,c_{1}+\alpha _{1},\ldots ,c_{K}+\alpha _{K})\end{array}}} ارتباط با توزیع دیریکله-چندجمله ای[ ویرایش ] می دانیم
E [ log ( X i ) ] = ψ ( α i ) − ψ ( α 0 ) {\displaystyle \operatorname {E} [\log(X_{i})]=\psi (\alpha _{i})-\psi (\alpha _{0})} و Cov [ log ( X i ) , log ( X j ) ] = ψ ′ ( α i ) δ i j − ψ ′ ( α 0 ) {\displaystyle \operatorname {Cov} [\log(X_{i}),\log(X_{j})]=\psi '(\alpha _{i})\delta _{ij}-\psi '(\alpha _{0})} که در آن ψ {\displaystyle \psi } تابع تابع دایگاما و ψ ′ {\displaystyle \psi '} تابع ترایگاما ، δ i j {\displaystyle \delta _{ij}} دلتای کرونکر است.
H ( X ) = log B ( α ) + ( α 0 − K ) ψ ( α 0 ) − ∑ j = 1 K ( α j − 1 ) ψ ( α j ) {\displaystyle H(X)=\log \mathrm {B} (\alpha )+(\alpha _{0}-K)\psi (\alpha _{0})-\sum _{j=1}^{K}(\alpha _{j}-1)\psi (\alpha _{j})} اگر X = ( X 1 , … , X K ) ∼ Dir ( α 1 , … , α K ) {\displaystyle X=(X_{1},\ldots ,X_{K})\sim \operatorname {Dir} (\alpha _{1},\ldots ,\alpha _{K})} اگر متغیرهای تصادفی i-ام و j-م را با هم ادغام کنیم دیریکلهٔ حاصل برابر است با:
X ′ = ( X 1 , … , X i + X j , … , X K ) ∼ Dir ( α 1 , … , α i + α j , … , α K ) . {\displaystyle X'=(X_{1},\ldots ,X_{i}+X_{j},\ldots ,X_{K})\sim \operatorname {Dir} (\alpha _{1},\ldots ,\alpha _{i}+\alpha _{j},\ldots ,\alpha _{K}).} http://www.cis.hut.fi/ahonkela/dippa/node95.html