最大エントロピー原理

最大エントロピー原理（さいだいエントロピーげんり、英: principle of maximum entropy）は、認識確率分布を一意に定めるために利用可能な情報を分析する手法である。この原理を最初に提唱したのは Edwin Thompson Jaynes である。彼は1957年に統計力学のギブズ分布を持ち込んだ熱力学（最大エントロピー熱力学（英語版））を提唱した際に、この原理も提唱したものである。彼は、熱力学やエントロピーは、情報理論や推定の汎用ツールの応用例と見るべきだと示唆した。他のベイズ的手法と同様、最大エントロピー原理でも事前確率を明示的に利用する。これは古典的統計学における推定手法の代替である。

概要

今確率変数 $X$ について、 $X$ が条件 $I$ を満たす事だけが分かっており、それ以外に $X$ に関して何1つ知らなかったとする。このとき、 $X$ が従う分布はどのようなものであると仮定するのが最も自然であろうか。今我々は $X$ について条件 $I$ 以外には何も知らないのだから、条件 $I$ の下で $X$ の「不確かさ」が最大になるような分布を選ぶのが適切だと思われる。

最大エントロピー原理は、「不確かさ」を図る尺度であるエントロピーを条件 $I$ の下で最大にするよう分布を選ぶべきである、という原理である。ただし $X$ の取る値が連続的な場合は、技術的な理由により微分エントロピーではなく、後述の相対エントロピーを最大化する（Jaynesによれば、様々な理由により、こちらの方が「真の」エントロピーの概念である。）。

$X$ が従う確率分布を $p$ とするとき、束縛条件 $I$ として

g_{k}({\boldsymbol {p}})=0\quad k=1,2,\dotsc \,

のように $p$ に関する方程式の形で書けているものを考える。このような制限付き最適化問題は一般にラグランジュの未定乗数法で解くことが出来る。

具体例

→「en:maximum entropy probability distribution」も参照

制約条件 $I$ により、エントロピーを最大化する分布は以下のようになる：

$X$ が区間 [a,b] にある事だけが分かっている ⇒ $X$ は $[a, b]$ 上の一様分布
$X$ の平均 $μ$ と分散 $σ 2$ だけが分かっている ⇒ $X$ は平均 $μ$ 、分散 $σ 2$ の正規分布
$X$ が区間 [a,b] にあり、平均 $μ$ と分散 $σ 2$ だけが分かっている ⇒ 切断正規分布。ただし、切断する前の正規分布の平均と分散は $μ$ や $σ 2$ とずれが生じる。
$X$ の平均 $μ$ と平均絶対偏差 $b$ だけが分かっている ⇒ ラプラス分布
$X$ が正値で平均 $μ$ である事だけが分かっている ⇒ 連続の場合は平均 $μ$ の指数分布、離散の場合は幾何分布
$X$ の値域が有限集合 $x 1, ..., x n$ で平均が $μ$ である事だけが分かっている ⇒ $\operatorname {Pr} (X=x_{k})=Cr^{x_{k}}\quad {\mbox{ for }}k=1,\dotsc ,n$ という形の分布。

相対エントロピー

確率変数 $X$ が従う分布の密度関数を $p (x)$ とし、 $m (x)$ を確率分布（もしくはより一般に非負の測度）の密度関数とするとき、 $p (x)$ の $m (x)$ に対する 相対エントロピーは

-\int p(x)\log {\frac {p(x)}{m(x)}}\mathrm {d} x

により定義される (Jaynes 1963), (Jaynes 1968), (Jaynes 2003)（ $m (x)$ が確率分布であれば、相対エントロピーはカルバック・ライブラー情報量に一致）。

なお、通常のシャノン・エントロピー

-\sum _{i\in I}p_{i}\log p_{i}

は $X$ の値域 $I$ が有限集合で、 $m (x)$ が $I$ 上の一様分布である場合の相対エントロピーと一致する。

期待値に制約がある場合の一般解

一般解

X を実数値の確率変数とし、 k=1,...,m に対し、 T_k を実数値関数、 t_k は実数とする。今 X の統計量 T_k(X) の期待値が t_k である、すなわち

(1)

\int p(x)T_{k}(x)dx=t_{k}\qquad k=1,\dotsc ,m

である事が分かっているとする。さらにもちろん確率の総和は 1 であるという事も分かっている。すなわち、

(2)

\int p(x)=1.\,

これらの条件下、相対エントロピー

-\int p(x)\log {\frac {p(x)}{m(x)}}\,dx

を最大化する分布の確率密度関数p(x) は以下のものである：

p(x)={\frac {1}{Z(\lambda _{1},\dotsc ,\lambda _{m})}}m(x)\exp \left[\lambda _{1}T_{1}(x)+\dotsb +\lambda _{m}T_{m}(x)\right]

ここで $Z(\lambda _{1},\dotsc ,\lambda _{m})$ は「正規化定数」（=確率の和が1になるよう全体を調整する為の値）であり、

Z(\lambda _{1},\dotsc ,\lambda _{m})=\int m(x)\exp \left[\lambda _{1}T_{1}(x)+\dotsb +\lambda _{m}T_{m}(x)\right]dx.\,

またλ₁,..., λ_mは未定乗数法におけるラグランジュ乗数であり、これらは連立方程式

t_{k}={\frac {\partial }{\partial \lambda _{k}}}\log Z(\lambda _{1},\dotsc ,\lambda _{m})\qquad k=1,\dotsc ,m

を満たす値として定まる。この連立方程式は一般には解析的に解くことができないので、数値解析で解くのが普通である。

最大エントロピー原理では m(x) を既知として扱うので、 m(x) は最大エントロピー原理では決定できない。よって何らかの他の論理的手法、例えば「変換群の原理; principle of transformation groups」や条件付き確率、で決定しなければならない。

離散の場合の解

今、確率変数 X が前述した(1)、(2)の条件の他に

(3) X の値域は {x₁, x₂,..., x_n} である

という事が分かっていたとする。（すなわちX は離散確率分布。）

さらに m(x)=1 である場合（この場合相対エントロピーは通常の離散の場合のエントロピーと一致）を考える。

このとき、制約条件(1)、(2)、(3)の下で最大エントロピーを達成する分布の確率密度関数p(x) は以下のもの(ギブズ分布)になる:

p(x_{i})={\frac {1}{Z(\lambda _{1},\dotsc ,\lambda _{m})}}\exp \left[\lambda _{1}T_{1}(x_{i})+\dotsb +\lambda _{m}T_{m}(x_{i})\right]

$Z(\lambda _{1},\cdots ,\lambda _{m})$ およびλ₁, …, λ_m は前述と同様の式で求まる。

なお、上の解において $(T_{1},...,T_{m})$ をX の統計量と見なすと、 $(T_{1},...,T_{m})$ はパラメータ (λ₁,..., λ_m) の十分統計量である。興味深い事に、確率分布が十分統計量を持つ必要十分条件は、確率密度関数が上の形で書ける事である(Pitman-Koopmanの定理)。詳細はen:exponential familyを参照。

他の特殊な場合

今確率変数 X の値域が区間 (a, b) である事（と確率の総和が1である事)のみが分かっていて他には何も分かっていないとする。この場合相対エントロピーを最大化する分布の確率密度関数は次のようになる。

p(x)=m(x)/Z,\qquad a<x<b

ここで Z は正規化定数である。

最大エントロピー原理の正当化

確率変数 X がごく自然な方法で得られるという「思考実験」をするとその実験の帰結が最大エントロピー原理と一致する事を示す。この主張は1962年に Graham Wallis が E.T. Jaynes に示唆したことから導き出された（Jaynes, 2003）ものであり、基本的に統計力学においてマクスウェル分布を導出する際の手法と同一であるが、概念的な意味は異なる。

X を m 通りの値を取る確率変数とする（マクスウェル分布のシナリオではX の取りうる値は速度空間上の m 個の微小領域）。話を簡単にする為、以下、X の取りうる値が1,...,m である場合を考えるが、一般の場合も同様である。今X について、X の取りうる値が1,...,m である事と、 X が条件 I を満たす事のみを知っていて他には何も知らないとする。このとき、X がどのような分布に従うと考えるのが自然であろうか。これを考える為、以下の思考実験を行う。

N を十分大きな値とし、大きさ 1/N の微小な「確率のカケラ」をN 個用意し（マクスウェル分布のシナリオでは、各々のカケラは分子に対応する）、そして各々のカケラを x 軸上の 1,...,m のいずれかの場所の上においていく。全てのカケラを置き終わったら、各 $i\in \{1,\dotsc ,m\}$ に対し、

n_{i}=\,

(i の上にあるカケラの数)

\,

p_{i}=n_{i}/N\,

とする。 $p_{i}$ は $\Sigma {}_{i}p_{i}=1$ を満たすので、 $(p_{1},\dotsc ,p_{m})$ を確率分布と見なす事ができる。

今我々が X について知っているのは、 X が条件 I を満たす事（と取りうる値が 1,...,m である事）だけである。また N は十分大きいので、以上の方法で作った分布 $(p_{1},\dotsc ,p_{m})$ はいかなる分布をも十分によく近似できる。従って、 X の従う確率分布が以下の方法で決められていると仮定するのは自然であろう：

前述の思考実験に従い、 $p_{1},\dotsc ,p_{m}$ を決める。ただし各カケラを 1,...,m のいずれの場所に置くのかは一様ランダムに決める。
分布 $(p_{1},\dotsc ,p_{m})$ が条件 I を満たせば、 $\Pr[X=i]=p_{i}$ とする。
そうでなければ、カケラを全て片付けて最初からやり直す。

以上の方法で分布を生成したときに「 X が分布 ${\boldsymbol {p}}$ に従う確率」を $\Pr[{\boldsymbol {p}}\mid I]$ とする。

以上の考察を踏まえると、

X は

\Pr[{\boldsymbol {p}}\mid I]

が最大になる分布

{\boldsymbol {p}}

に従う

と見なすのが自然である事が分かる。

明らかに ${\boldsymbol {p}}$ は（条件 I の付いた）多項分布に従うので、

\Pr[{\boldsymbol {p}}\mid I]

は

W={\frac {N!}{n_{1}!n_{2}!\dotsb n_{m}!}}

に比例する。

ただし ${\boldsymbol {p}}$ が条件 I を満たさない場合は

\Pr[{\boldsymbol {p}}|I]=0.\,

よって $\Pr[{\boldsymbol {p}}\mid I]$ は条件 I を満たす ${\boldsymbol {p}}$ により最大化される。

$\log$ の凸性より、 $\Pr[{\boldsymbol {p}}\mid I]$ を最大化するという事は ${\frac {1}{N}}\log W$ を最大化するのと等価である。そこで最後に N → ∞ とすると以下が従う。

{\begin{aligned}&{\frac {1}{N}}\log W=(\log N!-\sum _{i}\log n_{i}!)/N{\underset {\text{(1)}}{\approx }}(N\log N-\sum _{i}n_{i}\log n_{i})/N{\underset {\text{(2)}}{=}}\log N-\sum _{i}p_{i}\log Np_{i}{\underset {\text{(3)}}{=}}-\sum _{i}p_{i}\log p_{i}=H({\boldsymbol {p}})\end{aligned}}

ここで(1)、(2)、(3)はそれぞれスターリングの公式 $n!\approx n^{n}$ 、 $p_{i}=n_{i}/N$ 、 $\Sigma {}_{i}p_{i}=1$ より。

よって以上の方法で X が従う最も自然な分布を選ぶという事は、最大エントロピー原理に従って X の従う分布を決める事を意味する。

より一般的な場合の正当化

上ではカケラが m 個の場所のどれに配置されるのも等確率である場合を考察したが、より一般に配置される場所毎に確率が異なる場合を考察する。 i 番目の場所に配置される確率が q_i であるとすると、 ${\boldsymbol {p}}$ は（条件 I の付いた）多項分布に従う事から、

\Pr[{\boldsymbol {p}}\mid I]

は

W={\frac {N!}{n_{1}!n_{2}!\dotsb n_{m}!}}{q_{1}}^{n_{1}}\dotsb {q_{m}}^{n_{m}}

に比例する。

よってこの場合は

{\begin{aligned}&{\frac {1}{N}}\log W=\left(\log N!-\sum _{i}\log {\frac {n_{i}!}{{q_{i}}^{n_{i}}}}\right)/N\approx \left(N\log N-\sum _{i}n_{i}\log {\frac {n_{i}}{q_{i}}}\right)/N=\log N-\sum _{i}p_{i}\log {\frac {Np_{i}}{q_{i}}}=-\sum _{i}p_{i}\log {\frac {p_{i}}{q_{i}}}\end{aligned}}

となり、相対エントロピーを最大化するように X の分布を選ぶ事となる。

物理学への応用

マクスウェル分布

統計力学におけるマクスウェル分布は、容器中に気体（1種類の物質からなり、かつ定常状態にある）が閉じ込められている状況において、容器中の各分子の速度が従う確率分布で、分子の速度を $(v_{x},v_{y},v_{z})$ とすると、この分布の確率密度関数は

p(v_{x},v_{y},v_{z})={\frac {1}{Z}}\mathrm {exp} \left(\lambda {\frac {m({v_{x}}^{2}+{v_{y}}^{2}+{v_{z}}^{2})}{2}}\right)

となる。ここで Z は正規化定数で、λは逆温度（＝絶対温度の逆数。通常はβで表すがここでは前節までと記号を合わせる為λと書く）。

マクスウェル分布は、最大エントロピー原理から以下のようにして導く事ができる。

容器中に気体（1種類の物質からなり、かつ定常状態にある）が閉じ込められているとし、その気体を構成する各分子の速度を考える。各分子が取りうる速度全体のなす空間(速度空間 )を考えると、速度は3次元のベクトル $(v_{x},v_{y},v_{z})$ で表す事ができるので、速度空間は、3次元ベクトル空間（の有限体積の部分集合）となる。

速度空間を $\ell$ 個の領域に分け、容器中の分子がそれらの領域のどこに属するかを考える。各分子は互いに衝突を繰り返す事でランダムにその位置や速度を変えるが、今気体は定常状態にあるので、各領域にある分子の総数は時間が経過してもほとんど変化しない。

そこで i 番目の領域に含まれている分子の数を n_i とし、容器中の分子の総数を N とし、 $p_{i}=n_{i}/N$ とすると、各分子が領域i に含まれている確率は $p_{i}$ である。

速度空間の各点における分子の存在確率が常に等しいとする(等確率の原理)と、各分子が領域 i にある確率は、領域の体積に比例すると考えられるので、1 番目、...、 $\ell$ 番目の領域に入っている分子の個数がそれぞれ $n_{1},\dotsc ,n_{\ell }$ である確率を考える。 各分子が区別できないと仮定すると、多項分布より、

W={\frac {N!}{n_{1}!\dotsb n_{\ell }!}}{V_{1}}^{n_{1}}\dotsb {V_{\ell }}^{n_{\ell }}

に比例する。

気体が定常状態にある事から、気体の分布は、分子の運動エネルギーの期待値が一定値であるという条件下、 $W$ が最大になる状態にあると考えられる。

前節で説明したように、分子の数→∞の極限において、 $W$ を最大化する事は、相対エントロピー

\sum _{i}p_{i}\log {\frac {p_{i}}{V_{i}}}

を最大化する事に等しい。確率と体積の比 $p_{i}/V_{i}$ は確率の「密度」を表すので、速度空間を分割する領域の数→∞とすると、

\sum _{i}p_{i}\log {\frac {p_{i}}{V_{i}}}=\sum _{i}{\frac {p_{i}}{V_{i}}}(\log {\frac {p_{i}}{V_{i}}})V_{i}\to \int p(v_{x},v_{y},v_{z})\log p(v_{x},v_{y},v_{z})dv_{x}dv_{y}dv_{z}

となる。ここで $p(v_{x},v_{y},v_{z})$ は確率密度関数。従って気体はこの値を最大化するように振る舞う。

さて、分子の運動エネルギーの期待値が一定であるという前述した条件を数式で書き表すと

E(m({v_{x}}^{2}+{v_{y}}^{2}+{v_{z}}^{2})/2)=\,

一定

と書ける。ここで m は分子の質量。

この条件は、 ${v_{x}}^{2},~{v_{y}}^{2},~{v_{z}}^{2}$ に関する期待値なので（確率密度関数 $p(v_{x},v_{y},v_{z})$ も ${v_{x}}^{2},~{v_{y}}^{2},~{v_{z}}^{2}$ に関する関数と見なせるので）、前の節で示した期待値が制約されている場合の最大エントロピー原理の一般解を適用する事で、

p(v_{x},v_{y},v_{z})={\frac {1}{Z}}\exp \left(\lambda {\frac {m({v_{x}}^{2}+{v_{y}}^{2}+{v_{z}}^{2})}{2}}\right)

である事が分かる。

エントロピー増大則

今、1つの容器があるとし、容器の中央には板が入っていて、容器の右半分と左半分が仕切られているとする。この状態で二種類の気体A、B がそれぞれ容器の右半分、左半分に入れられているときに、容器中の分子が従う分布は、最大エントロピー原理により、

(1) A は容器の右半分、 B は左半分に入っている

という条件下でエントロピーを最大化する。

次に板を外すと、容器中の分子の分布が変化する。この状態で分子が従う分布は、再び最大エントロピー原理により、

(2) A 、B が容器に入っている

という条件下でエントロピーを最大化する。

明らかに条件(2)は条件(1)よりも弱い。従って条件(2)の下での最大値は、条件(1)の下での最大値よりも大きい（小さくない）。すなわち、板を外す事でエントロピーは増大する。

参考文献

Jaynes, E. T. (1963). “Information Theory and Statistical Mechanics”. In Ford, K. (ed.). Statistical Physics. New York: Benjamin. p. 181. http://bayes.wustl.edu/etj/node1.html
Jaynes, E. T., 1986 (new version online 1996), 'Monkeys, kangaroos and $N$ ', in Maximum-Entropy and Bayesian Methods in Applied Statistics, J. H. Justice (ed.), Cambridge University Press, Cambridge, p. 26.
Bajkova, A. T., 1992, The generalization of maximum entropy method for reconstruction of complex functions. Astronomical and Astrophysical Transactions, V.1, issue 4, p. 313-320.
Jaynes, E. T., 2003, Probability Theory: The Logic of Science, Cambridge University Press.
Giffin, A. and Caticha, A., 2007, Updating Probabilities with Data and Moments
Guiasu, S. and Shenitzer, A., 1985, 'The principle of maximum entropy', The Mathematical Intelligencer, 7(1), 42-48.
Harremoës P. and Topsøe F., 2001, Maximum Entropy Fundamentals, Entropy, 3(3), 191-226.
Kapur, J. N.; and Kesevan, H. K., 1992, Entropy optimization principles with applications, Boston: Academic Press. ISBN 0-12-397670-7
Kitamura, Y., 2006, Empirical Likelihood Methods in Econometrics: Theory and Practice,Cowles Foundation Discussion Papers 1569, Cowles Foundation, Yale University.
Lazar, N., 2003, "Bayesian Empirical Likelihood", Biometrika, 90, 319-326.
Owen, A. B., Empirical Likelihood, Chapman and Hall.
Schennach, S. M., 2005, "Bayesian Exponentially Tilted Empirical Likelihood", Biometrika, 92(1), 31-46.
Uffink, Jos, 1995, 'Can the Maximum Entropy Principle be explained as a consistency requirement?', Studies in History and Philosophy of Modern Physics 26B, 223-261.
Jaynes, E. T., 1988, 'The Relation of Bayesian and Maximum Entropy Methods', in Maximum-Entropy and Bayesian Methods in Science and Engineering (Vol. 1), Kluwer Academic Publishers, p. 25-26.

外部リンク

Adwait Ratnaparkhi, "A simple introduction to maximum entropy models for natural language processing" Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997.
自然言語処理における最大エントロピー法の簡単な解説。
Maximum Entropy Modeling
最大エントロピーモデルに関する論文やソフトウェア実装に関するリンク集がある。

最大エントロピー原理

概要

具体例

相対エントロピー

期待値に制約がある場合の一般解

一般解

離散の場合の解

他の特殊な場合

最大エントロピー原理の正当化

より一般的な場合の正当化

物理学への応用

マクスウェル分布

エントロピー増大則

参考文献

関連項目

外部リンク