自己相互情報量

自己相互情報量(じこそうごじょうほうりょう、英語: pointwise mutual information、略称: PMI)は、統計学確率論情報理論における関連性の尺度である[1]。全ての可能な事象の平均を取る相互情報量(mutual information、MI)とは対照的に、単一の事象を指す。

定義

[編集]

離散確率変数 に属する結果 の組の自己相互情報量は、独立性の仮定の下で、それらの同時分布と個々の分布が与えられたときの同時確率の不一致を定量化したものである。数学的には下記の式として表される。

多確率変数の結果の組 の自己相互情報量は、次に与えられる。

確率変数 相互情報量は、自己相互情報量の期待値である。

対称性がある。

正負の値を取りうるが、独立している場合はゼロである。 PMI が負であっても正であっても、すべての共同イベントに対する期待値である相互情報量は正である。 が完全に関連している場合、すなわち、 または のとき、次のような境界が得られる。

なお、 が一定で が減少するなら、 は増加する。

次の例を考える。

0 0 0.1
0 1 0.7
1 0 0.15
1 1 0.05

この表を周辺化して、個々の分布について次のような表が得られる。

0 0.8 0.25
1 0.2 0.75

2を底とする対数用いると、 を次のように計算できる。

なおこのとき、相互情報量 と計算できる。

相互情報量との類似点

[編集]

自己相互情報量は、相互情報量と同様の性質がある。

ここで、自己情報量 である。

正規化自己相互情報量(Normalized PMI)

[編集]

自己相互情報量は、区間 で正規化できる。決して共起しない場合は−1、独立の場合は0、完全に共起する場合は+1が得られる[2]

ここで、は共同自己情報であり、次のように推定できる。

PMIの亜種

[編集]

上記のNormalized PMI以外にも多くの亜種がある[3]

PMIの連鎖律

[編集]

相互情報量と同様、自己相互情報量は連鎖律に従う[4]

これは次のように証明できる。

応用

[編集]

自己相互情報量は、情報理論、言語学、化学(化合物のプロファイリングと分析など)など、さまざまな分野で利用できる[5]計算言語学では、自己相互情報量は単語間のコロケーションや関連正を見つけるために使用されてきた。たとえば、テキストコーパス内の単語の出現と共起をカウントして、その確率 および を近似的に求めることができる。次の表は、ウィキペディアの上位5000万語(2015年10月時点)のうち、共起回数が1000回以上でフィルタリングした上で、PMIスコアが最も高い単語と最も低い単語のカウントを示したものである。各カウントの頻度は、その値を50,000,952で割ることで得られる(注:基底 2 ではなく、自然対数を使用して自己相互情報量を計算した)。

単語1 単語2 単語1の数 単語2の数 共起の数 PMI
puerto rico 1938 1311 1159 10.0349081703
hong kong 2438 2694 2205 9.72831972408
los angeles 3501 2808 2791 9.56067615065
carbon dioxide 4265 1353 1032 9.09852946116
prize laureate 5131 1676年 1210 8.85870710982
san francisco 5237 2477 1779 8.83305176711
nobel prize 4098 5131 2498 8.68948811416
ice hockey 5607 3002 1933 8.6555759741
star trek 8264 1594 1489 8.63974676575
car driver 5578 2749 1384 8.41470768304
it the 283891 3293296 3347 -1.72037278119
are of 234458 1761436 1019 -2.09254205335
this the 199882 3293296 1211 -2.38612756961
is of 565679 1761436 1562 -2.54614706831
and of 1375396 1761436 2949 -2.79911817902
a and 984442 1375396 1457 -2.92239510038
in and 1187652 1375396 1537 -3.05660070757
to and 1025659 1375396 1286 -3.08825363041
to in 1025659 1187652 1066 -3.12911348956
of and 1761436 1375396 1190 -3.70663100173

良好なコロケーションのペアは、共起確率が各単語の出現確率よりもわずかに低い程度であり、PMIは高い。逆に、出現確率が共起確率よりもかなり高い単語のペアは、PMIが低い。

脚注

[編集]
  1. ^ Kenneth Ward Church and Patrick Hanks (March 1990). “Word association norms, mutual information, and lexicography”. Comput. Linguist. 16 (1): 22–29. http://aclweb.org/anthology/J90-1003. 
  2. ^ Bouma (2009年). “Normalized (Pointwise) Mutual Information in Collocation Extraction”. Proceedings of the Biennial GSCL Conference. 2022年5月2日閲覧。
  3. ^ Francois Role, Moahmed Nadif. Handling the Impact of Low frequency Events on Co-occurrence-based Measures of Word Similarity:A Case Study of Pointwise Mutual Information. Proceedings of KDIR 2011 : KDIR- International Conference on Knowledge Discovery and Information Retrieval, Paris, October 26-29 2011
  4. ^ Paul L. Williams. INFORMATION DYNAMICS: ITS THEORY AND APPLICATION TO EMBODIED COGNITIVE SYSTEMS. https://www.researchgate.net/publication/266725181 
  5. ^ Čmelo, I.; Voršilák, M.; Svozil, D. (2021-01-10). “Profiling and analysis of chemical compounds using pointwise mutual information”. Journal of Cheminformatics 13 (1): 3. doi:10.1186/s13321-020-00483-y. ISSN 1758-2946. https://doi.org/10.1186/s13321-020-00483-y. 

参考文献

[編集]

外部リンク

[編集]