Q-Qプロット
Q-Qプロット(英: Q–Q plot, quantile–quantile plot)は、統計学における確率プロットの一つで、2つの確率分布の分位数(quantiles)を互いにプロットして比較するグラフィカルな手法である[1]。プロット上の点 (x, y) は、第1の分布の同じ分位数(x座標)に対して、第2の分布の分位数(y座標)の1つを対応させてプロット(打点)する。したがって、これは分位区間のインデックスをパラメータとするパラメトリック曲線を定義する。
比較している2つの分布が類似している場合、Q-Qプロットの点は、ほぼ恒等線 y = x 上に位置する。分布が線形関係にある場合、Q-Qプロットの点は、ほぼ直線上に位置するが、必ずしも直線 y = x 上に位置するとは限らない。Q-Qプロットは、位置-尺度分布族のパラメータを推定するためのグラフィカルな手法としても使用できる。
Q-Qプロットは、分布の形状を比較するために使用され、位置、尺度、歪度などの特性が2つの分布でどのように類似しているか、または異なっているかをグラフィカルに表わす。Q-Qプロットは、データの集合や理論的分布を比較するために使用することができる。Q-Qプロットの使用して2組のデータ標本を比較することは、それらの潜在的な分布を比較するノンパラメトリック手法と見なすことができる。Q-Qプロットは、2つの標本のヒストグラムを比較する一般的な手法よりも診断に役立つが、(解釈にはより多くの技量を要し)あまり広くは知られていない。Q-Qプロットは、データ集合を理論モデルを比較するためによく使用される[2][3]。これにより、適合度の評価を、数値的な要約統計量に還元するのではなく、グラフィカルに行うことができる。また、Q-Qプロットは、2つの理論的分布を相互に比較するためにも使用される[4]。Q-Qプロットは分布を比較するので、散布図のように値を対として観察する必要はなく、比較される2つのグループの値の数を等しくする必要もない。
「確率プロット」(英: probability plot)という用語は、特にQ-Qプロットを指すこともあれば、場合によってはより一般的なプロットの種類や、またあまり一般的でないP-Pプロットを指すこともある。確率プロット相関係数プロット(英: probability plot correlation coefficient plot, PPCC plot)は、Q-Qプロットの概念から派生した量であり、観察データと適合した分布との適合度を評価し、分布をデータに適合させる手段として使用されることもある。
定義と構成
[編集]Q-Qプロットは、2つの分布の分位数を相互にプロットしたもの、または分位数の推定に基づくプロットである。プロット中の点のパターンは、2つの分布を比較するために使用される。
Q-Qプロットを作成する主な手順は、プロットする分位数を計算または推定することである。Q-Qプロットの軸の一方または両方が、連続累積分布関数(CDF)を伴う理論的分布に基づく場合、すべての分位点は一意に定義され、CDFを反転する (逆関数を求める)ことで得られる。比較される2つの分布のうちの1つが、不連続なCDFを伴う理論的確率分布である場合、分位数が定義されない場合もあるため、補間された分位数をプロットするなどで対応する。Q-Qプロットがデータに基づいている場合、複数の分位点推定量が使用される。分位数を推定または補間しなければならない場合、Q-Qプロットの作成規則はプロット位置(英: plot positions)と呼ばれる。
もっとも単純なケースは、まったく同じ大きさの2つのデータ集合の比較である。この場合、Q-Qプロットを作成するために、それぞれの集合のデータを昇順に並べ、対応する値を対にしてプロットする。異なる大きさの2つのデータ集合を比較する場合はより複雑となる。この場合のQ-Qプロットを作成するには、同じ潜在的な確率に対応する分位数を作成できるよう、補間された分位数推定値を使用する必要がある。
より抽象的に言えば[4]、関連する分位関数 F−1 と G−1 (CDFの逆関数が分位関数である)を有する2つの累積確率分布関数 F と G が与えられると、Q-Qプロットは、q の値の範囲について、F の q 番目の分位数に対する G の q 番目の分位数をプロットする。したがって、Q-Qプロットは、[0, 1] 上に実平面 R2 の値でインデックス付けされたパラメトリック曲線である。
解釈
[編集]Q-Qプロットにプロットされた点は、左から右に見たとき常に非減少(単調増加)となる。比較される2つの分布が同一である場合、Q-Qプロットは45°の直線 y = x に従う。一方の分布の値の線形変換後に2つの分布が一致する場合、Q-Qプロットは何らかの直線をたどるが、必ずしも直線 y = x とは限らない。Q-Qプロットの傾きが直線 y = x よりも緩やかであれば、横軸にプロットされた分布は、縦軸にプロットされた分布よりも分散が大きい。逆に、Q-Qプロットの傾きが直線 y = x よりも急であれば、縦軸にプロットされた分布は、横軸にプロットされた分布よりも分散が大きいことになる。Q-Qプロットはしばしば湾曲あるいはS字形状であり、それぞれ、一方の分布が他方よりも歪んでいる、あるいは裾の重い分布であることを示す。
Q-Qプロットは分位数に基づく手法であるが、標準的なQ-Qプロットでは、Q-Qプロットのどの点が特定の分位数であるかを決定することはできない。たとえば、Q-Qプロットを調べて、比較されている2つの分布の一方の中央値を決定することはできない。いくつかのQ-Qプロットでは、このような決定を可能にするために十分位数を示している。
分位数間の線形回帰の切片と傾きは、標本の相対位置と相対スケールの尺度を与える。横軸にプロットされた分布の中央値が 0 である場合、回帰直線の切片は位置の尺度に対応し、傾きはスケールの尺度に対応する。中央値間の距離は、Q-Qプロットに反映される相対的位置のもう1つの尺度である。確率プロット相関係数(英: probability plot correlation coefficient, PPCC plot)は、対をなす標本の分位数間の相関係数である。相関係数が1に近づくほど、分布はシフトし、互いに線形変換された分布に近づく。単一の形状パラメータを有する分布の場合、確率プロット相関係数プロットは、形状パラメータを推定する方法となる。形状パラメータのさまざまな値に対する相関係数を単純に計算し、異なる種類の分布を比較する場合と同様に、最も適合するものを使用する。Q-Qプロットのもう1つの一般的な用途は、正規確率プロットのように、標本の分布を標準正規分布 N(0,1) のような理論的分布と比較することである。2組の標本データを比較する場合と同様、データを順序付けし(形式的には順序統計量を計算する)、それらを理論的分布の特定の分位数に対してプロットする[3]。
プロット位置
[編集]理論的分布からの分位数の選択は、状況や目的に依存しうる。大きさ n の標本が与えられたとき、サンプリング分布が実現する分位数であるため、k = 1, …, n に対して k / n を用いる。最後の n / n は、100パーセンタイル(理論的分布の最大値)に対応し、これは無限大になりうる。他にも、(k − 0.5) / n を使用したり、あるいは k / (n + 1) を用いて、すべての点の間、および最も外側の2点と [0, 1] 区間の端の間の距離が等しくなるように n 点を配置する手法がある[6]。
この他にも、理論的もしくは経験的文脈を伴うシミュレーションに基づく形式的あるいは発見的なものなど、多くの手法が提案されている。以下でこれらについて説明する。より詳しい問題に、ドイツ戦車問題として知られる最大値の選択(母集団の最大値の推定)があり、これには「標本の最大値にギャップを加えた」のような解が存在し、最も単純には m + m/n − 1 となる。この間隔一様化へのより形式的な応用はパラメータの最大間隔推定である。
一様分布の順序統計量の期待値
[編集]k / (n + 1) を用いる手法は、(n + 1) 個の無作為に抽出した値の最後の値が、最初の n 個の無作為に抽出した値の k 番目に小さな値を超えない確率に従って点をプロットすることと等価である[7][8]。
標準正規分布の順序統計量の期待値
[編集]正規確率プロットを使用する場合、使用される分位数は、標準正規分布の順序統計量の期待値であるランキット(rankits)である。
より一般的には、シャピロ–ウィルク検定では、与えられた分布の順序統計量の期待値を用いる。得られたプロットと回帰直線は、(近似直線の切片と傾きから)位置とスケールに関する一般化最小二乗推定値を与える[9]。これは正規分布ではあまり重要ではないが(位置とスケールはそれぞれ平均と標準偏差によって推定されるため)、他の多くの分布では有用となる。
しかし、これには順序統計量の期待値を計算する必要があり、分布が正規分布でない場合には困難な場合がある。
順序統計量の中央値
[編集]その代わりに、順序統計量の中央値の推定値を使うこともでき、これは一様分布の順序統計量の中央値の推定値と、その分布の分位関数に基づいて計算される。この手法は、Filliben (1975)によって提案された[9]。これは、分位関数を計算することができる任意の分布に対して簡単に生成できるが、逆に、得られる位置およびスケールの推定値は、n が小さい場合にのみ有意に異なるものの、正確には最小二乗推定値ではない。
ヒューリスティクス
[編集]さまざまな異なる式が、アフィン対称プロット位置(英: plotting positions)として使用または提案されている。このような式は、0から1までの範囲にある a の値に対して、(k − a) / (n + 1 − 2a) の形式をしており、k / (n + 1) と (k − 1) / (n − 1) の間の範囲を与える。
次のような式がある。
- k / (n + 1)
- (k − 0.3) / (n + 0.4).[10]
- (k − 0.3175) / (n + 0.365).[11][注 1]
- (k − 0.326) / (n + 0.348).[13]
- (k − ⅓) / (n + ⅓).[注 2]
- (k − 0.375) / (n + 0.25).[注 3]
- (k − 0.4) / (n + 0.2).[14]
- (k − 0.44) / (n + 0.12).[注 4]
- (k − 0.5) / n.[16]
- (k − 0.567) / (n − 0.134).[17]
- (k − 1) / (n − 1).[注 5]
サンプルサイズ n が大きい場合、これらのさまざまな式の間にほとんど違いはない。
Fillibenの推定法
[編集]順序統計量中央値(英: order statistic medians)は、その分布の順序統計の中央値である。これらは、連続一様分布の分位関数および順序統計量の中央値を使用して、次式で表現できる。
ここで、U(i) は一様順序統計量の中央値、G は目的の分布についての分位関数である。分位関数は、累積分布関数(X がある値以下である確率)の逆関数である。すなわち、ある確率を仮定すると、それに対応する累積分布関数の分位数が必要となる。
James J. Fillibenは、一様順序統計量の中央値を推定するために、次の式を用いた[18]。
この推定値が非直感的な形をしている理由は、順序統計中央値は単純な形状をしていないためである。
ソフトウェア
[編集]Rプログラミング言語には、Q-Qプロットを作成する関数、すなわちstats
パッケージのqqnormとqqplotが用意されている。fastqq
パッケージは、多数のデータ点に対する高速プロットを実装している。
関連項目
[編集]- 経験分布関数(empirical distribution function)- 標本の経験的尺度に関連する分布関数(eCDFとも呼ばれる)
- プロビット(probit)- Chester Ittner Blissが1934年に提案した解析手法
脚注
[編集]注釈
[編集]- ^ これも最初と最後の点に異なる表現を使っていることに注意。Richard M. Vogelは、Filliben (1975)のオリジナルを引用している[12]。この式は U(k) の中央値の推定である。
- ^ プロット位置を決定するための簡単な(そして覚えやすい)公式。BMDP統計パッケージで使われている。
- ^ これは、Blom (1958) の初期の近似で、MINITAB で使われている式である。
- ^ このプロット位置は、Irving I. Gringortenがガンベル分布の検定で点をプロットするために使用した[15]。
- ^ Filliben (1975) によって使用され、これらのプロット点は U(k) のモードと等しくなる。
引用
[編集]- ^ Wilk, M.B.; Gnanadesikan, R. (1968), “Probability plotting methods for the analysis of data”, Biometrika (Biometrika Trust) 55 (1): 1–17, doi:10.1093/biomet/55.1.1, JSTOR 2334448, PMID 5661047 .
- ^ Gnanadesikan (1977), p. 199.
- ^ a b Thode (2002), Section 2.2.2, Quantile-Quantile Plots, p. 21
- ^ a b Gibbons & Chakraborti (2003), p. 144
- ^ “SR 20 – North Cascades Highway – Opening and Closing History”. North Cascades Passes. Washington State Department of Transportation (October 2009). 2009年2月8日閲覧。
- ^ Weibull, Waloddi (1939), “The Statistical Theory of the Strength of Materials”, IVA Handlingar, Royal Swedish Academy of Engineering Sciences (151)
- ^ Madsen, H.O. (1986), Methods of Structural Safety
- ^ Makkonen, L. (2008), “Bringing closure to the plotting position controversy”, Communications in Statistics – Theory and Methods 37 (3): 460–467, doi:10.1080/03610920701653094
- ^ a b Testing for Normality, by Henry C. Thode, CRC Press, 2002, ISBN 978-0-8247-9613-6, p. 31
- ^ Benard, A.; Bos-Levenbach, E. C. (September 1953). “The plotting of observations on probability paper” (オランダ語). Statistica Neederlandica 7: 163–173. doi:10.1111/j.1467-9574.1953.tb00821.x .
- ^ “1.3.3.21. Normal Probability Plot”. itl.nist.gov. 2022年2月16日閲覧。
- ^ Richard M. Vogel (1986年). “The Probability Plot Correlation Coefficient Test for the Normal, Lognormal, and Gumbel Distributional Hypotheses”. doi:10.1029/WR022i004p00587. 2013年1月16日時点のオリジナルよりアーカイブ。2013年1月16日閲覧。
- ^ Distribution free plotting position, Yu & Huang
- ^ Cunnane (1978).
- ^ Gringorten, Irving I. (1963). “A plotting rule for extreme probability paper” (英語). Journal of Geophysical Research 68 (3): 813–814. Bibcode: 1963JGR....68..813G. doi:10.1029/JZ068i003p00813. ISSN 2156-2202 .
- ^ Hazen, Allen (1914), “Storage to be provided in the impounding reservoirs for municipal water supply”, Transactions of the American Society of Civil Engineers (77): 1547–1550
- ^ Larsen, Curran & Hunt (1980).
- ^ Filliben (1975).
資料
[編集]- この記事にはパブリックドメインである、アメリカ合衆国連邦政府が作成した次の文書本文を含む。アメリカ国立標準技術研究所.
- Blom, G. (1958), Statistical estimates and transformed beta variables, New York: John Wiley and Sons
- Chambers, John; Cleveland, William; Kleiner, Beat; Tukey, Paul (1983), Graphical methods for data analysis, Wadsworth
- Cleveland, W.S. (1994) The Elements of Graphing Data, Hobart Press ISBN 0-9634884-1-4
- Filliben, J. J. (February 1975), “The Probability Plot Correlation Coefficient Test for Normality”, Technometrics (American Society for Quality) 17 (1): 111–117, doi:10.2307/1268008, JSTOR 1268008 .
- Gibbons, Jean Dickinson; Chakraborti, Subhabrata (2003), Nonparametric statistical inference (4th ed.), CRC Press, ISBN 978-0-8247-4052-8
- Gnanadesikan, R. (1977). Methods for Statistical Analysis of Multivariate Observations. Wiley. ISBN 0-471-30845-5
- Thode, Henry C. (2002), Testing for normality, New York: Marcel Dekker, ISBN 0-8247-9613-6
外部リンク
[編集]- Probability plot
- Alternate description of the QQ-Plot: http://www.stats.gla.ac.uk/steps/glossary/probability_distributions.html#qqplot