Ба́єсова ліні́йна регре́сія в статистиці — це підхід до лінійної регресії , в якому статистичний аналіз застосовується в контексті баєсового висновування . Якщо помилки регресійної моделі мають нормальний розподіл і якщо розглядається певна форма апріорного розподілу , то для апостеріорного розподілу ймовірності параметрів моделі доступні точні результати.
Розгляньмо стандартну задачу лінійної регресії , в якій для i = 1 , . . . , n {\displaystyle i=1,...,n} ми вказуємо умовну ймовірність y i {\displaystyle y_{i}} для заданого вектора k × 1 {\displaystyle k\times 1} провісників x i {\displaystyle \mathbf {x} _{i}} :
y i = x i T β + ϵ i , {\displaystyle y_{i}=\mathbf {x} _{i}^{\rm {T}}{\boldsymbol {\beta }}+\epsilon _{i},} де β {\displaystyle {\boldsymbol {\beta }}} є вектором завдовжки k × 1 {\displaystyle k\times 1} , а ϵ i {\displaystyle \epsilon _{i}} є незалежними однаково розподіленими випадковими величинами з нормальним розподілом :
ϵ i ∼ N ( 0 , σ 2 ) . {\displaystyle \epsilon _{i}\sim N(0,\sigma ^{2}).} Це відповідає такій функції правдоподібності :
ρ ( y | X , β , σ 2 ) ∝ ( σ 2 ) − n / 2 exp ( − 1 2 σ 2 ( y − X β ) T ( y − X β ) ) . {\displaystyle \rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).} Розв'язком звичайних найменших квадратів [en] є оцінка вектора коефіцієнтів за допомогою псевдообернення Мура-Пенроуза :
β ^ = ( X T X ) − 1 X T y {\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} } де X {\displaystyle \mathbf {X} } є матрицею плану [en] n × k {\displaystyle n\times k} , кожен з рядків якої є вектором провісників x i T {\displaystyle \mathbf {x} _{i}^{\rm {T}}} , а y {\displaystyle \mathbf {y} } є вектором-стовпцем [ y 1 ⋯ y n ] T {\displaystyle [y_{1}\;\cdots \;y_{n}]^{\rm {T}}} .
Це є частотним підходом, що передбачає наявність достатньої кількості вимірювань, щоби сказати щось суттєве про β {\displaystyle {\boldsymbol {\beta }}} . За баєсового ж підходу дані надаються з додатковою інформацією у вигляді апріорного розподілу ймовірності . Ці апріорні переконання про параметри поєднуються з функцією правдоподібності даних згідно з теоремою Баєса для отримання апостеріорного переконання про параметри β {\displaystyle {\boldsymbol {\beta }}} та σ {\displaystyle \sigma } . Це апріорне може мати різний функціональний вигляд в залежності від області визначення та інформації, що доступна апріорі.
Для довільного апріорного розподілу може не існувати аналітичного розв'язку задачі пошуку апостеріорного розподілу . В цьому розділі ми розглянемо так зване спряжене апріорне , для якого апостеріорний розподіл може бути виведено аналітично.
Апріорне ρ ( β , σ 2 ) {\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2})} є спряженим до функції правдоподібності, якщо вона має такий самий функційний вигляд по відношенню до β {\displaystyle {\boldsymbol {\beta }}} та σ {\displaystyle \sigma } . Оскільки логарифмічна правдоподібність є квадратичною в β {\displaystyle {\boldsymbol {\beta }}} , логарифмічна правдоподібність переписується так, що правдоподібність стає нормальною в ( β − β ^ ) {\displaystyle ({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})} . Запишімо
( y − X β ) T ( y − X β ) = ( y − X β ^ ) T ( y − X β ^ ) + ( β − β ^ ) T ( X T X ) ( β − β ^ ) . {\displaystyle {\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\\&+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}}).\end{aligned}}} Логарифмічна правдоподібність тепер переписується як
ρ ( y | X , β , σ 2 ) ∝ ( σ 2 ) − v / 2 exp ( − v s 2 2 σ 2 ) ( σ 2 ) − ( n − v ) / 2 × exp ( − 1 2 σ 2 ( β − β ^ ) T ( X T X ) ( β − β ^ ) ) , {\displaystyle {\begin{aligned}\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})&\propto (\sigma ^{2})^{-v/2}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-(n-v)/2}\\&\times \exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),\end{aligned}}} де
v s 2 = ( y − X β ^ ) T ( y − X β ^ ) , {\displaystyle vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}),} та v = n − k , {\displaystyle v=n-k,} де k {\displaystyle k} є кількістю коефіцієнтів регресії.
Це підказує такий вигляд апріорного:
ρ ( β , σ 2 ) = ρ ( σ 2 ) ρ ( β | σ 2 ) , {\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2}),} де ρ ( σ 2 ) {\displaystyle \rho (\sigma ^{2})} є оберненим гамма-розподілом
ρ ( σ 2 ) ∝ ( σ 2 ) − ( v 0 / 2 + 1 ) exp ( − v 0 s 0 2 2 σ 2 ) . {\displaystyle \rho (\sigma ^{2})\propto (\sigma ^{2})^{-(v_{0}/2+1)}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2{\sigma }^{2}}}\right).} У записі, запропонованому в статті про обернений гамма-розподіл , це є густиною розподілу Inv-Gamma ( a 0 , b 0 ) {\displaystyle {\text{Inv-Gamma}}(a_{0},b_{0})} з a 0 = v 0 / 2 {\displaystyle a_{0}=v_{0}/2} та b 0 = 1 2 v 0 s 0 2 {\displaystyle b_{0}={\frac {1}{2}}v_{0}s_{0}^{2}} з v 0 {\displaystyle v_{0}} та s 0 2 {\displaystyle s_{0}^{2}} як апріорних значень v {\displaystyle v} та s 2 {\displaystyle s^{2}} відповідно. Рівносильно, це також може бути описано як зважений обернений розподіл хі-квадрат [en] , Scale-inv- χ 2 ( v 0 , s 0 2 ) . {\displaystyle {\mbox{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).}
Далі густина умовного апріорного ρ ( β | σ 2 ) {\displaystyle \rho ({\boldsymbol {\beta }}|\sigma ^{2})} є нормальним розподілом ,
ρ ( β | σ 2 ) ∝ ( σ 2 ) − k / 2 exp ( − 1 2 σ 2 ( β − μ 0 ) T Λ 0 ( β − μ 0 ) ) . {\displaystyle \rho ({\boldsymbol {\beta }}|\sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).} У записі нормального розподілу густина умовного апріорного є N ( μ 0 , σ 2 Λ 0 − 1 ) . {\displaystyle {\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}\mathbf {\Lambda } _{0}^{-1}\right).}
Із вже визначеним апріорним, апостеріорний розподіл може бути виражено як
ρ ( β , σ 2 | y , X ) ∝ ρ ( y | X , β , σ 2 ) ρ ( β | σ 2 ) ρ ( σ 2 ) {\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2})\rho (\sigma ^{2})} ∝ ( σ 2 ) − n / 2 exp ( − 1 2 σ 2 ( y − X β ) T ( y − X β ) ) {\displaystyle \propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)} × ( σ 2 ) − k / 2 exp ( − 1 2 σ 2 ( β − μ 0 ) T Λ 0 ( β − μ 0 ) ) {\displaystyle \times (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)} × ( σ 2 ) − ( a 0 + 1 ) exp ( − b 0 σ 2 ) . {\displaystyle \times (\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{{\sigma }^{2}}}\right).} За певного переформулювання[ 1] апостеріорне може бути переписано так, що апостеріорне середнє μ n {\displaystyle {\boldsymbol {\mu }}_{n}} вектора параметрів β {\displaystyle {\boldsymbol {\beta }}} може бути виражено в термінах оцінки найменших квадратів β ^ {\displaystyle {\hat {\boldsymbol {\beta }}}} та апріорного середнього μ 0 {\displaystyle {\boldsymbol {\mu }}_{0}} , де підтримка апріорного вказується матрицею точності апріорного Λ 0 {\displaystyle {\boldsymbol {\Lambda }}_{0}}
μ n = ( X T X + Λ 0 ) − 1 ( X T X β ^ + Λ 0 μ 0 ) . {\displaystyle {\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).} Для підтвердження того, що μ n {\displaystyle {\boldsymbol {\mu }}_{n}} дійсно є апостеріорним середнім, квадратні члени в експоненті може бути переформульовано як квадратичну форму [en] в β − μ n {\displaystyle {\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}} .[ 2]
( y − X β ) T ( y − X β ) + ( β − μ 0 ) T Λ 0 ( β − μ 0 ) = {\displaystyle (\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=} ( β − μ n ) T ( X T X + Λ 0 ) ( β − μ n ) + y T y − μ n T ( X T X + Λ 0 ) μ n + μ 0 T Λ 0 μ 0 . {\displaystyle ({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.} Тепер апостеріорне може бути виражено як добуток нормального розподілу на обернений гамма-розподіл :
ρ ( β , σ 2 | y , X ) ∝ ( σ 2 ) − k / 2 exp ( − 1 2 σ 2 ( β − μ n ) T ( X T X + Λ 0 ) ( β − μ n ) ) {\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)} × ( σ 2 ) − ( n + 2 a 0 ) / 2 − 1 exp ( − 2 b 0 + y T y − μ n T ( X T X + Λ 0 ) μ n + μ 0 T Λ 0 μ 0 2 σ 2 ) . {\displaystyle \times (\sigma ^{2})^{-(n+2a_{0})/2-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2{\sigma }^{2}}}\right).} Отже, апостеріорний розподіл може бути параметризовано таким чином.
ρ ( β , σ 2 | y , X ) ∝ ρ ( β | σ 2 , y , X ) ρ ( σ 2 | y , X ) , {\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}|\sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}|\mathbf {y} ,\mathbf {X} ),} де ці два множники відповідають густинам розподілів N ( μ n , σ 2 Λ n − 1 ) {\displaystyle {\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)} та Inv-Gamma ( a n , b n ) {\displaystyle {\text{Inv-Gamma}}\left(a_{n},b_{n}\right)} , з їхніми параметрами, що задаються як
Λ n = ( X T X + Λ 0 ) , μ n = ( Λ n ) − 1 ( X T X β ^ + Λ 0 μ 0 ) , {\displaystyle {\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),} a n = a 0 + n 2 , b n = b 0 + 1 2 ( y T y + μ 0 T Λ 0 μ 0 − μ n T Λ n μ n ) . {\displaystyle a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).} Це може інтерпретуватися як баєсове навчання, де параметри уточнюються відповідно до наступних рівнянь.
μ n = ( X T X + Λ 0 ) − 1 ( Λ 0 μ 0 + X T X β ^ ) = ( X T X + Λ 0 ) − 1 ( Λ 0 μ 0 + X T y ) , {\displaystyle {\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}})=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {y} ),} Λ n = ( X T X + Λ 0 ) , {\displaystyle {\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}),} a n = a 0 + n 2 , {\displaystyle a_{n}=a_{0}+{\frac {n}{2}},} b n = b 0 + 1 2 ( y T y + μ 0 T Λ 0 μ 0 − μ n T Λ n μ n ) . {\displaystyle b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).} Свідчення моделі p ( y | m ) {\displaystyle p(\mathbf {y} |m)} є ймовірністю даних за заданої моделі m {\displaystyle m} . Воно також відоме як відособлена правдоподібність , а також як передбачувана апріорна густина. Тут модель визначається функцією правдоподібності p ( y | X , β , σ ) {\displaystyle p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )} та апріорним розподілом параметрів, тобто, p ( β , σ ) {\displaystyle p({\boldsymbol {\beta }},\sigma )} . Свідчення моделі фіксує одним числом, наскільки гарно така модель пояснює ці спостереження. Свідчення моделі баєсової лінійної регресії, представлене в цьому розділі, може застосовуватись для порівняння конкурентних лінійних моделей баєсовим порівнянням моделей . Ці моделі можуть відрізнятися як кількістю та значеннями змінних-провісників, так і своїми апріорними параметрами моделі. Складність моделі вже враховано свідченням моделі, оскільки воно відособлює параметри інтегруванням p ( y , β , σ | X ) {\displaystyle p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma |\mathbf {X} )} над усіма можливими значеннями β {\displaystyle {\boldsymbol {\beta }}} та σ {\displaystyle \sigma } .
p ( y | m ) = ∫ p ( y | X , β , σ ) p ( β , σ ) d β d σ {\displaystyle p(\mathbf {y} |m)=\int p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma } Цей інтеграл може бути обчислено аналітично, а розв'язок представлено наступним рівнянням.[ 3]
p ( y | m ) = 1 ( 2 π ) n / 2 det ( Λ 0 ) det ( Λ n ) ⋅ b 0 a 0 b n a n ⋅ Γ ( a n ) Γ ( a 0 ) {\displaystyle p(\mathbf {y} |m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}} Тут Γ {\displaystyle \Gamma } позначає гамма-функцію . Оскільки ми обрали спряжене апріорне, то відособлену правдоподібність також може бути легко обчислено розв'язанням наступного рівняння для довільних значень β {\displaystyle {\boldsymbol {\beta }}} та σ {\displaystyle \sigma } .
p ( y | m ) = p ( β , σ | m ) p ( y | X , β , σ , m ) p ( β , σ | y , X , m ) {\displaystyle p(\mathbf {y} |m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma |\mathbf {y} ,\mathbf {X} ,m)}}} Зауважте, що це рівняння є ні чим іншим, як переформулюванням теореми Баєса . Підставлення формул для апріорного, правдоподібності та апостеріорного, та спрощення отримуваного виразу ведуть до аналітичного виразу, наведеного вище.
Виводити апостеріорний розподіл аналітично в загальному випадку може бути неможливо або непрактично. Проте можливо наближувати апостеріорне методом приблизного баєсового висновування , таким як вибірка Монте-Карло [ 4] або варіаційні баєсові методи [en] .
Особливий випадок μ 0 = 0 , Λ 0 = c I {\displaystyle {\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I} } називається гребеневою регресією .
Схожий аналіз може виконуватись для загального випадку багатовимірної регресії, і його частина забезпечує баєсову оцінку коваріаційних матриць [en] : див. багатовимірну баєсову лінійну регресію [en] .
↑ Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі. ↑ Проміжні кроки є в Fahrmeir et al. (2009) на С. 188. ↑ Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257. ↑ Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії. Box, G. E. P. ; Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis . Wiley. ISBN 0-471-57428-7 . (англ.) Carlin, Bradley P. and Louis, Thomas A. (2008). Bayesian Methods for Data Analysis, Third Edition . Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-697-8 . (англ.) O'Hagan, Anthony (1994). Bayesian Inference . Kendall's Advanced Theory of Statistics. Т. 2B (вид. First). Halsted. ISBN 0-340-52922-9 . (англ.) Gelman, Andrew [en] , Carlin, John B., Stern, Hal S. and Rubin, Donald B. (2003). Bayesian Data Analysis, Second Edition . Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-388-X . (англ.) Walter Gero. Bayesian Linear Regression—Different Conjugate Models and Their (In)Sensitivity to Prior-Data Conflict . — 2009. Архівовано з джерела 5 січня 2015. Процитовано 10 вересня 2015. (англ.) Goldstein, Michael; Wooff, David (2007). Bayes Linear Statistics, Theory & Methods . Wiley. ISBN 978-0-470-01562-9 . (англ.) Fahrmeir, L., Kneib, T., and Lang, S. (2009). Regression. Modelle, Methoden und Anwendungen (вид. Second). Heidelberg: Springer. doi :10.1007/978-3-642-01837-4 . ISBN 978-3-642-01836-7 . (англ.) Rossi, Peter E.; Allenby, Greg M.; McCulloch, Robert (2006). Bayesian Statistics and Marketing . John Wiley & Sons. ISBN 0470863676 . (англ.) Thomas P. Minka (2001) Bayesian Linear Regression [Архівовано 26 жовтня 2008 у Wayback Machine .] , Microsoft research web page (англ.)