Глибока мережа переконань — Вікіпедія

У машинному навчанні глибо́ка мере́жа перекона́нь^[1] (ГМП, англ. deep belief network, DBN, також іноді глиби́нна мере́жа перекона́нь) — це породжувальна графова модель або, інакше, клас глибоких нейронних мереж, що складено з кількох шарів латентних змінних («прихованих вузлів»), зі з'єднаннями між шарами, але не між вузлами всередині кожного шару.^[2]

При тренуванні на наборі прикладів без керування ГМП може навчатися ймовірнісно відбудовувати свої входи. Шари тоді діють як виявлячі ознак.^[2] Після цього етапу навчання ГМП можливо тренувати далі з керуванням для виконання класифікування.^[3]

ГМП можливо розглядати як композицію простих некерованих мереж, таких як обмежені машини Больцмана (ОМБ)^[2] або автокодувальники,^[4] в якій прихований шар кожної підмережі слугує видимим шаром для наступної. ОМБ — це неорієнтована породжувальна модель на основі енергії з «видимим» шаром входу та прихованим шаром і зв'язками між шарами, але не всередині них. Така композиція веде до швидкої пошарової процедури некерованого тренування, де контрастове розходження застосовують по черзі до кожної підмережі, починаючи з «найнижчої» пари шарів (найнижчий видимий шар — це тренувальний набір).

Спостереження^[3] щодо того, що ГМП можливо тренувати жадібно, по одному шару за раз, привело до створення одного з перших дієвих алгоритмів глибокого навчання.^[5]^:6 Загалом існує багато привабливих втілень та використань ГМП у реальних застосуваннях та сценаріях (наприклад, електроенцефалографії,^[6] пошуку нових ліків^[en]^[7]^[8]^[9]).

Тренування

Метод тренування ОМБ, запропонований Джефрі Гінтоном для використання в тренуванні моделей «добуток експертів^[en]», називають контрастовим розходженням (КР, англ. contrastive divergence, CD).^[10] КР забезпечує наближення методу максимальної правдоподібності, застосовувати який для навчання ваг було би ідеально.^[11]^[12] Під час тренування однієї ОМБ уточнювання ваг виконують градієнтним спуском за таким рівнянням: $w_{ij}(t+1)=w_{ij}(t)+\eta {\frac {\partial \log(p(v))}{\partial w_{ij}}}$

де $p(v)$ — ймовірність видимого вектора, задана як $p(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}$ . $Z$ це статистична сума^[en] (яку використовують для нормування), а $E(v,h)$ — функція енергії, приписаної станові мережі. Нижча енергія вказує на те, що мережа має «бажанішу» конфігурацію. Градієнт ${\frac {\partial \log(p(v))}{\partial w_{ij}}}$ має простий вигляд $\langle v_{i}h_{j}\rangle _{\text{data}}-\langle v_{i}h_{j}\rangle _{\text{model}}$ , де $\langle \cdots \rangle _{p}$ подають усереднення відносно розподілу $p$ . Проблема виникає у вибиранні $\langle v_{i}h_{j}\rangle _{\text{model}}$ , оскільки воно вимагає розширеного навперемінного ґіббзового вибирання^[en]. КР замінює цей крок виконанням альтернативного ґіббзового вибирання для $n$ кроків (значення $n=1$ працюють добре). Після $n$ кроків дані вибирають, і цю вибірку використовують замість $\langle v_{i}h_{j}\rangle _{\text{model}}$ . Процедура КР працює наступним чином:^[11]

Встановити видимі вузли у значення тренувального вектора.
Уточнити приховані вузли паралельним чином, враховуючи видимі вузли: $p(h_{j}=1\mid {\textbf {V}})=\sigma (b_{j}+\sum _{i}v_{i}w_{ij})$ . $\sigma$ — сигмоїдна функція, а $b_{j}$ — зміщення $h_{j}$ .
Уточнити видимі вузли паралельним чином, враховуючи приховані вузли: $p(v_{i}=1\mid {\textbf {H}})=\sigma (a_{i}+\sum _{j}h_{j}w_{ij})$ . $a_{i}$ — зміщення $v_{i}$ . Це називають етапом «відбудовування».
Переуточнити приховані вузли паралельним чином, враховуючи відбудовані видимі вузли, використовуючи те саме рівняння, що й у кроці 2.
Виконати уточнення ваг: $\Delta w_{ij}\propto \langle v_{i}h_{j}\rangle _{\text{data}}-\langle v_{i}h_{j}\rangle _{\text{reconstruction}}$ .

Щойно ОМБ натреновано, поверх неї «накладають» іншу ОМБ, беручи її вхід з останнього натренованого рівня. Новий видимий шар встановлюють у значення тренувального вектора, а значення для вузлів у вже навчених шарах встановлюють з використанням поточних ваг і зміщень. Потім нову ОМБ тренують за описаною вище процедурою. Весь цей процес повторюють, доки не буде досягнуто бажаного критерію зупинки.^[13]

Хоч наближення КР до максимальної правдоподібності й грубе (не слідує градієнтові жодної функції), воно емпірично ефективне.^[11]

Див. також

Примітки

↑ Іванченко, А. С (2022). Класифікація гістологічних знімків пухлин молочної залози на основі локальної порогової бінаризації та машинного навчання (PDF) (магістерська дисертація) (укр.). Київ: НТУУ «КПІ». Процитовано 30 липня 2023.
↑ ^а ^б ^в Hinton G (2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
↑ ^а ^б Hinton GE, Osindero S, Teh YW (July 2006). A fast learning algorithm for deep belief nets (PDF). Neural Computation (англ.). 18 (7): 1527—54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
↑ Bengio Y, Lamblin P, Popovici D, Larochelle H (2007). Greedy Layer-Wise Training of Deep Networks (PDF). NIPS^[en] (англ.).
↑ Bengio, Y. (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2: 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006.
↑ Movahedi F, Coyle JL, Sejdic E (May 2018). Deep Belief Networks for Electroencephalography: A Review of Recent Contributions and Future Outlooks. IEEE Journal of Biomedical and Health Informatics (амер.). 22 (3): 642—652. doi:10.1109/jbhi.2017.2727218. PMC 5967386. PMID 28715343.
↑ Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). Neural network and deep-learning algorithms used in QSAR studies: merits and drawbacks. Drug Discovery Today (англ.). 23 (10): 1784—1790. doi:10.1016/j.drudis.2018.06.016. PMID 29936244. S2CID 49418479.
↑ Ghasemi, Pérez-Sánchez; Mehri, fassihi (2016). The Role of Different Sampling Methods in Improving Biological Activity Prediction Using Deep Belief Network. Journal of Computational Chemistry (англ.). 38 (10): 1—8. doi:10.1002/jcc.24671. PMID 27862046. S2CID 12077015.
↑ Gawehn E, Hiss JA, Schneider G (January 2016). Deep Learning in Drug Discovery. Molecular Informatics (англ.). 35 (1): 3—14. doi:10.1002/minf.201501008. PMID 27491648. S2CID 10574953.
↑ Hinton GE (2002). Training Product of Experts by Minimizing Contrastive Divergence (PDF). Neural Computation (англ.). 14 (8): 1771—1800. CiteSeerX 10.1.1.35.8613. doi:10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
↑ ^а ^б ^в Hinton GE (2010). A Practical Guide to Training Restricted Boltzmann Machines. Tech. Rep. UTML TR 2010-003 (англ.).
↑ Fischer A, Igel C (2014). Training Restricted Boltzmann Machines: An Introduction (PDF). Pattern Recognition (англ.). 47 (1): 25—39. Bibcode:2014PatRe..47...25F. CiteSeerX 10.1.1.716.8647. doi:10.1016/j.patcog.2013.05.025. Архів оригіналу (PDF) за 10 червня 2015. Процитовано 2 липня 2017.
↑ Bengio Y (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2 (1): 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 2 липня 2017.

Посилання

Deep Belief Networks. Deep Learning Tutorials (англ.).
Deep Belief Network Example. Deeplearning4j Tutorials (англ.). Архів оригіналу за 3 жовтня 2016. Процитовано 22 лютого 2015.

[1] Іванченко, А. С (2022). Класифікація гістологічних знімків пухлин молочної залози на основі локальної порогової бінаризації та машинного навчання (PDF) (магістерська дисертація) (укр.). Київ: НТУУ «КПІ». Процитовано 30 липня 2023.

[scholar-2] а ^б ^в Hinton G (2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.

[hinton06-3] а ^б Hinton GE, Osindero S, Teh YW (July 2006). A fast learning algorithm for deep belief nets (PDF). Neural Computation (англ.). 18 (7): 1527—54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.

[4] Bengio Y, Lamblin P, Popovici D, Larochelle H (2007). Greedy Layer-Wise Training of Deep Networks (PDF). NIPS^[en] (англ.).

[5] Bengio, Y. (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2: 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006.

[6] Movahedi F, Coyle JL, Sejdic E (May 2018). Deep Belief Networks for Electroencephalography: A Review of Recent Contributions and Future Outlooks. IEEE Journal of Biomedical and Health Informatics (амер.). 22 (3): 642—652. doi:10.1109/jbhi.2017.2727218. PMC 5967386. PMID 28715343.

[7] Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). Neural network and deep-learning algorithms used in QSAR studies: merits and drawbacks. Drug Discovery Today (англ.). 23 (10): 1784—1790. doi:10.1016/j.drudis.2018.06.016. PMID 29936244. S2CID 49418479.

[8] Ghasemi, Pérez-Sánchez; Mehri, fassihi (2016). The Role of Different Sampling Methods in Improving Biological Activity Prediction Using Deep Belief Network. Journal of Computational Chemistry (англ.). 38 (10): 1—8. doi:10.1002/jcc.24671. PMID 27862046. S2CID 12077015.

[9] Gawehn E, Hiss JA, Schneider G (January 2016). Deep Learning in Drug Discovery. Molecular Informatics (англ.). 35 (1): 3—14. doi:10.1002/minf.201501008. PMID 27491648. S2CID 10574953.

[POE-10] Hinton GE (2002). Training Product of Experts by Minimizing Contrastive Divergence (PDF). Neural Computation (англ.). 14 (8): 1771—1800. CiteSeerX 10.1.1.35.8613. doi:10.1162/089976602760128018. PMID 12180402. S2CID 207596505.

[RBMTRAIN2-11] а ^б ^в Hinton GE (2010). A Practical Guide to Training Restricted Boltzmann Machines. Tech. Rep. UTML TR 2010-003 (англ.).

[RBMTutorial-12] Fischer A, Igel C (2014). Training Restricted Boltzmann Machines: An Introduction (PDF). Pattern Recognition (англ.). 47 (1): 25—39. Bibcode:2014PatRe..47...25F. CiteSeerX 10.1.1.716.8647. doi:10.1016/j.patcog.2013.05.025. Архів оригіналу (PDF) за 10 червня 2015. Процитовано 2 липня 2017.

[BENGIODEEP-13] Bengio Y (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2 (1): 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 2 липня 2017.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]