Зниження розмірності — Вікіпедія

У статистиці, машинному навчанні та теорії інформації зниження розмірності є процесом скорочення кількості випадкових змінних[1] шляхом отримання множини головних змінних. Цей процес можна поділити на обирання ознак та виділяння ознак.[2]

Обирання ознак

[ред. | ред. код]
Докладніше: Обирання ознак

Обирання ознак — це процес пошуку підмножини первісних змінних (ознак або властивостей) для використання в побудові моделі. Є три стратегії:

  • фільтрування (наприклад, отримання інформації[en])
  • обгортання (наприклад, пошук, який керується точністю)
  • вкладення або вбудування (ознаки обираються для додавання або видалення при створенні моделі ґрунтуючись на помилках прогнозування)

Дивись також задачі комбінаторної оптимізації.

В деяких випадках аналіз даних, такий як класифікація або регресія, можна зробити у скороченому просторі більш точно, ніж у початковому.[3]

Конструювання ознак

[ред. | ред. код]

Конструювання ознак перетворює дані з багатовимірного простору в простір невеликої кількості вимірів. Таке перетворення може бути лінійним, як в методі головних компонент, проте також існує багато методів нелінійного зниження розмірності[en].[4][5] Для багатовимірних даних можна використати тензорне представлення для скорочення розмірності через навчання полілінійного підпростору[en].[6]

Метод головних компонент (МГК)

[ред. | ред. код]

Основна лінійна техніка зменшення розмірності, метод головних компонент, здійснює лінійне відображення даних в менш вимірний простір таким чином, що максимізується дисперсія даних у маловимірному представленні. Фактично, будується матриця коваріації (а іноді й кореляції) даних, і обчислюються власні вектори цієї матриці. Власні вектори, що відповідають найбільшим власним числам (головні компоненти), тепер можуть бути використані для реконструкції великої частки дисперсії у вихідних даних. Більш того, перші кілька власних векторів часто можна тлумачити в термінах великомасштабної фізичної поведінки системи[джерело?][чому?]. Початковий простір зменшується (з втратою даних, проте, зберігається найважливіша дисперсія) до простору, який визначається кількома власними векторами.

Розклад невід'ємних матриць (РНМ)

[ред. | ред. код]

РНМ розкладає невід'ємну матрицю на добуток двох невід'ємних матриць, що було перспективним інструментом в таких областях, де існують лише невід'ємні сигнали,[7][8] такі як астрономія[9][10]. РНМ добре відома завдяки правилу мультиплікативного оновлення Lee & Seung[7], який постійно розроблявся: включення невизначеностей[9], розгляд відсутніх даних та паралельність обчислень[11], послідовність побудови[11], що веде до стабільності та лінійності РНМ[10], як і інші оновлення.

За допомогою стабільної компонентної бази під час побудови та лінійності процесу моделювання, послідовний РНМ[11] здатний зберігати потік при прямому відтворенні навколозоряних структур в астрономії[10], як один із способів виявлення екзопланет, особливо при безпосередньому зображені навколозоряних дисків. У порівнянні з МГК, РНМ не видаляє середнє матриць, що призводить до нефізичних невід'ємних потоків, тому РНМ здатний зберігати більше інформації, ніж МГК, як показав Рен та інші[10].

Ядровий метод головних компонент

[ред. | ред. код]

Метод головних компонент можна використати нелінійним шляхом за допомогою ядрового трюку. Отримана методика здатна побудувати нелінійні відображення, які максимізують дисперсію даних. Отримана методика називається ядровий метод головних компонент[en].

Лінійний розділювальний аналіз

[ред. | ред. код]

Лінійний розділювальний аналіз (ЛРА) — це узагальнення лінійного дискримінанта Фішера, який використовується для статистики, розпізнавання образів та машинного навчання, щоб знайти лінійну комбінацію ознак, які характеризують або відокремлюють два або більше класів об'єктів або подій.

Автокодувальник

[ред. | ред. код]
Докладніше: Автокодувальник

Автокодувальники можуть використовуватися для навчання нелінійним функціям зменшення розмірності та кодування разом із оберненою функцією, яка дозволяє перейти від кодуванного до оригінального зображення.

Зниження розмірності

[ред. | ред. код]

Для багатовимірних наборів даних, тобто таких, у яких більше 10 вимірів, перед застосування методу k-найближчих сусідів спочатку знижують розмірність з метою уникнення прокляття розмірності.[12]

Виділяння ознак та зниження розмірності можна об'єднати в один етап за допомогою методу головних компонент (МГК), лінійного розділювального аналізу (ЛРА), канонічного кореляційного аналізу (ККА) або розкладення невід'ємних матриць (РНМ) — методів попередньої обробки даних перед K-NN кластеризацією векторів ознак у просторі скороченої розмірності. У машинному навчанні цей процес також називається маловимірним вкладенням.[13]

Для дуже-багатовимірних наборів даних, наприклад, для пошуку подібності у потоках відео, ДНК даних або у багатовимірних часових рядах, застосовують швидке наближення K-NN пошуку за допомогою методів Locality-sensitive hashing[en], випадкова проєкція[en][14], тензорний скетч[15] та інші методи багатовимірного пошуку подібності, що доступні, наприклад, у наборі інструментів VLDB[en].

Примітки

[ред. | ред. код]
  1. Roweis, S. T.; Saul, L. K. (2000). Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science. 290 (5500): 2323—2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. PMID 11125150.
  2. Pudil, P.; Novovičová, J. (1998). Novel Methods for Feature Subset Selection with Respect to Problem Knowledge. У Liu, Huan; Motoda, Hiroshi (ред.). Feature Extraction, Construction and Selection. с. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
  3. Rico-Sulayes, Antonio (2017). Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution. Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26—35. Архів оригіналу за 24 квітня 2018. Процитовано 12 серпня 2018.
  4. Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
  5. C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
  6. Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). A Survey of Multilinear Subspace Learning for Tensor Data (PDF). Pattern Recognition. 44 (7): 1540—1551. doi:10.1016/j.patcog.2011.01.004. Архів оригіналу (PDF) за 10 липня 2019. Процитовано 12 серпня 2018.
  7. а б Daniel D. Lee; H. Sebastian Seung (1999). Learning the parts of objects by non-negative matrix factorization. Nature. 401 (6755): 788—791. Bibcode:1999Natur.401..788L. doi:10.1038/44565. PMID 10548103. {{cite journal}}: Проігноровано невідомий параметр |last-author-amp= (довідка)
  8. Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. с. 556—562. Архів оригіналу (PDF) за 19 червня 2018. Процитовано 13 серпня 2018.
  9. а б Blanton, Michael R.; Roweis, Sam (2007). K-corrections and filter transformations in the ultraviolet, optical, and near infrared. The Astronomical Journal. 133: 134. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127.
  10. а б в г Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). Non-negative Matrix Factorization: Robust Extraction of Extended Structures. The Astrophysical Journal. 852: 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  11. а б в Zhu, Guangtun B. (19 грудня 2016). Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data. arXiv:1612.06037 [astro-ph.IM].
  12. Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) «When is „nearest neighbor“ meaningful?» [Архівовано 26 липня 2009 у Wayback Machine.]. Database Theory—ICDT99, 217—235
  13. Shaw, B.; Jebara, T. (2009). Structure preserving embedding. Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09 (PDF). с. 1. doi:10.1145/1553374.1553494. ISBN 9781605585161. Архів оригіналу (PDF) за 11 серпня 2017. Процитовано 14 серпня 2018.
  14. Bingham, E.; Mannila, H. (2001). Random projection in dimensionality reduction. Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. с. 245. doi:10.1145/502512.502546. ISBN 158113391X.
  15. Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer. ISBN 0-387-00857-8

Посилання

[ред. | ред. код]

Джерела

[ред. | ред. код]