Бутстрепова агрегація — Вікіпедія

Бутстрепова агрегація або беггінг[1] (англ. Bootstrap aggregating, bagging) — це машинний навчальний груповий мета-алгоритм, створений для покращення стабільності і точності машинних навчальних алгоритмів, які використовують статистичні класифікації і регресії. Він також зменшує неточність, хоча зазвичай застосовується до методів «дерева рішень», але може використовуватися з будь-яким типом методів.

Метод схожий на ансамбль методів однак, замість використання декількох моделей на одних і тих самих даних, кожна модель застосовується до різних вибірок отриманих методом бутстреп. [2]

Опис методу

[ред. | ред. код]

Наприклад, дано стандартний навчальний набір D розміром n. Даний мета-алгоритм сукупності створює нові навчальні зразки , відбираючи однорідно або із заміною зразки з набору D , кожен з яких розміром nʹ. Деякі спостереження можуть повторюватися в кожному . Якщо n=n, тоді для великого n набір очікувано матиме дріб (1 — 1/e) (≈63.2 %) єдиних прикладів D, а всі інші будуть дублюватися. Такий вид відбору відомий як бутстреп відбір.

Сумування приводить до «покращення нестійких процедур» (Брейман, 1996), які включають, наприклад, штучні нервові системи, класифікаційні і регресивні дерева та відбір підгрупи в лінійній регресії (Брейман, 1996). Цікаве застосування алгоритму показано тут.[3][4] Алгоритм трішки понижує значення стійких методів таких як К-найближчі сусіди (Брейман, 1996).

Приклад: Озон

[ред. | ред. код]

Щоб проілюструвати основні принципи бутстрепу, нижче показано аналіз відношення між озоном і температурою (дані з Rousseeuw and Leroy (1986), доступно в класичних наборах даних, аналіз робиться в R (мова програмування).

Взаємозв'язок між озоном і температурою в цьому прикладі є очевидно нелінійним, що видно на розсіяному графіку. Щоб описати математично це відношення застосовують LOESS рівні частинки. Замість того, щоб побудувати одну точку з повним набором даних, зразу намалювали 100 зразків за аналогією. Кожен зразок відрізняється від початкового набору даних, але він схожий за розподілом і мінливістю. Прогноз був зроблений на основі 100 груп. Перші 10 прогнозованих зразків є сірими лініями на графіку, які є дуже гнучкими.

Беручи середнє число із 100 зразків, кожний з них встановлює підгрупу початкових даних, ми підходимо до одного сукупного прогнозованого — це червона лінія на графіку:

Сукупність найближчих сусідніх класифікаторів

[ред. | ред. код]

Похибка одного найближчого сусіднього класифікатора є вдвічі більшою за похибку баєсового класифікатора.[5] За допомогою уважного вибору розміру зразків сукупність сумування цих зразків може привести до помітного покращення 1NN класифікатора. Беручи велику кількість зразків розміром , супутній найближчий класифікатор буде послідовним, забезпечуючи та відходячи від норми, але як відібраний розмір .

Під безконечною симуляцією сукупний найближчий сусідній класифікатор може розглядатися як масовий найближчий сусідній класифікатор. Допускаємо, що характерний простір є вимірним і позначається , сукупний найближчий класифікатор базується на навчальному наборі розміром та зі зразком розміром . У безконечному відборі зразків за певних регулярних умов на групових розподілах крайня похибка має наступну формулу[6]

для деяких констант and . Оптимальний вибір nʹ, що збалансовує два терміни, є у формулі для деякої константи .

Історія

[ред. | ред. код]

Бутстрепову агрегацію запропонував 1944 року Лео Брейман для покращення класифікації випадково утворених наборів даних. See Breiman, 1994. Technical Report No. 421.

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Вербівський Д. С., Карплюк С. О., Фонарюк О. В., Сікора Я. Б. Бустінг і беггінг як методи формування ансамблей моделей // Actual trends of modern scientific research. Abstracts of the 7th International scientific and practical conference.. — Житомирський державний університет імені Івана Франка, . — С. 163-169.
  2. Practical Statistics for Data Scientists [Book]. www.oreilly.com (англ.). Архів оригіналу за 21 травня 2021. Процитовано 21 травня 2021.
  3. Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and an ensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.
  4. Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. «Preimages for Variation Patterns from Kernel PCA and Bagging.» IIE Transactions, Vol.46, Iss.5, 2014
  5. Castelli, Vittorio. Nearest Neighbor Classifiers, p.5 (PDF). columbia.edu. Columbia University. Архів оригіналу (PDF) за 5 вересня 2015. Процитовано 25 квітня 2015.
  6. Samworth R. J. (2012). Optimal weighted nearest neighbour classifiers. Annals of Statistics. 40 (5): 2733—2763. doi:10.1214/12-AOS1049.

Посилання

[ред. | ред. код]