Ансамблеве навчання
Ансамблеве навчання — техніка машинного навчання, що використовує кілька навчених алгоритмів з метою отримати кращу передбачальну ефективність[en], ніж можна отримати від кожного алгоритму окремо[1][2][3]. На відміну від статистичного ансамблю[en] в статистичній механіці, який зазвичай нескінченний, ансамбль моделей у машинному навчанні складається з конкретної скінченної множини альтернативних моделей, але зазвичай дозволяє існувати істотно гнучкішим структурам. Алгоритми навчання з учителем найчастіше описують як розв'язання задачі пошуку у просторі гіпотез відповідної гіпотези — такої, що дозволяє робити гарні передбачення для конкретної задачі. Але пошук хорошої гіпотези може бути складною задачею. Ансамбль використовує комбінацію кількох гіпотез, сподіваючись, що вона виявиться кращою, ніж окремі гіпотези. Термін «ансамбль» зазвичай резервують для методів, які генерують кілька гіпотез за допомогою одного й того ж базового учня. Ширше поняття системи множинних класифікаторів також використовує кілька гіпотез, але згенерованих не за допомогою одного й того ж учня[джерело?]. Обчислення передбачення ансамблю зазвичай потребує більше обчислень, ніж передбачення однієї моделі, отже ансамблі можна вважати способом компенсації поганого алгоритму навчання додатковими обчисленнями. В ансамблі моделей зазвичай використовують швидкі алгоритми, такі як дерева рішень (наприклад, випадкові ліси), хоча повільні алгоритми можуть отримати переваги від ансамблевої техніки. За аналогією, ансамблеву техніку використовують також у сценаріях навчання без учителя, наприклад, кластеризації на основі згоди[en] або у виявленні аномалій. Теорія ансамблюванняАнсамбль є алгоритмом навчання з учителем, оскільки його можна натренувати, а потім використати для здійснення передбачення. Тому тренований ансамбль надає одну гіпотезу. Ця гіпотеза, проте, необов'язково лежить у просторі гіпотез моделей, із яких її побудовано. Таким чином, ансамблі можуть мати більшу гнучкість у функціях, які можуть представляти. Ця гнучкість може, теоретично, швидше привести їх до перенавчання за тренувальними даними, ніж могло бути у випадку окремої моделі, але, на практиці, деякі техніки ансамблювання (особливо бутстрепова агрегація) схильні зменшувати проблеми, пов'язані з перенавчанням на тренувальних даних. Емпірично ансамблі схильні давати кращі результати, якщо є відмінність моделей[4][5]. Тому в багатьох ансамблевих методах намагаються підвищити різницю комбінованих моделей[6][7]. Хоча, можливо, неінтуїтивні, більш випадкові алгоритми (подібні до випадкових дерев рішень) можна використати для отримання строгіших ансамблів, ніж продумані алгоритми (такі як дерева рішень зі зменшенням ентропії)[8]. Використання різних алгоритмів строгого навчання, проте, як було показано, ефективніше, ніж використання технік, які намагаються спростити моделі з метою забезпечити більшу відмінність[9]. Розмір ансамблюХоча кількість класифікаторів у ансамблі значно впливає на точність передбачення, цю проблему досліджено мало. Визначення апріорі розміру ансамблю та обсягів і швидкості великих потоків даних робить цей фактор навіть критичнішим для онлайнових ансамблів класифікаторів. Для визначення належної кількості компонентів використовувано переважно статистичні тести. Нещодавно теоретичний фреймворк дав привід припустити, що є ідеальне число класифікаторів ансамблю, таке, що число класифікаторів більше або менше від цього ідеального числа призводить до погіршення точності. Це називають «законом зменшення віддачі в побудові ансамблю». Цей теоретичний фреймворк показує, що використання числа незалежних класифікаторів, рівного кількості міток класу, дає найвищу точність[10][11]. Часто використовувані типи ансамблівБаєсів оптимальний класифікаторБаєсів оптимальний класифікатор — це техніка класифікації. Він є ансамблем усіх гіпотез із простору гіпотез. У середньому жоден з ансамблів не може перевершувати його[12]. Наївний баєсів класифікатор — це версія, яка передбачає, що дані умовно незалежні від класу, і виконує обчислення за реальніший час. Кожній гіпотезі надається голос, пропорційний імовірності того, що тренувальні дані буде взято із системи, якщо гіпотеза була б істинною. Для отримання тренувальних даних скінченного розміру голос кожної гіпотези множиться на апріорну можливість такої гіпотези. Баєсів оптимальний класифікатор можна виразити такою рівністю:
де — передбачений клас, — множина всіх можливих класів, — клас гіпотез, — ймовірність, — тренувальні дані. Як ансамбль, баєсів оптимальний класифікатор представляє гіпотезу, яка не обов'язково належить до . Гіпотеза, представлена баєсовим оптимальним класифікатором, однак, є оптимальною гіпотезою у просторі ансамблів (простір усіх можливих ансамблів, які складаються лише з гіпотез простору ). Формулу можна переписати за допомогою теореми Баєса, яка свідчить, що постеріорна ймовірність пропорційна апріорній імовірності: звідки БеггінгБутстрепове агрегування (беггінг), надає кожній моделі в ансамблі однакову вагу (голос). Щоб підтримувати варіантність, беггінг тренує кожну модель в ансамблі за допомогою випадково відібраної підмножини з тренувальної множини. Наприклад, алгоритм «випадкового лісу» комбінує випадкові дерева рішень із беггінгом, щоб отримати високу точність класифікації[13]. ПідсилюванняПідсилювання (бустинг) будує ансамбль послідовними приростами шляхом тренування кожної нової моделі, щоб виділити екземпляри, які попередні моделі класифікували помилково. Показано, що в деяких випадках підсилювання дає кращі результати, ніж бегінг, але має тенденцію до перенавчання на тренувальних даних. Найчастішою реалізацією підсилювання є алгоритм AdaBoost[en], хоча є повідомлення, що деякі нові алгоритми дають кращі результати. Усереднення баєсових параметрівУсереднення баєсівських параметрів (англ. Bayesian parameter averaging, BPA) — це техніка складання ансамблю, за якої намагаються апроксимувати баєсівський оптимальний класифікатор шляхом вибірок із простору гіпотез і комбінування їх за допомогою закону Баєса[14]. На відміну від баєсівського оптимального класифікатора, баєсівську модель усереднення можна реалізувати практично. Гіпотези зазвичай відбирають за допомогою техніки Монте-Карло, такої як MCMC. Наприклад, для вибирання гіпотез, які представляють розподіл , можна використати семплювання за Гіббсом[en]. Показано, що за деяких обставин, якщо гіпотези вибирають так і усереднюють згідно із законом Баєса, ця техніка має очікувану помилку, обмежену подвійною очікуваною помилкою баєсівського оптимального класифікатора[15]. Попри теоретичну коректність цієї техніки, в ранніх роботах на основі експериментальних даних висловлено припущення, що метод схильний до перенавчання і поводиться гірше, ніж прості техніки складання ансамблю, такі як беггінг[16] . Однак ці висновки ґрунтуються на недостатньому розумінні мети баєсівської моделі усереднення (БМУ) для комбінації моделей[17]. Крім того, теорія та практика БМУ має суттєві переваги. Недавні строгі доведення показують точність БМУ для вибору змінних та оцінення за багатовимірних умов[18] і дають емпіричне свідчення істотної ролі забезпечення розрідженості в БМУ в пом'якшенні перенавчання[19]. Комбінація баєсівських моделейКомбінація баєсівських моделей (КБМ, англ. Bayesian model combination, BMC) — це алгоритмічне виправлення баєсівської моделі усереднення (БМУ,англ. Bayesian model averaging, BMA). Замість вибору кожної моделі до ансамблю індивідуально, алгоритм відбирає із простору можливих ансамблів (з вагами моделей, вибраних випадково з розподілу Діріхле з однорідними параметрами). Ця модифікація дозволяє уникнути тенденції БМУ віддати повну вагу одній моделі. Хоча КБМ обчислювально дещо витратніший порівняно з БМУ, він дає істотно кращі результати. Результати КБМ, як показано, в середньому кращі, ніж БМУ та беггінг[20]. Використання для обчислення ваги моделі закону Баєса неминуче тягне за собою обчислення ймовірності даних для кожної моделі. Зазвичай жодна з моделей в ансамблі не має такого ж розподілу, що й тренувальні дані, з яких їх згенеровано, так що всі члени коректно набувають значення, близького до нуля. Це добре працювало б, якби ансамбль був досить великим для вибірки з повного простору моделей, але таке трапляється рідко. Отже, кожен представник тренувального набору спонукає вагу ансамблю зрушуватися до моделі в ансамблі, яка найближча до розподілу тренувальних даних. Це суттєво зменшує необхідність надмірно складного методу вибору моделі. Можливі ваги для ансамблю можна уявити як такі, що лежать на симплексі. На кожній вершині симплексу всі ваги задаються окремою моделлю ансамблю. БМУ збігається до вершини, яка ближче за розподілом до тренувальних даних. Для контрасту, КБМ збігається до точки, де цей розподіл проєктується в симплекс. Іншими словами, замість вибору однієї моделі, найближчої до розподілу, метод шукає комбінацію моделей, найближчу до розподілу. Часто результати БМУ можна апроксимувати за допомогою перехресної перевірки для вибору моделі із відра моделей. Аналогічно, результати КБМ можна апроксимувати за допомогою перехресної перевірки для вибору кращої комбінації ансамблів із випадкової вибірки можливих ваг. Відро моделей«Відро моделей» (англ. bucket of models) — це техніка збирання ансамблю, в якій використовують алгоритм вибору моделі для отримання кращої моделі для кожної задачі. Коли тестується лише одне завдання, відро моделей не може дати результату кращого, ніж найкраща модель у наборі, проте, в разі прогону для кількох задач, алгоритм зазвичай дає кращі результати, ніж будь-яка модель в наборі. Найчастіше для вибору моделі використовують перехресну вибірку. Цей підхід описує такий псевдокод: Для кожної моделі у відрі: Виконати c разів: (де 'c' - деяка константа) Випадково ділимо тренувальні дані на два набори: A і B. Тренуємо m за A Перевіряємо m за B Вибираємо модель, яка покаже найвищий середній результат Перехресну вибірку можна описати як: «прожени всі на тренувальній множині і вибери ту, що працює краще»[21]. Виділення (англ. Gating) є узагальненням перехресної вибірки. Метод залучає тренування іншої моделі навчання для вирішення, яка з моделей у відрі більше придатна для розв'язання задачі. Часто для виділення моделі використовують перцептрон. Його можна використати для вибору «найкращої» моделі, або для отримання лінійної ваги для передбачень кожної моделі у відрі. Коли відро моделей використовують із великим набором задач, може бути бажаним уникнути тренування деяких моделей, які потребують тривалого тренування. Ландмарк-навчання — це метанавчальний підхід, який шукає розв'язок цієї задачі. Він залучає для тренування лише швидкі (але неточні) алгоритми, а потім їх ефективність використовують для визначення, який із повільних (але точних) алгоритмів вибрати як найкращий[22]. СтогуванняСтогування (іноді зване стековим узагальненням) залучає тренування навчального алгоритму для комбінування передбачень кількох інших алгоритмів. Спочатку всі інші алгоритми тренуються за допомогою допустимих даних, потім алгоритми комбінування тренуються з метою зробити кінцевий прогноз за допомогою всіх прогнозів інших алгоритмів як додаткового входу. Якщо використовується довільний алгоритм комбінування, то стогування може теоретично представляти будь-яку техніку створення ансамблів, описану в цій статті, хоча на практиці як засіб алгоритму комбінування часто використовують модель логістичної регресії. Стогування зазвичай дає кращу ефективність, ніж будь-яка окрема з тренувальних моделей[23]. Його успішно використовують як у задачах навчання з учителем (регресії[24], класифікації та дистанційного навчання[25]), так і задачах навчання без учителя (оцінення густини)[26]. Також його використовують для оцінки помилки беггінгу[3][27]. Стверджувалося, що метод перевершив баєсівську модель усереднення[28]. Два призери конкурсу Netflix[en] використовують змішування, яке можна вважати формою стогування[29]. Реалізація у статистичних пакунках
Застосування ансамблевого навчанняУ недавні роки, внаслідок зростання обчислювальної потужності, що дозволяє тренування великих навчальних ансамблів за розумний час, кількість застосувань суттєво зросла[35]. Деякі з застосувань класифікаторів ансамблів наведено нижче. Дистанційне зондування ЗемліВідображення рослинного покривуВідображення рослинного покриву[en] є одним із головних застосувань спостереження за Землею[en] з використанням дистанційного зондування та геопросторових даних для розпізнавання об'єктів, розташованих на поверхні цільових ділянок. Як правило, класи цільового матеріалу включають дороги, будівлі, річки, озера та рослинність[36]. Запропоновано деякі різні підходи ансамблевого навчання, що базуються на штучних нейронних мережах[37], ядерному методі головних компонент[en] (англ. kernel principal component analysis, KPCA)[38], деревах рішень із підсилюванням[39], випадкових лісах[36] і автоматичному створення кількох систем класифікаторів[40], для ефективного розпізнавання об'єктів рослинного покриву. Виявлення змінВиявлення змін[en] — це задача аналізу зображень[en], яка полягає в ідентифікації місць, де рослинний покрив із змінився. Застосовується в таких галузях, как зростання міст, динаміка змін у лісах і рослинності[en], землекористування та виявлення стихійних лих[en][41]. Ранні застосування ансамблів класифікаторів до визначення змін розробляли за допомогою голосування більшістю голосів[en], баєсового середнього та оцінення апостеріорного максимуму[42]. Захист комп'ютераDoS-атакаРозподілена атака типу «відмова в обслуговуванні» є однією з найзагрозливіших кібератак, яка може трапитися з інтернет-провайдером[35]. Комбінуючи виходи окремих класифікаторів ансамбль класифікаторів знижує загальну помилку детектування та відокремлення таких атак від законних флешмобів[en][43]. Виявлення шкідливих програмКласифікація кодів шкідливих програм, таких як комп'ютерні віруси, мережеві хробаки, трояни, віруси-вимагачі та програми-шпигуни, за допомогою технік машинного навчання, навіяна задачею класифікування документів[44]. Системи ансамблевого навчання показали в цій галузі надійну ефективність[45][46]. Виявлення вторгненьСистема виявлення вторгнень відстежує комп'ютерну мережу чи комп'ютери для ідентифікації кодів вторгнення, подібно до процесу виявлення аномалій. Ансамблеве навчання успішно допомагає таким системам скорочувати загальну кількість помилок[47][48]. Розпізнавання обличРозпізнавання облич, яке нещодавно стало популярною областю досліджень у розпізнаванні образів, справляється з ідентифікацією або верифікацією особи за його/її цифровим зображенням[49]. Ієрархічні ансамблі, засновані на класифікаторі Габора Фішера та техніках попередньої обробки даних під час аналізу незалежних компонентів[en], належать до ранніх прикладів використання ансамблів у цій галузі[50][51][52]. Розпізнавання емоційТоді як розпізнавання мови переважно ґрунтується на глибокому навчанні, оскільки більшість індустріальних гравців у цій галузі, такі як Google, Microsoft і IBM, використовують його як основу технології розпізнавання мовлення, засноване на розмові розпізнавання емоцій може мати задовільні показники з ансамблевим навчанням[53][54]. Метод також успішно використовувався для розпізнаванні емоцій на обличчі[55][56][57]. Виявлення шахрайстваВиявлення шахрайства включає ідентифікацію банківського шахрайства[en] , такого як відмивання грошей, шахрайство з платіжними картками, та телекомунікаційного шахрайства. Виявлення шахрайства має широкі можливості для дослідження та застосування машинного навчання. Оскільки ансамблеве навчання покращує стійкість нормальної поведінки моделі, його запропоновано як ефективну техніку визначення таких випадків шахрайства та підозрілої активності в банківських операціях у системах кредитних карток[58][59]. Ухвалення фінансових рішеньУ процесі прийняття фінансових рішень ажливоют є очність передбачення комерційного краху, тому для передбачення фінансових криз та фінансових крахів[en] запропоновано різні ансамблі класифікаторів[60]. Також у задачі маніпуляюванняна основі торгів, де трейдери намагаються маніпулювати цінами акцій шляхом купівлі або продажу, ансамблюькласифікаторів пмаєпроаналізувати зміни в даних на ринку цінних паперів та визначити симптоми підозрілих маніпуляцій зі цінами акцій [60]. МедицинаСистему класифікаторів успішно застосовано в нейронауках, протеоміці та медичній діагностиці, зокрема, для розпізнавання нейрокогнітивних розладів[en] (тобто, хвороби Альцгеймера або міотонічної дистрофії[en]) заснованого на даних магнітно-резонансної томографії[61][62][63], або класифікація цитології шийки матки на основі мікроскопії[64][65]. Див. такожПримітки
Література
|