Сховище данихСховище даних (англ. data warehouse) — предметно орієнтований, інтегрований, незмінний набір даних, що підтримує хронологію і здатний бути комплексним джерелом достовірної інформації для оперативного аналізу та прийняття рішень. В основі концепції сховища даних (СД) лежить розподіл інформації, що використовують в системах оперативної обробки даних (OLTP) і в системах підтримки прийняття рішень (СППР). Такий розподіл дозволяє оптимізувати як структури даних оперативного зберігання для виконання операцій введення, модифікації, знищення та пошуку, так і структури даних, що використовуються для аналізу. В СППР ці два типи даних називаються відповідно оперативними джерелами даних (ОДД) та сховищем даних. Перші статті, присвячені сховищам даних з'явилися в 1988 році, їх авторами були Девлін та Мерфі. В 1992 році Уільман Г. Інмон детально описав дану концепцію в своїй монографії «Побудова сховищ даних». ІсторіяСпроби створення систем прийняття рішень, які б безпосередньо зверталися до баз даних систем оперативної обробки трансакцій OLTP, виявляються в більшості випадків неефективними [1]. Тому для забезпечення можливості аналізу накопичених даних організації почали створювати сховища даних, що являють собою інтегровані колекції даних, зібрані з різних систем оперативного доступу до даних. Концепція Data Warehouse була запропонована в 1992 р. Білом Інмоном в його книзі «Building the Data Warehouse» та стала однією з домінуючих в розробці інформаційних технологій обробки даних 90-х років. Англомовний термін Data Warehouse означає створення, підтримку, управління та використання сховища даних, що говорить про те, що мова йде про процес. Мета цього процесу — неперервне надання необхідної інформації потрібним співробітникам організації. Цей процес передбачає постійний розвиток, удосконалення, розв'язання все нових задач. Процес ніколи не закінчується, тому його не можна вмістити в більш-менш чіткі часові рамки так, як це можна зробити для традиційних систем оперативного доступу до даних. Основні характеристикиСховища даних — основа для побудови систем підтримки прийняття рішень. Основна мета створення сховища в тому, щоб зробити усі значимі для управління бізнесом дані доступними в стандартизованій формі, придатними для аналізу та отримання необхідних звітів. Для досягнення цього потрібно отримати дані із існуючих внутрішніх та зовнішніх, доступних для комп'ютера, джерел. Незважаючи на відмінності в підходах та реалізаціях, усім сховищам даних властиві такі спільні риси[2]: предметна орієнтованість, інтегрованість, прив'язка до часу, незмінність. Предметна орієнтованістьІнформація в сховищі даних організована відповідно до основних аспектів діяльності підприємства (замовники, продажі, склад тощо). Це відрізняє сховище даних від оперативної БД, де дані організовано відповідно до процесів (виписка рахунків, відвантаження товару тощо). Предметна організація даних в сховищі сприяє як значному спрощенню аналізу, так і підвищенню швидкості виконання аналітичних запитів. Вона виражається, зокрема, в використанні інших, порівняно з оперативними системами, систем організації даних. У випадку зберігання даних в реляційній СУБД використовується схема «зірки» (англ. star schema) чи «сніжинки» (англ. snowflake schema). Крім цього, дані можуть зберігатися в спеціальній багатовимірній СУБД в n-вимірних кубах. ІнтегрованістьПерш ніж потрапити до сховища даних оперативні дані перевіряють, очищують та певним чином агрегують. Вихідні дані отримуються із оперативних БД, перевіряються, очищуються, приводяться до єдиного виду, в потрібній мірі агрегуються (вираховуються сумарні та інші статистичні показники) і завантажуються в сховище. Такі інтегровані дані набагато простіше аналізувати. Підтримка хронологіїДані в сховищі завжди напряму зв'язані з певним періодом часу. Дані, отримані із оперативних БД, накопичуються в сховищі у виді «історичних шарів», кожен з яких стосується конкретного періоду часу. Це дозволяє аналізувати тенденції в розвитку бізнесу. НезмінністьПотрапивши в певний «історичний шар» сховища, дані уже ніколи не мінятимуться. Це також відрізняє сховище від оперативної БД, в якій дані постійно змінюються, у зв'язку з чим один і той же запит, виконаний в різні моменти часу, може дати різні результати. Стабільність даних також полегшує їх аналіз. Мінімальна надлишковістьНе зважаючи на те, що інформація до сховища даних потрапляє від багатьох OLTP-систем, надлишковість інформації в сховищі даних зведена до мінімуму. Вимоги
Види сховищ данихПри використанні СППР можуть застосовуватись 2 види сховищ даних: Фізичне СДПри реалізації моделі СППР з фізичним СД дані з різних ОДД копіюються в єдине сховище. Зібрані дані приводяться до єдиного формату, узгоджуються та узагальнюються. Аналітичні запити адресуються до сховища даних.
Віртуальне СДНадлишковість інформації можна звести до нуля, використовуючи віртуальне СД. В даному випадку на відміну від фізичного СД дані з ОДД не копіюються в єдине сховище. Вони витягуються, перетворюються та інтегруються безпосередньо при виконанні аналітичних запитів в оперативній пам'яті комп'ютера. Фактично такі запити напряму адресуються до ОДД. Основними перевагами віртуального СД є:
Однак такий підхід має і багато недоліків. Час обробки запитів до віртуального сховища даних значно перевищує відповідні показники для фізичного сховища. Крім того, структури оперативних баз даних, що розраховані на інтенсивне оновлення даних є сильно нормалізованими. Тоді як для виконання аналітичного запиту вимагається об'єднання великої кількості таблиць, що також приводить до зниження швидкодії. Інтегрований погляд на віртуальне сховище можливий тільки при виконанні умови постійної доступності всіх оперативних джерел даних. Таким чином, тимчасова недоступність хоча б одного з джерел може привести або до невиконання аналітичних запитів, або до невірних результатів. Виконання складних аналітичних запитів над ОДД займає великий обсяг ресурсів комп'ютерів, на яких вони працюють. Це приводить до зниження швидкодії OLTP-систем, що недопустимо, оскільки час виконання операцій в таких системах є дуже критичним параметром. Головним же недоліком віртуального сховища даних вважається практична неможливість отримання даних за довгий період часу. При відсутності фізичного сховища доступні тільки ті дані, які на момент запиту містяться в ОДД. Основне призначення OLTP-систем — оперативна обробка поточних даних, тому вони не орієнтовані на зберігання даних за тривалий період часу. По мірі застарівання дані вивантажуються в архів та видаляються з оперативної БД. Інша типологіяКорпоративні сховища данихКорпоративні сховища даних містять інформацію, яка стосується усієї корпорації (всього підприємства), і яка зібрана з великої кількості оперативних джерел для консолідованого аналізу. Зазвичай такі сховища охоплюють цілий ряд аспектів діяльності підприємства і використовуються для прийняття як тактичних, так і стратегічних рішень. Корпоративне сховище містить детальну та узагальнюючу інформацію. Вартість створення та підтримки корпоративних сховищ може бути дуже великою. Частіше всього їх створенням займаються централізовані відділи інформаційних технологій, причому вони створюються методом зверху вниз — спочатку проектується загальна схема, і тільки потім починається заповнення даними. Такий процес може тривати декілька років. Кіоски данихКіоски даних містять підмножину корпоративних даних та створюються для відділів чи підрозділів всередині організації. Кіоски даних часто створюються силами самого відділу та охоплюють конкретний аспект, що цікавить співробітників даного відділу. Кіоск даних може отримувати дані з корпоративного сховища (залежний кіоск) або, що більш розповсюджено, дані можуть отримуватись безпосередньо з оперативних джерел (незалежний кіоск). Основними постачальниками програмного забезпечення сховищ даних є компанії Arbor, Hewlett-Packard, IBM, Informix, Microsoft, Oracle, Platinum Technology, SAS Institute, Software AG, Sybase та ін. Усі ці фірми мають сторінки в Internet, на яких наводяться детальні відомості про їх продукти та послуги. Проблеми створення СДНезважаючи на переваги фізичного СД перед віртуальним, слід визнати, що його реалізація являє собою достатньо трудомісткий процес. Тому при створенні СД виникає ряд проблем:
Зниження затрат на створення СД можна досягти, створюючи його спрощений варіант — вітрину даних (data mart). Див. такожПриміткиЛітература
|