NoSQL

NoSQL (зазвичай розшифровується як англ. non SQL або англ. non relational[1], іноді англ. not only SQL) — база даних, яка забезпечує механізм зберігання та видобування даних відмінний від підходу таблиць-відношень в реляційних базах даних.

Потреби у створенні

Подібні бази даних існували вже в другій половині 1960-х років, але тоді вони ще не здобули гучне ім'я «NoSQL», одержане після сплеску популярності на початку 21-ого століття[2], що був спричинений потребами Web 2.0 компаній, такими як FacebookGoogle, та Amazon.com.[3][4][5] NoSQL бази даних все більше і більше використовуються в задачах із застосуванням великих даних та real-time[en] web-застосунках.[6] NoSQL системи також називають «Not only SQL» (англ. not only SQL — не тільки SQL) для підкреслення того, що вони все-таки можуть підтримувати SQL-подібну структуру та мову запитів.[7][8]

Мотиви підходу

Мотиви цього підходу включають: простоту дизайну схеми БД, значно спрощене горизонтальне масштабування на кластери машин (що є проблемою для реляційних баз даних[2]), і тонкий контроль над доступністю. Структури даних, що використовуються в NoSQL (такі як ключ-значення, сховище з широким стовпчиком, граф, документ) є відмінними від тих, що використовуються за замовчуванням в реляційних базах, що робить тим самим деякі операції над даними значно швидшими на NoSQL. Точна відповідність та доречність використання баз даних NoSQL залежить від задач, котрі вирішуються.

Іноді структури даних, які використовуються в NoSQL базах можуть розглядатись як більш гнучкі, ніж таблиці реляційних моделей.[9]

Особливості

Багато NoSQL сховищ нехтують узгодженістю даних (у сенсі теореми CAP) на противагу доступності, толерантності до партиціонування, та, звісно, швидкості. Бар'єрами прийняття парадигми NoSQL сховищ є використання низькорівневої мови запитів (замість добре розвиненого та стандартизованого SQL), брак стандартизованих інтерфейсів і значні інвестиції уже в існуючі реляційні бази.[10] Більшість NoSQL сховищ не забезпечують використання ACID транзакцій, однак декілька баз, такі як MarkLogicAerospike, FairCom c-treeACE, Google Spanner (що технічно теж NewSQL база даних), Symas LMDB[en], та OrientDB зробили на цьому додатковий акцент. (Див. підтримка ACID та JOIN)

Натомість більшість NoSQL баз даних пропонують концепцію випадкового узгодження даних, в якому зміни в базі продубльовано на всі вузли «випадковим чином» (зазвичай така дія займає мілісекунди), що запити даних можуть не повернути оновлені дані моментально, або ж прочитані дані будуть не точними — давно знана проблема читання станів.[11] На додаток, деякі NoSQL системи можуть демонструвати втрачені записи та інші форми втрати даних[en].[12] На щастя, деякі NoSQL забезпечують принцип WAL-журналювання (англ. write-ahead logging) для уникнення втрати даних.[13] Для розподіленої обробки транзакцій, поверх множинних баз даних, узгодженість даних, як наслідок, навіть більше завдання ніж воно постає при реляційному підході. Навіть нинішні реляційні бази  не гарантують цілісність посилальну цілісність для розподілених баз даних.[14] Існує всього декілька систем, які підтримують як ACID транзакції, так і X/Open XA стандарти для обробки транзакцій на розподілених базах даних.

Історія

Перше візуальне представлення ініціатив NoSQL[15]

Термін NoSQL було використано Карлом Строззі у 1998 як назву для його СУБД-легковаговика, базі даних з відкритим кодом Strozzi NoSQL[en], яка хоч і не послуговувалась стандартом Structured Query Language (SQL) інтерфейсу, проте все ще залишалася реляційною.[16] Його СУБД NoSQL відрізняється від загальної концепції баз даних NoSQL за 2009 рік. Строцці вказує на те, що оскільки поточний рух NoSQL "повністю відходить від реляційної моделі, його слід назвати більш відповідним чином «NoREL»,[17] що відповідає «No Relational».

Джоан Оскарссон (англ. Johan Oskarsson), розробник Last.fm, наново ввів термін NoSQL на початку 2009 року, коли ним було організовано захід з обговорення розподілених, з відкритим кодом, не реляційних баз даних.[18] Спроба ввести таку назву відповідала неочікуваному зростанню кількості нереляційних, розподілених сховищ даних, включаючи клони з відкритим кодом Bigtable/MapReduce від Google та Dynamo від Amazon. Більшість ранніх NoSQL систем не пробували акцентувати увагу на забезпечення атомарності, узгодженості, ізоляції та довговічності, всупереч усталеній практиці серед реляційних систем управління базами даних.[19]

Мортеза Сарголзай Джаван (англ. Morteza Sargolzaei Javan), дослідник Технологічного університету Аміркабіра[en], наприкінці 2009 року використовував термін «Багатомірна та гнучка модель для баз даних»[15] з візуалізацією та зразком застосунку. Він зазначив, що такі моделі здатні виконувати нові операції під час розробки або, навіть, під час роботи баз даних.

Типи та приклади NoSQL баз даних

Відомо декілька способів класифікації NoSQL баз даних, кожен зі своїм набором категорій, деякі з них частково збігаються. Розглянемо базову класифікацію за моделями даних:

Більш деталізована версія

Оригінальна назва Тип Приклад
Key-Value Cache Ключ-значення: кеш CoherenceeXtreme ScaleGigaSpaces, GemFire, HazelcastInfinispan, JBoss Cache, Memcached, Repcached, TerracottaVelocity
Key-Value Store Ключ-значення: сховище Flare, Keyspace, RAMCloud, SchemaFree, HyperdexAerospike
Key-Value Store (Eventually-Consistent) Ключ-значення: сховище (випадково-узгоджене) DovetailDB, Oracle NoSQL DatabaseDynamoRiak, Dynomite, MotionDb, Voldemort, SubRecord
Key-Value Store (Ordered) Ключ-значення: сховище (впорядковане) Actord, FoundationDB, Lightcloud, LMDB, Luxio, MemcacheDB, NMDB, Scalaris, TokyoTyrant
Data-Structures Server Сервер структурованих даних Redis
Tuple Store Кортеж: сховище Apache River, Coord, GigaSpaces
Object Database Об'єктна база даних DB4O, Objectivity/DBPerst, Shoal, ZopeDB
Document Store Документ: сховище ClusterpointCouchbaseCouchDBDocumentDBIBM DominoMarkLogicMongoDBQizxRethinkDBXML-databases
Wide Column Store Широко-колонкове сховище BigTableCassandraDruidHBaseHypertable, KAI, KDI, OpenNeptune, Qbase

Ключ-значення

Ключ-значення (англ. Key-value, KV) сховище використовує асоціативний масив (знаний як карта або словник) як основну модель даних. В цій моделі дані представляються як колекція пар типу ключ-значення, таких, що кожен можливий ключ з'являється в колекціях не більше одного разу.[20][21]

Модель такого типу є однією із найпростіших, і більш розвинені моделі зазвичай реалізовані як їх розширення. Модель типу ключ-значення може бути розширена до скінченно впорядкованої, що підтримує ключі в лексикографічному порядку. Це розширення є обчислювально потужним, в тому, що він може ефективно видобувати селективні діапазони ключів.[22]

Моделі типу ключ-значення можуть використовувати різні рівні узгодженості, починаючи від випадкової[en] і завершуючи серіалізованими[en] даними. Деякі бази даних підтримують впорядковані ключі. Існують різні реалізації апаратного забезпечення, і деякі користувачі підтримують дані в пам'яті (RAM), в той час як інші використовують твердотільні (SSD) накопичувачі або класичні обертові (HDD) диски.

Приклади баз: Oracle NoSQL DatabaseRedis, та dbm.

Сховища документів

Центральним поняттям такої моделі даних є «документ». У той час кожна документно-орієнтована реалізація бази даних відрізняється від деталей цього визначення, в загальному, всі вони припускають, що документи інкапсулюють та шифрують збережені дані в деяких стандартних форматах або кодуваннях. Кодування на практиці включає XML, YAML і JSON, а також бінарні форми, такі як BSON. Документи адресуються в базі даних за допомогою унікального ключа, який представляє цей документ. Однією з інших визначальних характеристик документо-орієнтованої бази даних, є те, що крім пошуку по ключу, база даних також надає API або мову запитів, яка дозволяє виймати документи на основі їх вмісту.

Різноманітні способи реалізації пропонують різноманітні підходи і (або) способи групування документів:

  • Колекції
  • Теги
  • Невидимі мета-дані
  • Ієрархія директорій

У порівнянні з реляційними, колекції, до прикладу, можна розглядати як аналоги таблиць, а документи як аналоги до записів. Однак існує відмінність: кожен запис в таблиці має сталу послідовність атрибутів, в той час як документні бази можуть містити в колекції набори з абсолютно відмінними атрибутами.

Графи

Цей тип баз даних розроблений для даних, де дані можуть бути представлені у вигляді складових вершин графу, об'єднаних скінченним числом зв'язків між ними. Таким типом даних можуть бути соціальні мережі, мережі громадського транспорту, карти доріг тощо.

Графові бази даних та їх мови запитів
База даних (назва) Мова(и) Примітки
AllegroGraph SPARQL RDF кортеж
DEX/Sparksee C++Java.NETPython Графова база даних
FlockDB Scala Графова база даних
IBM DB2 SPARQL RDF кортеж, доданий в DB2 10
InfiniteGraph Java Графова база даних
MarkLogic JavaJavaScriptSPARQLXQuery Мульти модельна документна база та RDF кортеж
Neo4j Cypher Графова база даних
OWLIM JavaSPARQL 1.1 RDF кортеж
Oracle SPARQL 1.1 RDF кортеж 11g
OrientDB Java Мульти-модельна документна база і графова база даних
Sqrrl Enterprise Java Графова база даних
OpenLink Virtuoso C++C#JavaSPARQL Гібрид Middleware та підсистемного зберігання
Stardog JavaSPARQL Графова база даних

Об'єктно-орієнтовані бази даних

Продуктивність

Бен Скотфілд оцінив різні категорії NoSQL баз даних:[23]

Модель даних Продуктивність Масштабованість Гнучкість Складність Функціональність
Key–Value Store high high high none variable (none)
Column-Oriented Store high high moderate low minimal
Document-Oriented Store high variable (high) high low variable (low)
Graph Database variable variable high high теорія графів
Relational Database variable variable low moderate реляційна алгебра

Обробка реляційних даних

Оскільки у більшості NoSQL баз даних відсутня можливість для операцій з'єднання в запитах, схема БД повинна бути спроектована іншим чином. Виділяють три техніки обробки реляційних даних в NoSQL базах:

Множинні запити

Підхід розбиття складних запитів на підмножину простих. NoSQL запити зазвичай простіші за традиційні SQL запити, тож можливість запуску додаткових запитів є доцільною з точки зору сумарного часу виконання. У випадку потреби запуску значної кількості запитів, варто розглянути наступні два підходи.

Кешування/Реплікація/Ненормалізовані дані

На відміну від зберігання вийнятково зовнішніх ключів, звичний підхід зберігати зовнішні значення заразом з даними моделі. До прикладу, кожен коментар блогу може включати ім'я користувача окрім його id, забезпечуючи тим самим легкий доступ до імені користувача, не вимагаючи іншого пошуку. Однак, коли ім'я користувача було змінено - це тепер вимагатиме змін в багатьох місцях. Таким чином, цей підхід працює краще, при частому читанні даних, ніж їх модифікації.

Вкладені дані

В документних базах, таких як MongoDB це цілком звично розміщувати більше даних в меншу кількість колекцій. До прикладу, застосунок типу блог може зберігати коментарі до певного посту як один запис. При цьому підході один документ міститиме всі необхідні дані для певного типу завдань.

Підтримка ACID та JOIN

Якщо база даних відзначена як така, що підтримує ACID чи joins, це означає, що це підтверджено в її документації. Ступінь підтримки в тій чи іншій мірі відповідає потребам конкретного застосування.

Database ACID Joins
Aerospike[en] Так Ні
Apache Ignite Так Так
ArangoDB Так Так
CouchDB Так Так
c-treeACE Так Так
DB2 Так Так
InfinityDB Так Ні
LMDB Так Ні
MarkLogic Так Так[nb 1]
OrientDB Так Так[nb 2]
  1. Приєднання виконуються не обов'язково над документами баз даних, проте MarkLogic може виконати приєднання за допомогою семантики.[24]
  2. OrientDB може зробити 1:1 приєднання за допомогою зберігання прямих посилань на зовнішні записи.[25]

Примітки

  1. http://nosql-database.org/ [Архівовано 26 грудня 2018 у Wayback Machine.] «NoSQL DEFINITION: Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable»
  2. а б Leavitt, Neal (2010). Will NoSQL Databases Live Up to Their Promise? (PDF). IEEE Computer. Архів оригіналу (PDF) за 18 листопада 2017. Процитовано 8 травня 2018.
  3. Mohan, C. (2013). History Repeats Itself: Sensible and NonsenSQL Aspects of the NoSQL Hoopla (PDF). Proc. 16th Int'l Conf. on Extending Database Technology. Архів оригіналу (PDF) за 5 липня 2015. Процитовано 8 травня 2018.
  4. NOSQL meetup Tickets, Thu, Jun 11, 2009 at 10:00 AM. Eventbrite.com. Архів оригіналу за 3 серпня 2017. Процитовано 6 березня 2017. [Архівовано 2017-08-03 у Wayback Machine.]
  5. Amazon Goes Back to the Future With 'NoSQL' Database. WIRED. 19 січня 2012. Архів оригіналу за 16 липня 2018. Процитовано 6 березня 2017.
  6. RDBMS dominate the database market, but NoSQL systems are catching up. DB-Engines.com. 21 листопада 2013. Архів оригіналу за 24 листопада 2013. Процитовано 24 листопада 2013.
  7. NoSQL (Not Only SQL). Архів оригіналу за 21 квітня 2021. Процитовано 8 травня 2018. NoSQL database, also called Not Only SQL
  8. Fowler, Martin. NosqlDefinition. Архів оригіналу за 1 травня 2021. Процитовано 8 травня 2018. many advocates of NoSQL say that it does not mean a "no" to SQL, rather it means Not Only SQL
  9. Vogels, Werner (18 січня 2012). Amazon DynamoDB – a Fast and Scalable NoSQL Database Service Designed for Internet Scale Applications. All Things Distributed. Архів оригіналу за 15 вересня 2012. Процитовано 6 березня 2017.
  10. Grolinger, K.; Higashino, W. A.; Tiwari, A.; Capretz, M. A. M. (2013). Data management in cloud environments: NoSQL and NewSQL data stores (PDF). Aira, Springer. Архів оригіналу (PDF) за 9 січня 2014. Процитовано 8 Jan 2014.
  11. Jepsen: MongoDB stale reads. Aphyr.com. 20 квітня 2015. Архів оригіналу за 29 червня 2018. Процитовано 6 березня 2017.
  12. Large volume data analysis on the Typesafe Reactive Platform. Slideshare.net. Архів оригіналу за 29 березня 2019. Процитовано 6 березня 2017.
  13. Fowler, Adam. 10 NoSQL Misconceptions. Dummies.com. Архів оригіналу за 31 липня 2016. Процитовано 6 березня 2017.
  14. No! to SQL and No! to NoSQL | So Many Oracle Manuals, So Little Time. Iggyfernandez.wordpress.com. Архів оригіналу за 11 липня 2018. Процитовано 6 березня 2017.
  15. а б Sargolzaei Javan, Morteza; Mohanna, Farahnaz (2009). Multi Dimensional and Flexible Model for Databases. Innovations and Advances in Computer Sciences and Engineering. Springer. с. 159—164. Архів оригіналу за 21 липня 2018. Процитовано 21 травня 2018.
  16. Lith, Adam; Mattson, Jakob (2010). Investigating storage solutions for large data: A comparison of well performing and scalable data storage solutions for real time extraction and batch insertion of data (PDF). Göteborg: Department of Computer Science and Engineering, Chalmers University of Technology. с. 70. Архів оригіналу (PDF) за 16 серпня 2011. Процитовано 12 травня 2011. Carlo Strozzi first used the term NoSQL in 1998 as a name for his open source relational database that did not offer a SQL interface[...]
  17. NoSQL Relational Database Management System: Home Page. Strozzi.it. 2 жовтня 2007. Архів оригіналу за 20 квітня 2016. Процитовано 29 березня 2010.
  18. NoSQL 2009. Blog.sym-link.com. 12 травня 2009. Архів оригіналу за 16 липня 2011. Процитовано 29 березня 2010. [Архівовано 16 липня 2011 у Wayback Machine.]
  19. Chapple, Mike. The ACID Model. Архів оригіналу за 29 грудня 2016. Процитовано 21 травня 2018. [Архівовано 29 грудня 2016 у Wayback Machine.]
  20. Sandy (14 January 2011). Key Value stores and the NoSQL movement. http://dba.stackexchange.com/questions/607/what-is-a-key-value-store-database: Stackexchange. Процитовано 1 January 2012. Key-value stores allow the application developer to store schema-less data. This data usually consists of a string that represents the key, and the actual data that is considered the value in the "key-value" relationship. The data itself is usually some kind of primitive of the programming language (a string, an integer, or an array) or an object that is being marshaled by the programming language's bindings to the key-value store. This structure replaces the need for a fixed data model and allows proper formatting.
  21. Seeger, Marc (21 September 2009). Key-Value Stores: a practical overview (PDF). http://blog.marc-seeger.de/2009/09/21/key-value-stores-a-practical-overview/: Marc Seeger. Архів оригіналу (PDF) за 5 січня 2012. Процитовано 1 January 2012. Key-value stores provide a high-performance alternative to relational database systems with respect to storing and accessing data. This paper provides a short overview of some of the currently available key-value stores and their interface to the Ruby programming language.
  22. Katsov, Ilya (1 березня 2012). NoSQL Data Modeling Techniques. Ilya Katsov. Архів оригіналу за 10 травня 2014. Процитовано 8 травня 2014.
  23. Scofield, Ben (14 січня 2010). NoSQL - Death to Relational Databases(?). Архів оригіналу за 29 березня 2019. Процитовано 26 червня 2014.
  24. Can’t do joins with MarkLogic? It’s just a matter of Semantics! - General Networks. Gennet.com. Архів оригіналу за 3 березня 2017. Процитовано 6 березня 2017. [Архівовано 2017-03-03 у Wayback Machine.]
  25. SQL Reference · OrientDB Manual. OrientDB.com. Архів оригіналу за 11 травня 2018. Процитовано 24 квітня 2017.

Див. також

Посилання