Кодова точка

Кодову точку[1] не варто плутати з кодом точки.[2]

Кодова точка, кодовий пункт або кодова позиція — це конкретна позиція в таблиці, якій було присвоєне певне значення. Таблиця може бути одновимірною, двовимірною, тривимірною у будь-якій кількості вимірів. Технічно, кодова точка — це унікальна позиція в n-вимірному просторі, де позиції було присвоєно семантичне значення. Таблиця має дискретні і додатні позиції (1, 2, 3, 4, але не дроби). Кодові точки використовуються в багатьох формальних стандартах обробки інформації та телекомунікацій. [3] [4] Наприклад, рекомендація ITU-T T.35 [5] містить набір кодів країн для телекомунікаційного обладнання, які дозволяють обладнанню вказувати країну виробництва або експлуатації.

У кодуванні символів

Кодові точки зазвичай використовуються в кодуванні символів, у якому кодова точка – це числове значення, яке відповідає певному символу. У кодуванні символів кодові точки зазвичай представляють одну графему — зазвичай літеру, цифру, знак пунктуації або пробіл, — але іноді представляють символи, керуючі символи або форматування. [6] Сукупність усіх можливих кодових точок у певному кодуванні символів становить кодовий простір цього кодування.[7] [8]

Наприклад, схема кодування символів ASCII містить 128 кодових точок у діапазоні від 0 hex до 7F hex, pозширений ASCII складається з 256 кодових точок у діапазоні від 0hhex до FFhex,[9] а Unicode містить 1,114,112 кодових точок у діапазоні від 0 hex до 10FFFF hex . Кодовий простір Unicode поділено на сімнадцять площ, кожна з яких містить 65,536 кодові точки. Таким чином, загальний розмір кодового простору Unicode становить 17×65,536=1,114,112. У T.35[10] Аргентина представлена кодовою точкою 0x07, Канада — 0x20, а Гамбія — 0x41 і так далі.

У Юнікоді

Для Unicode конкретна послідовність бітів називається кодовою одиницею – для кодування UCS-4 будь-яка кодова точка кодується як 4-байтові двійкові числа, тоді як у кодуванні UTF-8 різні кодові точки кодуються як послідовності від одного до чотирьох байтів, утворюючи код самосинхронізації. Кодові точки зазвичай призначаються абстрактним символам.

Абстрактний символ — це не графічний знак, а одиниця текстових даних. Однак кодові точки також можна залишити зарезервованими для майбутнього призначення.

Різниця між кодовою точкою та відповідним абстрактним символом не виражена в Unicode, але очевидна для багатьох інших схем кодування, де численні кодові сторінки можуть існувати для одного кодового простору. 

Історія

Концепція кодової точки належить до найперших стандартів обробки цифрової інформації та телекомунікацій.

У Unicode кодові точки - частина рішення складної головоломки, з якою зіткнулися розробники кодування символів у 1980-х роках. [11] Якщо вони збільшили б кількість бітів на символ для більших наборів символів, це рішення також ставало б марнуванням дефіцитних на той час обчислювальних ресурсів для користувачів латиниці, оскільки ці додаткові біти завжди зникали б для таких користувачів. [12] Кодова точка дає змогу уникнути цієї проблеми, руйнуючи стару ідею прямої однозначної відповідності між символами та певними послідовностями бітів.

Дивіться також

Список літератури

  1. Code point.
  2. Point code.
  3. ts (PDF).
  4. Brown, Ian; Carlberg, Ken; Beard, Cory (2005-11). Framework for Supporting Emergency Telecommunications Service (ETS) in IP Telephony. № RFC 4190. Процитовано 17 листопада 2024.
  5. T.35 : Procedure for the allocation of ITU-T defined codes for non-standard facilities.
  6. The Unicode® Standard Version 11.0 – Core Specification (PDF). Unicode Consortium. 30 червня 2018. с. 23. Архів оригіналу (PDF) за 19 вересня 2018. Процитовано 25 грудня 2018. Format: Invisible but affects neighboring characters; includes line/paragraph separators
  7. Unicode. Glossary of Unicode Terms. unicode.org. Процитовано 20 березня 2023.
  8. The Unicode® Standard Version 11.0 – Core Specification (PDF). Unicode Consortium. 30 червня 2018. с. 22. Архів оригіналу (PDF) за 19 вересня 2018. Процитовано 25 грудня 2018. On a computer, abstract characters are encoded internally as numbers. To create a complete character encoding, it is necessary to define the list of all characters to be encoded and to establish systematic rules for how the numbers represent the characters. The range of integers used to code the abstract characters is called the codespace. A particular integer in this set is called a code point. When an abstract character is mapped or assigned to a particular code point in the codespace, it is then referred to as an encodedcharacter.
  9. ASCII.
  10. T.35.
  11. Constable, Peter (13 червня 2001). Understanding Unicode™ - I. NRSI: Computers & Writing Systems. Архів оригіналу (html) за 16 вересня 2010. Процитовано 25 грудня 2018. By the early 1980s, the software industry was starting to recognise the need for a solution to the problems involved with using multiple character encoding standards. Some particularly innovative work was begun at Xerox. The Xerox Star workstation used a multi-byte encoding that allowed it to support a single character set with potentially millions of characters.
  12. Davis, Mark (23 березня 2001). Unicode Consortium. Unicode Consortium (англійською) . Архів оригіналу (html) за 25 серпня 2001. Процитовано 25 грудня 2018. 6.2 Large Weight Values

[1]

[2]

Зовнішні посилання

  1. Unicode Consortium.
  2. Unicode Collation Algorithm.