Нижні та верхні індекси Юнікоду

Різниця між надрядковим/підрядковим і гліфами чисельника/знаменника. У багатьох популярних шрифтах символи «верхнього і нижнього індексу» Unicode насправді є гліфами чисельника та знаменника.

Юнікод має версії ряду символів із підрядковим і верхнім індексами, включаючи повний набір арабських цифр[1]. Ці символи дозволяють будь-які поліноміальні, хімічні та деякі інші рівняння бути представлені у звичайному тексті без використання будь-якої форми розмітки, як-от HTML або TeX.

World Wide Web Consortium і Unicode Consortium дали рекомендації щодо вибору між використанням розмітки та використанням верхніх і нижніх індексів:

При використанні в математичному контексті (MathML) рекомендується послідовно використовувати розмітку стилю для верхніх і нижніх індексів…. Однак, коли верхній і нижній індекси повинні відображати семантичні відмінності, легше працювати з цими значеннями, закодованими в тексті, а не з розміткою, наприклад, у фонетичній або фонематичній транскрипції[2].

Використання

Передбачуваним використанням[2] коли ці символи були додані до Unicode, було дозволити хімічні та алгебрачні формули та фонетику записувати без розмітки, але створювати справжні верхні та нижні індекси. Таким чином, «H₂O» (з використанням нижнього індексу) має бути ідентичним «H₂O» (з нижньою розміткою).

Насправді більшість шрифтів, які містять ці символи, ігнорують визначення Юнікоду та розробляють цифри для математичних гліфів чисельника та знаменника[3][4], які менші за звичайні символи, але вирівнюються відповідно з верхньою лінією та базовою лінією. При використанні з солідусом ці гліфи корисні для створення довільних діагональних дробів (подібно до гліфа ½). Створення дробів за допомогою надрядкових/підрядкових індексів існуючого програмного забезпечення вимагає багато символів і не виглядає як відтворений дріб (приклад: 1/2), тому дизайнери шрифтів запропонували цю альтернативу. Це також робить верхній індекс корисним для порядкових індикаторів, точніше відповідаючи символам ª та º. Однак це робить їх неправильними для звичайних верхніх і нижніх індексів, і формули відображаються правильно за допомогою розмітки, а не цих символів.

Юнікод мав створювати діагональні дроби за допомогою іншого механізму, але він дуже погано підтримується. ТСлеш дробу U+2044 візуально схожий на солід, але коли він використовується зі звичайними цифрами (а не верхніми та нижніми індексами), він призначений для того, щоб повідомити системі компонування, що дріб, такий як ¾, має бути відтворено[5] за допомогою автоматичної заміни гліфів[a] для цифр. Деякі браузери підтримують це[b], але не для всіх шрифтів. Вибір шрифтів наведено в таблиці нижче.

Порівняння кодувань простих дробів
Символ Шифт Результат
U+00BD ½ ВУЛЬГАРНА ФРАКЦІЯ ОДНА ПОЛОВИНА За замовчуванням ½
U+00B9 ¹ НАДРЯДКОВИЙ ОДИН, U+002F / СОЛІДУС, U+2082 ПІДРЯДКОВИЙ ДВА ¹/₂
U+00B9 ¹ НАДРЯДКОВИЙ ОДИН, U+2044 СЛЕШ ДРОБУ, U+2082 ПІДРЯДКОВИЙ ДВА ¹⁄₂
U+0031 1 ЦИФРА ОДИН,
U+2044 СЛЕШ ДРОБУ,
U+0032 2 ЦИФРА ДВА
1⁄2
Arial 1⁄2
Cambria 1⁄2
Consolas 1⁄2
Times New Roman 1⁄2
FiraGO 1⁄2
EB Garamond 1⁄2
Cantarell 1⁄2
Lato 1⁄2
Linux Libertine O 1⁄2
Nimbus Roman 1⁄2
Ubuntu 1⁄2
Yrsa 1⁄2

Блок верхніх і нижніх індексів

Найпоширеніші цифри верхнього індексу (1, 2 і 3) були в ISO 8859-1 і тому були перенесені на ці позиції в діапазоні Latin-1 Unicode. Решта були розміщені у спеціальному розділі Юнікоду від U+2070 до U+209F. Дві таблиці нижче показують ці символи. Кожному верхньому або нижньому індексу передує звичайний x, щоб показати нижній/верхній індекс. Таблиця ліворуч містить фактичні символи Юнікоду; праворуч містить еквіваленти з використанням розмітки HTML для нижнього або верхнього індексу

.
Символи Юнікоду
0 1 2 3 4 5 6 7 8 9 A B C D E F
U+00Bx
U+207x x⁰ xⁱ x⁴ x⁵ x⁶ x⁷ x⁸ x⁹ x⁺ x⁻ x⁼ x⁽ x⁾ xⁿ
U+208x x₀ x₁ x₂ x₃ x₄ x₅ x₆ x₇ x₈ x₉ x₊ x₋ x₌ x₍ x₎
U+209x xₐ xₑ xₒ xₓ xₔ xₕ xₖ xₗ xₘ xₙ xₚ xₛ xₜ
Імітація за допомогою тегів <sup> або <sub>
0 1 2 3 4 5 6 7 8 9 A B C D E F
U+00Bx x2 x3 x1
U+207x x0 xi x4 x5 x6 x7 x8 x9 x+ x x= x( x) xn
U+208x x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 x+ x x= x( x)
U+209x xa xe xo xx xə xh xk xl xm xn xp xs xt
   Зарезервовано для майбутнього використання.
   Інші символи з Latin-1, не пов'язані з верхнім або підрядковим індексом.

Інші надрядкові та підрядкові символи

Юнікод версії 13.0 також містить символи нижнього та верхнього індексу, які призначені для семантичного використання, у таких блоках:[1][6]

Верхній індекс
  • Додатковий блок Latin-1 містить порядкові показники жіночого та чоловічого роду ª та º.
  • Блок Latin Extended-C містить один додатковий верхній індекс, ⱽ.
  • Латинський блок Extended-D містить п’ять верхніх індексів: ꝰ ꟸ ꟹ ꟲ ꟳ.
  • Латинський блок Extended-E містить п’ять верхніх індексів: ꭜ ꭝ ꭞ ꭟ ꭩ.
  • Латинський блок Extended-F повністю складається з верхніх індексів.
  • У блоці літер-модифікаторів інтервалів є літери та символи з верхнім індексом, які використовуються для фонетичної транскрипції: ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ˀ ˁ ˠ ˡ ˢ ˣ ˤ.
  • Блок фонетичних розширень має кілька суперскриптованих букв і символів: латинська/ipa ᴬ ᴮ ᴯ ᴰ ᴱ ᴲ ᴳ ᴴ ᴵ ᴶ ᴸ ᴹ ᴺ ᴻ ᴼ ᴽ ᴾ ᵀ ᵁ ᵃ ᵄ ᵅ ᵆ ᵇ ᵈ ᵉ ᵊ ᵌ ᵏ ᵐ ᵐ ᵐ ᵈ ᵉ ᵋ ᵍ ᵏ ᵐ ᵐ ᵐ ᵐ ᵐ ᵐ ᵐ ᵐ ᵐ ᵑ ᵒ ᵓ ᵖ ᵗ ᵘ ᵚ ᵛ, грецька ᵝ ᵞ ᵟ ᵠ, кирилиця ᵸ, інші ᵎ ᵔ ᵕ ᵙ ᵜ. Вони призначені для позначення вторинної артикуляції.
  • Додатковий блок фонетичних розширень має ще кілька:: латинська/ipa ᶛ ᶜ ᶝ ᶞ ᶟ ᶠ ᶡ ᶢ ᶣ ᶤ ᶥ ᶦ ᶧ ᶨ ᶩ ᶪ ᶫ ᶬ ᶭ ᶮ ᶯ ᶰ ᶱ ᶲ ᶳ ᶴ ᶵ ᶶ ᶷ ᶸ ᶹ ᶺ ᶻ ᶼ ᶽ ᶾ, грецька ᶿ.
  • Розширений кириличний блок B містить два кириличні верхні індекси: ꚜ ꚝ.
  • Грузинський блок містить одну літеру Мхедрулі з верхнім індексом: ჼ.
  • Блок Kanbun містить символи анотації з верхнім індексом, які використовуються в японських копіях класичних китайських текстів: ㆒ ㆓ ㆔ ㆕ ㆖ ㆗ ㆘ ㆙ ㆚ ㆛ ㆜ ㆝ ㆞ ㆟.
  • Блок Tifinagh має одну надрядкову літеру: ⵯ.
  • Уніфікована складова мова канадських аборигенів та її розширені блоки містять кілька літер, які здебільшого складаються лише з приголосних, для позначення коду складу, що називається фіналами, а також деякі символи, які вказують на середній склад, відомий як медіали:: Основний блок ᐜ ᐝ ᐞ ᐟ ᐠ ᐡ ᐢ ᐣ ᐤ ᐥ ᐦ ᐧ ᐨ ᐩ ᐪ ᑉ ᑊ ᑋ ᒃ ᒄ ᒡ ᒢ ᒻ ᒼ ᒽ ᒾ ᓐ ᓑ ᓒ ᓪ ᓫ ᔅ ᔆ ᔇ ᔈ ᔉ ᔊ ᔋ ᔥ ᔾ ᔿ ᕀ ᕁ ᕐ ᕑ ᕝ ᕪ ᕻ ᕯ ᕽ ᖅ ᖕ ᖖ ᖟ ᖦ ᖮ ᗮ ᘁ ᙆ ᙇ ᙚ ᙾ ᙿ; Розширений блок: ᣔ ᣕ ᣖ ᣗ ᣘ ᣙ ᣚ ᣛ ᣜ ᣝ ᣞ ᣟ ᣳ ᣴ ᣵ.
Комбінування верхнього індексу
  • Комбінований блок діакритичних знаків містить середньовічні діакритичні знаки верхнього індексу. Ці літери написані безпосередньо над іншими літерами, які зустрічаються в середньовічних германських рукописах, тому ці гліфи не містять пробілів, наприклад uͤ. Вони показані тут над заповнювачем із пунктирним колом ◌: ◌ͣ ◌ͤ ◌ͥ ◌ͦ ◌ͧ ◌ͨ ◌ͩ ◌ͪ ◌ͫ ◌ͬ ◌ͭ ◌ͮ ◌ͯ.
  • Комбінований розширений блок діакритичних знаків містить дві комбіновані літери для лінгвістичної транскрипції шотландської мови: ◌ᪿ ◌ᫀ.
  • Блок додатків із комбінованими діакритичними знаками містить додаткові середньовічні діакритичні знаки верхнього індексу, достатні для завершення базового малого регістру латинського алфавіту, за винятком j, q та y, кількох малих великих і лігатур (ae, ao, av), а також додаткові літери: ◌ᷓ ◌ᷔ ◌ᷕ ◌ᷖ ◌ᷗ ◌ᷘ ◌ᷙ ◌ᷚ ◌ᷛ ◌ᷜ ◌ᷝ ◌ᷞ ◌ᷟ ◌ᷠ ◌ᷡ ◌ᷢ ◌ᷣ ◌ᷤ ◌ᷥ ◌ᷦ ◌ᷧ ◌ᷨ ◌ᷩ ◌ᷪ ◌ᷫ ◌ᷬ ◌ᷭ ◌ᷮ ◌ᷯ ◌ᷰ ◌ᷱ ◌ᷲ ◌ᷳ ◌ᷴ.
  • Блоки кирилиці Extended-A і -B містять кілька середньовічних діакритичних літер верхнього індексу, достатніх для завершення базового малого кириличного алфавіту, який використовується в церковнослов’янських текстах, також включає додаткову лігатуру: ◌ⷠ ◌ⷡ ◌ⷢ ◌ⷣ ◌ⷤ ◌ⷥ ◌ⷦ ◌ⷧ ◌ⷨ ◌ⷩ ◌ⷪ ◌ⷫ ◌ⷬ ◌ⷭ ◌ⷮ ◌ⷯ ◌ⷰ ◌ⷱ ◌ⷲ ◌ⷳ ◌ⷴ ◌ⷵ ◌ⷶ ◌ⷷ ◌ⷸ ◌ⷹ ◌ⷺ ◌ⷻ ◌ⷼ ◌ⷽ ◌ⷾ ◌ⷿ ◌ꙴ ◌ꙵ ◌ꙶ ◌ꙷ ◌ꙸ ◌ꙹ ◌ꙺ ◌ꙻ ◌ꚞ ◌ꚟ.
Підрядковий
  • Латинський блок Extended-C містить один додатковий індекс ⱼ.
  • Блок фонетичних розширень містить кілька підписаних літер і символів: латиниця/IPA ᵢ ᵣ ᵤ ᵥ та грецька ᵦ ᵧ ᵨ ᵩ ᵪ.
Об'єднання нижнього індексу
  • Блок доповнення до діакритичних знаків містить комбінований нижній індекс: ◌᷊.

Латинські, грецькі та кириличні таблиці

Консолідований стандарт Юнікод містить версії верхнього та нижнього індексів підмножини латинських, грецьких і кириличних літер. Тут вони розташовані в алфавітному порядку для порівняння (або для зручності копіювання та вставлення). Оскільки ці символи відображаються в різних діапазонах Юнікоду, вони можуть не мати однакового розміру чи позиції через заміну шрифту в браузері. Затінені клітинки позначають малі великі літери, які не дуже відрізняються від мінускул, і грецькі літери, які неможливо відрізнити від латинських, і тому не очікується, що вони будуть підтримуватися Юнікодом.

Латинські надрядкові та підрядкові літери
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Верхній індекс великий ᴿ
Верхній індекс маленький 𐞄 𐞒 𐞖 𐞪 𐞲
Верхній індекс мінускул ʰ ʲ ˡ 𐞥 ʳ ˢ ʷ ˣ ʸ
Верхній індекс маленький ◌ᷛ ◌ᷞ ◌ᷟ ◌ᷡ ◌ᷢ
Надрядковий мініскул ◌ͣ ◌ᷨ ◌ͨ ◌ͩ ◌ͤ ◌ᷫ ◌ᷚ ◌ͪ ◌ͥ ◌ᷜ ◌ᷝ ◌ͫ ◌ᷠ ◌ͦ ◌ᷮ ◌ͬ ◌ᷤ ◌ͭ ◌ͧ ◌ͮ ◌ᷱ ◌ͯ ◌ᷦ
Підрядковий мінус
Підрядковий мінус ◌᷊ ◌ᪿ
Грецькі надрядкові та підрядкові літери
Α Β Γ Δ Ε Ζ Η Θ І Κ Λ Μ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω
Верхній індекс мінускул ⁽ᵋ⁾ ᶿ ⁽ᶥ⁾ ⁽ᶹ⁾
Надрядковий мініскул ◌ᷩ
Підрядковий мінус
Надрядкові та підрядкові літери МПА
ɑ æ ç ð ə ʃ ʍ ʔ
Верхній індекс Дивіться надрядкові літери IPA
Надпис ◌ᷧ ◌ᷔ ◌ᷗ ◌ᷙ ◌ᷪ ◌ᷯ ◌̉
Підрядковий
Нижній індекс ◌ᫀ

(Верхній індекс ɩ ᶅ ƫ ɷ, які більше не є IPA, є ⟨ᶥ ᶪ ᶵ 𐞤⟩.)

Надрядкові та підрядкові літери кирилиці
А Ә Б В Г Ґ Д Е Є Ж З Ѕ И І Ї Ј К Л М Н О Ө П Р С Ҫ
Верхній індекс 𞀰 𞁋 𞀱 𞀲 𞀳 𞀴 𞀵 𞀶 𞀷 𞁊 𞀸 𞁌 𞁍 𞀹 𞀺 𞀻 𞀼 𞁎 𞀽 𞀾 𞀿 𞁫
Надпис ◌ⷶ ◌ⷠ ◌ⷡ ◌ⷢ ◌ⷣ ◌ⷷ ◌ꙴ ◌ⷤ ◌ⷥ ◌ꙵ ◌𞂏 ◌ꙶ ◌ⷦ ◌ⷧ ◌ⷨ ◌ⷩ ◌ⷪ ◌ⷫ ◌ⷬ ◌ⷭ
Підрядковий 𞁑 𞁒 𞁓 𞁔 𞁧 𞁕 𞁖 𞁗 𞁘 𞁩 𞁙 𞁨 𞁚 𞁛 𞁜 𞁝 𞁞
Т У Ү Ұ Ф Х Ѡ Ц Ч Џ Ш Щ Ъ Ы Ь Ѣ Э Ю Ѥ Ѧ Ѫ Ѭ Ѳ Ӏ
Верхній індекс 𞁀 𞁁 𞁏 𞁭 𞁂 𞁃 𞁄 𞁅 𞁆 𞁬 𞁇 𞁈 𞁉 𞁐
Надпис ◌ⷮ ◌ꙷ ◌ⷹ ◌ꚞ ◌ⷯ ◌ꙻ ◌ⷰ ◌ⷱ ◌ⷲ ◌ⷳ ◌ꙸ ◌ꙹ ◌ꙺ ◌ⷺ ◌ⷻ ◌ⷼ ◌ꚟ ◌ⷽ ◌ⷾ ◌ⷿ ◌ⷴ
Підрядковий 𞁟 𞁠 𞁡 𞁢 𞁣 𞁪 𞁤 𞁥 𞁦

Багато з цих символів були опубліковані в Unicode 15 у 2022 році.[7]

Складені символи

Перш за все для сумісності з попередніми наборами символів, Юнікод містить ряд символів, які утворюють верхній та нижній індекси з іншими символами[1]. У більшості шрифтів вони відображаються набагато краще, ніж спроби створити ці символи з наведених вище символів або за допомогою розмітки.

  • Додатковий блок Latin-1 містить попередньо складені дроби ½, ¼ та ¾. У цьому блоці також є знаки авторського права © та зареєстрованих торгових марок ®.
  • Блок загальної пунктуації містить знак проміле ‰ і знак десятитисячного ‱, а базова латиниця має знак відсотка %.
  • Блок форм чисел містить кілька попередньо складених дробів:: ⅐ ⅑ ⅒ ⅓ ⅔ ⅕ ⅖ ⅗ ⅘ ⅙ ⅚ ⅛ ⅜ ⅝ ⅞ ⅟ ↉.
  • Блок буквоподібних символів містить кілька символів, що складаються з нижніх і верхніх індексів: ℀ ℁ ℅ ℆ № ℠ ™ ⅍.
  • Закритий буквено-цифровий додатковий блок містить три надрядкові абревіатури 🅪 🅫 🅬: MC для marque de commerce (торговельна марка), MD for marque déposée (зареєстрована торгова марка), обидва використовуються в Канаді; MR для marca registrada (registered trademark) в іспаномовних та португаломовних країнах[8].
  • Блок «Різні технічні відомості» має один додатковий індекс, нижній індекс 10 (⏨), для цілей наукового позначення.
  • Уніфікована силабіка канадських аборигенів та її розширені блоки містять кілька літер, складених із літерами надрядкових знаків для позначення розширених звукових значень: Основний блок ᐂ ᐫ ᐬ ᐭ ᐮ ᐰ ᑍ ᑧ ᑨ ᑩ ᑪ ᑬ ᒅ ᒆ ᒇ ᒈ ᒊ ᒤ ᓁ ᓔ ᓮ ᔌ ᔍ ᔎ ᔏ ᔧ ᕅ ᕔ ᕿ ᖀ ᖁ ᖂ ᖃ ᖄ ᖎ ᖏ ᖐ ᖑ ᖒ ᖓ ᖔ ᙯ ᙰ ᙱ ᙲ ᙳ ᙴ ᙵ ᙶ, Розширений блок ᢰ ᢱ ᢲ ᢳ ᢴ ᢵ ᢶ ᢷ ᢸ ᢹ ᢺ ᢻ ᢼ ᢽ ᢾ ᢿ ᣀ ᣁ ᣂ ᣃ ᣄ ᣅ.

Примітки

  1. Щоб отримати загальний огляд і технічну інформацію про заміну гліфів (хоча не спеціально для дробів): GSUB — Таблиця заміни гліфів у Специфікація OpenType на сайті Microsoft Typography.
  2. Наприклад, Chrome у Windows, Firefox[відсутнє в джерелі]

Примітки

  1. а б в UCD: UnicodeData.txt. The Unicode Standard. Процитовано 14 травня 2016.
  2. а б Martin Dürst, Asmus Freytag (16 травня 2007). Unicode in XML and other Markup Languages. W3C. Процитовано 13 вересня 2010.
  3. fraction | Dart Package. Dart packages (амер.). 27 грудня 2021. Процитовано 13 січня 2022.
  4. MathML | General layout elements | Fractions. data2type GmbH (de-DE) . 30 березня 2021. Процитовано 13 січня 2022.{{cite web}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
  5. Martin Dürst, Asmus Freytag (16 травня 2007). Fraction Slash. W3C. Процитовано 13 вересня 2010.
  6. UCD: Scripts.txt. The Unicode Standard. Процитовано 17 березня 2020.
  7. [1]
  8. Silva, Eduardo Marín (1 березня 2017). L2/17-066R: Proposal to encode the Marca Registrada sign (PDF).