de Indische Schriften in Unicode

Die indischen Schriften in Unicode umfassen den indischen Schriftenkreis und damit nicht nur einen großen Teil der in Indien verwendeten Schriften, sondern auch weitere Schriften, die in Südostasien verwendet werden. Auch weitere indische Schriften, die nicht von der Brahmi-Schrift abstammen, sind in Unicode kodiert. Die korrekte Darstellung dieser Schriften erfordert teilweise komplexe Algorithmen, die durch einige Steuerzeichen beeinflusst werden können.

Gemeinsamkeiten

Die indischen Schriften gehören zur Klasse der Abugida, viele von ihnen haben einen sehr ähnlichen Aufbau. Konsonanten können in zwei Arten auftreten: Zum einen als lebendige Konsonanten, die einen Vokal tragen. Dies kann der inhärente Vokal sein, oder ein anderer, abhängiger Vokal. Zum anderen gibt es tote Konsonanten, die keinen Vokal tragen. Neben den abhängigen Vokalen gibt es auch eigenständige.

Ein Konsonant mit abhängigem Vokal kann auf verschiedene Weisen dargestellt werden. Im einfachsten Fall ergänzt das Vokalzeichen das Konsonantenzeichen vergleichbar zu Buchstaben mit diakritischen Zeichen. Das Vokalzeichen kann dabei an unterschiedlichen Positionen, auch vor dem Konsonant erscheinen. In einigen Fällen besteht das Vokalzeichen aus zwei getrennten Teilen. Auch ein eigenes Zeichen für die Kombination aus Konsonant und Vokalzeichen ist möglich.

Ein toter Konsonant kann ebenfalls auf mehrere Arten dargestellt werden. Häufig bildet er mit dem folgenden Konsonanten eine Ligatur. Eine weitere Möglichkeit besteht darin, ihn in der sogenannten Halbform darzustellen. Dies ist eine aus dem Konsonantenzeichen abgeleitete Form, die man als den Grundbestandteil ohne die visuelle Repräsentation des inhärenten Vokals interpretieren kann. Eine andere Möglichkeit ist es, den toten Konsonanten durch ein Virama genanntes Zusatzzeichen zu kennzeichnen.

Unicode kodiert für alle indischen Schriften getrennt folgende Zeichen: Konsonantenzeichen und eigenständige Vokalzeichen werden als gewöhnliche Zeichen kodiert, Zeichen für abhängige Vokale als kombinierende Zeichen. Ebenfalls als kombinierendes Zeichen wird das Virama kodiert, das einen Konsonanten als toten Konsonanten kennzeichnet. Damit ist nicht automatisch festgelegt, wie dieser darzustellen ist, insbesondere muss nicht jede Kombination aus Konsonant und Virama mit einem sichtbaren Virama dargestellt werden. Vielmehr gibt es für jede Sprache eine Reihe von Regeln, die festlegen, welche Folgen von toten und lebendigen Konsonanten auf welche Weise dargestellt werden soll. Für die korrekte Darstellung muss der eingesetzte Font also über die notwendigen Glyphen verfügen. Ein weiteres kombinierendes Zeichen ist das Nukta.

Um eine bestimmte Darstellung eines toten Konsonanten explizit auszuwählen, werden in Unicode die beiden Steuerzeichen ZWJ (Breitenloser Verbinder) und ZWNJ (breitenloser Nichtverbinder) verwendet. Folgt einem toten Konsonanten ein ZWJ, so wird dieser in der Halbform dargestellt, folgt ihm ein ZWNJ, so wird ein sichtbares Virama verwendet.

Unicode folgt damit dem indischen Standard ISCII-1988 sowohl im Prinzip der Kodierung als auch in der relativen Position der einzelnen Zeichen. Darüber hinaus kodiert Unicode aber noch weitere Zeichen, insbesondere Ziffern für die einzelnen Schriften.

Kodierte Schriften

Die folgenden indischen Schriften sind auch im Standard ISCII-1988 kodiert und folgen alle sehr eng den obigen Darstellungsregeln.

Schrift	Unicodeblock
Devanagari	Devanagari, Devanagari, erweitert, Vedische Erweiterungen
Bengalische Schrift	Bengalisch
Gurmukhi-Schrift	Gurmukhi
Gujarati-Schrift	Gujarati
Oriya-Schrift	Oriya
Tamilische Schrift	Tamilisch
Telugu-Schrift	Telugu
Kannada-Schrift	Kannada
Malayalam-Schrift	Malayalam

Die folgenden Schriften, die in Südasien verwendet werden oder wurden, stammen ebenfalls von der Brahmischrift ab, sind aber nicht im Standard ISCII-1988 kodiert und weichen in der Darstellung teilweise von den obigen Regeln ab.

Schrift	Unicodeblock
Singhalesische Schrift	Singhalesisch
Tibetische Schrift	Tibetisch
Lepcha-Schrift	Lepcha
Phagpa-Schrift	Phagspa
Limbu-Schrift	Limbu
Sylheti Nagari	Syloti Nagri
Kaithi-Schrift	Kaithi
Saurashtri-Schrift	Saurashtra
Sharada-Schrift	Sharada
Takri-Schrift	Takri
Chakma-Schrift	Chakma
Meitei-Mayek	Meitei-Mayek, Meitei-Mayek, Erweiterungen
Sorang-Sompeng	Sorang-Sompeng
Brahmi-Schrift	Brahmi

Auch außerhalb von Südasien werden Schriften des indischen Schriftenkreises verwendet:

Schrift	Unicodeblock
Thailändische Schrift	Thailändisch
Laotische Schrift	Laotisch
Birmanische Schrift	Birmanisch, Birmanisch, erweitert-A, Birmanisch, erweitert-B
Khmer-Schrift	Khmer, Khmer-Symbole
Lanna-Schrift	Lanna
Cham-Schrift	Cham
Baybayin	Tagalog
Hanunó'o	Hanunóo
Buid-Schrift	Buid
Tagbanuwa-Schrift	Tagbanuwa
Lontara	Buginesisch
Balinesische Schrift	Balinesisch
Javanische Schrift	Javanisch
Rejang-Schrift	Rejang
Batak-Schrift	Batak
Sundanesische Schrift	Sundanesisch, Sundanesisch, Ergänzung

Zwei indische Schriften fallen aus diesem Rahmen. Dies ist zum einen das im Unicodeblock Ol Chiki kodierte Ol Chiki, eine Alphabet-Schrift, und die im Unicodeblock Kharoshthi kodierte Kharoshthi-Schrift, die zwar wie die anderen Schriften eine Abugida-Schrift ist, aber von rechts nach links geschrieben wird.

Kritik

Die Unicode-Kodierung der Tamil-Schrift wurde von einigen Organisationen kritisiert, darunter auch die Regierung von Tamil Nadu. Stattdessen wurde mit TACE-16 eine alternative Kodierung vorgeschlagen, die die einzelnen Silben kodiert, statt Konsonanten und Vokalzeichen. Diese Kodierung erlaubt insbesondere eine korrekte Sortierung ohne Anwendung komplexer Algorithmen wie dem Unicode Collation Algorithm. Eine Änderung am Unicode-Standard wurde nicht durchgeführt, da dies den Stabilitätskriterien von Unicode widerspricht.^[1]

Quellen

Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 9: South Asian Scripts-I (PDF; 2,0 MB), Chapter 10: South Asian Scripts-II (PDF; 724 kB), Chapter 11: Southeast Asian Scripts (PDF; 674 kB).

Einzelnachweise

↑ FAQ: Tamil Language and Script, abgerufen am 19. Februar 2013.

Weblinks

FAQ: Indic Scripts and Languages (englisch)
Richard Ishida: An Introduction to Indic Scripts (englisch; PDF; 340 kB)

[1] FAQ: Tamil Language and Script, abgerufen am 19. Februar 2013.

[1]