Indische Schriften in Unicode

Die indischen Schriften in Unicode umfassen den indischen Schriftenkreis und damit nicht nur einen großen Teil der in Indien verwendeten Schriften, sondern auch weitere Schriften, die in Südostasien verwendet werden. Auch weitere indische Schriften, die nicht von der Brahmi-Schrift abstammen, sind in Unicode kodiert. Die korrekte Darstellung dieser Schriften erfordert teilweise komplexe Algorithmen, die durch einige Steuerzeichen beeinflusst werden können.

Gemeinsamkeiten

Die indischen Schriften gehören zur Klasse der Abugida, viele von ihnen haben einen sehr ähnlichen Aufbau. Konsonanten können in zwei Arten auftreten: Zum einen als lebendige Konsonanten, die einen Vokal tragen. Dies kann der inhärente Vokal sein, oder ein anderer, abhängiger Vokal. Zum anderen gibt es tote Konsonanten, die keinen Vokal tragen. Neben den abhängigen Vokalen gibt es auch eigenständige.

Ein Konsonant mit abhängigem Vokal kann auf verschiedene Weisen dargestellt werden. Im einfachsten Fall ergänzt das Vokalzeichen das Konsonantenzeichen vergleichbar zu Buchstaben mit diakritischen Zeichen. Das Vokalzeichen kann dabei an unterschiedlichen Positionen, auch vor dem Konsonant erscheinen. In einigen Fällen besteht das Vokalzeichen aus zwei getrennten Teilen. Auch ein eigenes Zeichen für die Kombination aus Konsonant und Vokalzeichen ist möglich.

Ein toter Konsonant kann ebenfalls auf mehrere Arten dargestellt werden. Häufig bildet er mit dem folgenden Konsonanten eine Ligatur. Eine weitere Möglichkeit besteht darin, ihn in der sogenannten Halbform darzustellen. Dies ist eine aus dem Konsonantenzeichen abgeleitete Form, die man als den Grundbestandteil ohne die visuelle Repräsentation des inhärenten Vokals interpretieren kann. Eine andere Möglichkeit ist es, den toten Konsonanten durch ein Virama genanntes Zusatzzeichen zu kennzeichnen.

Unicode kodiert für alle indischen Schriften getrennt folgende Zeichen: Konsonantenzeichen und eigenständige Vokalzeichen werden als gewöhnliche Zeichen kodiert, Zeichen für abhängige Vokale als kombinierende Zeichen. Ebenfalls als kombinierendes Zeichen wird das Virama kodiert, das einen Konsonanten als toten Konsonanten kennzeichnet. Damit ist nicht automatisch festgelegt, wie dieser darzustellen ist, insbesondere muss nicht jede Kombination aus Konsonant und Virama mit einem sichtbaren Virama dargestellt werden. Vielmehr gibt es für jede Sprache eine Reihe von Regeln, die festlegen, welche Folgen von toten und lebendigen Konsonanten auf welche Weise dargestellt werden soll. Für die korrekte Darstellung muss der eingesetzte Font also über die notwendigen Glyphen verfügen. Ein weiteres kombinierendes Zeichen ist das Nukta.

Um eine bestimmte Darstellung eines toten Konsonanten explizit auszuwählen, werden in Unicode die beiden Steuerzeichen ZWJ (Breitenloser Verbinder) und ZWNJ (breitenloser Nichtverbinder) verwendet. Folgt einem toten Konsonanten ein ZWJ, so wird dieser in der Halbform dargestellt, folgt ihm ein ZWNJ, so wird ein sichtbares Virama verwendet.

Unicode folgt damit dem indischen Standard ISCII-1988 sowohl im Prinzip der Kodierung als auch in der relativen Position der einzelnen Zeichen. Darüber hinaus kodiert Unicode aber noch weitere Zeichen, insbesondere Ziffern für die einzelnen Schriften.

Kodierte Schriften

Die folgenden indischen Schriften sind auch im Standard ISCII-1988 kodiert und folgen alle sehr eng den obigen Darstellungsregeln.

Schrift Unicodeblock
Devanagari Devanagari, Devanagari, erweitert, Vedische Erweiterungen
Bengalische Schrift Bengalisch
Gurmukhi-Schrift Gurmukhi
Gujarati-Schrift Gujarati
Oriya-Schrift Oriya
Tamilische Schrift Tamilisch
Telugu-Schrift Telugu
Kannada-Schrift Kannada
Malayalam-Schrift Malayalam

Die folgenden Schriften, die in Südasien verwendet werden oder wurden, stammen ebenfalls von der Brahmischrift ab, sind aber nicht im Standard ISCII-1988 kodiert und weichen in der Darstellung teilweise von den obigen Regeln ab.

Schrift Unicodeblock
Singhalesische Schrift Singhalesisch
Tibetische Schrift Tibetisch
Lepcha-Schrift Lepcha
Phagpa-Schrift Phagspa
Limbu-Schrift Limbu
Sylheti Nagari Syloti Nagri
Kaithi-Schrift Kaithi
Saurashtri-Schrift Saurashtra
Sharada-Schrift Sharada
Takri-Schrift Takri
Chakma-Schrift Chakma
Meitei-Mayek Meitei-Mayek, Meitei-Mayek, Erweiterungen
Sorang-Sompeng Sorang-Sompeng
Brahmi-Schrift Brahmi

Auch außerhalb von Südasien werden Schriften des indischen Schriftenkreises verwendet:

Schrift Unicodeblock
Thailändische Schrift Thailändisch
Laotische Schrift Laotisch
Birmanische Schrift Birmanisch, Birmanisch, erweitert-A, Birmanisch, erweitert-B
Khmer-Schrift Khmer, Khmer-Symbole
Lanna-Schrift Lanna
Cham-Schrift Cham
Baybayin Tagalog
Hanunó'o Hanunóo
Buid-Schrift Buid
Tagbanuwa-Schrift Tagbanuwa
Lontara Buginesisch
Balinesische Schrift Balinesisch
Javanische Schrift Javanisch
Rejang-Schrift Rejang
Batak-Schrift Batak
Sundanesische Schrift Sundanesisch, Sundanesisch, Ergänzung

Zwei indische Schriften fallen aus diesem Rahmen. Dies ist zum einen das im Unicodeblock Ol Chiki kodierte Ol Chiki, eine Alphabet-Schrift, und die im Unicodeblock Kharoshthi kodierte Kharoshthi-Schrift, die zwar wie die anderen Schriften eine Abugida-Schrift ist, aber von rechts nach links geschrieben wird.

Kritik

Die Unicode-Kodierung der Tamil-Schrift wurde von einigen Organisationen kritisiert, darunter auch die Regierung von Tamil Nadu. Stattdessen wurde mit TACE-16 eine alternative Kodierung vorgeschlagen, die die einzelnen Silben kodiert, statt Konsonanten und Vokalzeichen. Diese Kodierung erlaubt insbesondere eine korrekte Sortierung ohne Anwendung komplexer Algorithmen wie dem Unicode Collation Algorithm. Eine Änderung am Unicode-Standard wurde nicht durchgeführt, da dies den Stabilitätskriterien von Unicode widerspricht.[1]

Quellen

Einzelnachweise

  1. FAQ: Tamil Language and Script, abgerufen am 19. Februar 2013.