Big5Big5(ビッグファイブ、中国語名:大五碼あるいは五大碼)は、繁体字中国語の文字コード(文字集合)で、台湾・香港・マカオといった繁体字圏で最も一般的に使われている。 特徴1984年5月1日に台湾の資訊工業策進会(Institute for Information Industry)が制定したもので、「電腦用中文字型與字碼對照表」として発行したものである。5大パソコンメーカーであったエイサー(宏碁)、マイタック(神通)、佳佳、ゼロワン(零壱)、FIC(大衆)が共同で策定したことによりこの名がある。このオリジナルのBig5の文字セットは、後の拡張と対比してBig5-1984と呼ばれることがある。 ローマ字、アラビア数字、蘇州号碼、記号類、注音符号のほか、漢字1万3062字を収録するが、そのうち2字は重複しているため、実際の漢字の文字集合は1万3060字である[1]。台湾や香港、マカオなどの繁体字地域で普及しているが、MS-DOS時代の「中国語システム(中文系統)」、WindowsやMac OSといったオペレーティングシステムで採用されたことにより定着したデファクトスタンダードである。2003年にCNS 11643の附属書で追認され公的規格となった。 2バイトで約1万3000字を収容し、第一バイトは0xA1〜0xC6および0xC9〜0xF9、第二バイトは0x40〜0x7Eおよび0xA1〜0xFEの範囲をとる。大きく分けて、非漢字、常用漢字、次常用漢字の3つのブロックで構成され、漢字は総画数順、次いで部首順に配列されている。これはJIS X 0208やGB 2312の第2水準の「部首・画数順」とは逆になる。なお一部、重複している漢字や、配列の誤りがある。 符号空間がシフトJISと似ており、第二バイトに0x5Cが含まれるため、シフトJISの抱える円記号問題と同様の問題をも抱えている。ただし、シフトJISはJIS X 0208文字集合の符号化方式の一つであるのに対して、Big5は文字集合と符号化方式が一体化しており、通常これ以外の符号化方式で利用されない点が大きく異なる。 拡張Big5に対しては、これまでさまざまな拡張が行われている。代表的なものについて以下に挙げる。 民間の独自拡張民間の独自拡張としては、Windows 95以前に最も普及していた中国語システムである倚天中文系統のものが古くから知られている。「碁銹恒裏墻粧嫺」の7字(倚天拡張字)のほか、罫線素片やキリル文字、丸数字などが採用されている。また倚天の拡張には仮名が含まれ、Big5ベースのシステムで日本語を表現する方法として盛んに用いられた。この拡張は、時に「Big5-Eten」とも呼ばれ、独自拡張としては最も重要なものの一つといえる。 Microsoft Windowsで使われている繁体字文字集合である「コードページ950」は、オリジナルのBig5に、倚天拡張字7字と罫線素片を取り入れたものである。Windows MEからは、「€(ユーロ記号)」が追加された。 台湾の公的拡張
香港の公的拡張
注
参考資料
関連項目 |