非Unicode文字

非Unicode文字

[2] かつては Unicode 以外にも多くの文字コードがありましたが、 今ではすっかり Unicode ばかりになってしまいました。 古いデータも基本的にはUnicodeに置き換えて処理されることになっています。

[3] そんな今でも Unicode でない文字コードの世界が消えてなくなったわけではありません。

[1] 関連: 外字, Unicode非互換割当, フォント依存符号化

[4] かつての ISO/IEC 10646U+10FFFF の先にも符号位置が続いていました: [ U-110000, U-7FFFFFFF ]

[5] 実装によっては 0x80000000 以上符号位置も扱えます。 0x100000000 以上も扱えるものもあります。 UTF-8 も (標準仕様の範囲外ですが) 構造上それらの符号位置を記述可能です。

[6] 中華人民共和国法令で対応が義務付けられている GB 18030 は通常利用されるのは Unicode の範囲のみですが、 Unicode との対応関係が存在しない独自の未使用の符号が存在しています。

[7] 中華民国CNS 11643 にはたくさんの Unicode の標準的な符号位置との関係が存在しない (PUA と対応付けられている) 面区点位置が存在しますが、 それを遥かに上回る膨大な数の未使用の面区点位置が存在します。 行政上の必要に応じた手続きで随時文字が追加されています。

[8] 双漢代碼