非Unicode文字

[2] かつては Unicode 以外にも多くの文字コードがありましたが、今ではすっかり Unicode ばかりになってしまいました。古いデータも基本的にはUnicodeに置き換えて処理されることになっています。

[3] そんな今でも Unicode でない文字コードの世界が消えてなくなったわけではありません。

[5] 実装によっては 0x80000000 以上の符号位置も扱えます。 0x100000000 以上も扱えるものもあります。 UTF-8 も (標準仕様の範囲外ですが) 構造上それらの符号位置を記述可能です。 Unicodeの符号空間

[6] 中華人民共和国の法令で対応が義務付けられている GB 18030 は通常利用されるのは Unicode の範囲のみですが、 Unicode との対応関係が存在しない独自の未使用の符号が存在しています。

[7] 中華民国の CNS 11643 にはたくさんの Unicode の標準的な符号位置との関係が存在しない (PUA と対応付けられている) 面区点位置が存在しますが、それを遥かに上回る膨大な数の未使用の面区点位置が存在します。行政上の必要に応じた手続きで随時文字が追加されています。

[9] 制御機能は Unicode にありません。