Unicode符号空間

[1] Unicode の符号空間の利用についてです。

仕様書

[36] The Unicode Standard, Version 13.0 - ch02.pdf, 2020-03-09T17:53:32.000Z, 2020-12-20T08:35:03.323Z https://www.unicode.org/versions/latest/ch02.pdf#G25564
[37] The Unicode Standard, Version 13.0 - ch03.pdf, 2020-03-09T17:53:34.000Z, 2020-12-20T02:08:18.239Z https://www.unicode.org/versions/latest/ch03.pdf#G2212

Unicode 符号空間

[38] 符号空間 (codespace) は、抽象文字を符号化するための整数の範囲です。 >>36

[39] Unicode符号空間 (codespace) は、 [ 0, 0x10FFFF ] の範囲の整数です。 >>37 D9

[40] Unicode符号空間上の値を符号点、符号位置といいます。

[41] Unicode符号空間中のいくつかの重ならない範囲には、ブロックとして名前が与えられています。

符号空間の構造

[17] Unicode は [ 0, 0x10FFFF ] の整数を符号位置とし、これに符号化文字を割り当てる方式としています。

[18] つまり Unicode の符号空間は 0x10FFFF 以下の非負整数の1次元です。

[19] ここで、

2²⁰ - 1 < 0x10FFFF < 2²¹ - 1

です。すなわち21ビットあれば符号位置を相互に区別できます。そこで Unicode は21ビットの符号と言われるわけです。

[22] ただし [ 0x110000, 2²¹ - 1 ] は Unicode では使われていないことには注意が必要です。 Unicode は21ビットの符号とはいいつつ、21ビットをすべて使っている符号ではないわけです。

[23] Unicode は符号位置を整数で表せる単純な構造をしていますが、これが他の符号化文字集合と比べて単純だ、複雑だと簡単に比較できるものではないことには注意が必要です。

[24] 整数1つで表せるのは符号位置であり、符号位置に割り当てられた文字です。しかし、ここでいう文字とは「Unicode が文字と考えたもの」です。「他の符号化文字集合が文字と考えたもの」「一般人が文字と言われて思い浮かべるもの」「文字学の専門家が文字として扱うもの」とは必ずしも一致しません。定義が異なるものを単純、複雑と比較しても正確ではありません。

[25] 他の符号化文字集合では文字が1つで表せるものが、 Unicode では複数のUnicode文字を並べることで表される場合があります。 Unicode の符号空間は単純な構造だとしても、その単純な構造の要素である Unicode文字を実用するときは複雑に組み合わせなければならない場合があるのです。

[26] 文字表現モデルのどの部分で切り取るか次第で、「Unicode は可変長の整数の列で表す複雑な符号空間を持つ」とも言い表せるわけです。

Unicode文字, 結合文字, 書記素クラスター, 国旗絵文字, タグ文字, shaping, 文字のレンダリング, VS

[48] 国旗絵文字は、2つのUnicode文字を組合せて1つの国旗を表します。「Unicode が数値1つで1つの文字を表す単純な構造」というときの「数値1つ」は国旗の片割れであり、人間が認識する「文字」ではない、意味のない何かでしかありません。

符号位置

Unicode 符号化文字集合

[46] Unicode には色々な文字が収録されています。

[57] Unicode は世界中の文字を収録しているとよくいわれますが、含まれないものも多いです。外字

[84] Roadmaps to Unicode® に将来構想があります。

字形

代表字形

Unicode非互換割当

[66] 相互運用性の問題は個々にいろいろありますが、文字の割当のレベルでもいろいろあります。

[67] Unicode 符号化文字集合の相互運用性

Unicode の非互換変更
- Unicode 1.0
- Korean mess ([ U+3400, U+4DFF ] / [ U+AC00, U+D7A3 ])
- phi mess
- Unicodeビルマ文字
私用が認められた事例
暫定的な (勝手な) 割当がそのまま使われる事例
- V+
  - TCVN 5773 ([ U+A000, U+A6EE ])
  - 字喃 ([ U+60000, U+63FFF ])
- JIS X 0213:2000 カッコ付きUCS (非漢字, [ U+AA00, U+ABFF ], CJK互換漢字)
- 住基ネット統一文字 J+ (カッコ付きUCS, [ U+AC00, U+D7A3 ])
- 未成IVC
- 注音IVS字型規格
- Unicodeエチオピア文字
GB 18030-2022 改正案 (第10面)
DVB-HTML
GSCII zone
Unicode zone 追加文字
Unicodeギリシャ文字
Unicodeジョージア文字
Zawgyi
ISO/IEC 646の版
フォント依存符号化

[68] 初期 Unicode では O-zone [ U+A000, U+DFFF ] が未使用のまま空いていたので、都合よく使えそうな領域として狙われていたのですね。

[69] 00162 | ⿰亻庚 | WS2021v5.0, 2023-07-13T07:51:18.000Z https://hc.jsecs.org/irg/ws2021/app/?id=00162

This character is also needed as the personal name character in ROK, which is included in one modern internal system in ROK as U+A0100.

[70] >>69 「one modern internal system in ROK」というのが何かわからないが (名前を出していないのは非公開だから?)、 GB 18030 以外にも空き領域を勝手に使っているシステムが動いてるということか。同じサイトでこの文言で検索するといくつか出てくるが、他の例は U+Fhhhh。

[78] >>77 に示された

Character code system used by the Supreme Court of South Korea (as of 2023-02-01) 韓國最高法院漢字系統用字

は A0000 - A02DA, F0000 - F34BD の文字を示しています。 Unicode符号位置だとすると後者は PUA ですが、前者は勝手割当でしょうか?

[79] ⿰亻庚: zi.tools, 2024-09-18T03:28:40.000Z https://zi.tools/zi/%E2%BF%B0%E4%BA%BB%E5%BA%9A?secondary=character_set&set=K%E6%B3%95%E9%99%A2

[80] そしてその >>78 に含まれる文字の1つ、 A0100 >>79 がまさに >>69 ですね。

[71] GJKV 全部勝手に使ってて草、T もそういうのやってるんか?

[44] Unicode/Last at main · MY1L/Unicode · GitHub, 2026-02-03T08:11:52.000Z https://github.com/MY1L/Unicode/tree/main/Last#user-content-%E4%B8%80%E8%A7%88

[45] >>44 は実字形のフォントではなく、実フォントがないときに使われる代替字形を収めたフォントですが、 0xA 面の領域には GB 18030 案の独自の漢字割当に基づく字形が割り当てられています。

[49] PUA には単独の文字 (基底文字) の他に、他の文字との組合せで機能する文字や文字のようなものが割り当てられることもあります。 PUA, 結合文字, VS, サロゲート

制御文字

[11] Unicode はそれ自身が規定しない C0 や C1 の制御文字を使えると定めています。制御文字

[12] Unicode では ISO/IEC 2022 エスケープシーケンスや ISO/IEC 6429 制御機能も使えます。ただし Unicode ではこれらは符号構造に組み込まれたものではなく Unicode文字の列に過ぎないという解釈を採用しています。制御文字

サロゲート

[10] サロゲート符号位置は UTF-16 の符号単位としてのみ使うことができ、 Unicode文字列には出現することはない、というのが原則ですが、実際にはしばしば紛れ込みます。サロゲート, WTF-16, DOMString

[33] 内部処理のため、本来のサロゲートペアとしての利用以外の目的で使われる事例もあります。サロゲート

独自式サロゲート

[47] Unicode のサロゲート符号位置の他に、 PUA の独自の符号位置のサロゲート類似機構の事例もあります。

[13] Shift-Mojikyo は PUA の符号位置を2つ組合せて文字の領域を創出しています。

[28] 独自 VS はやっていることは似ていますが、考え方が違います。 VS

`U+10FFFF` の先

[2] [ U-00110000, U-7FFFFFF ] はかつて ISO/IEC 10646 で普通に存在していましたが、 Unicode が U+10FFFF までとしたために、 ISO/IEC 10646 からもこの領域は削除されてしまいました。

[4] UCS-4, UTF-1, UTF-8 (当初仕様) などで符号化できます。

[3] 削除以前からの実装などはこの領域に対応していることがあります。

[5] 当時はこの領域の中に私用の領域がありました。それを使っていた実装もありました。 PUA

[7] Emacs は U-003FFFFF まで対応しています。 utf-8-emacs

[8] 文字列の内部の処理の一時的な符号や文字列に混在する文字以外のオブジェクトの位置の表現などで、 Unicode文字列の入出力に絶対に出現することがないこの領域が使われる場合があります。

[9] 非文字と似ていますが、非文字はこの用途には少なすぎることも多いです。

[32] i18n Arena internal encoding は独自の符号空間に UCS-2 と他の符号化文字集合を取り込んだ内部符号という建付けですが、 UCS-4 の私用域 (当時) に他の符号化文字集合を割り当てているとの見方もできます。

[42] 通信用語の基礎知識V6フォーマット >>43 :

番号はUnicodeで、0~7fffffffまでの範囲である。

[43] null, 2014-10-24T14:04:00.000Z, 2025-11-05T08:23:26.190Z https://www.wdic.org/file/dic6form.txt

`U-7FFFFFFF` の先

[15] UCS-4 は32ビット符号ですが、最上位1ビットを内部処理等のために使用しないことにしています。 mohta bit

[16] UTF-8 は符号構造上 U-7FFFFFFF よりも大きな値を表せるように自然に拡張できます。

[6] Perl の utf8 は上限がアーキテクチャー依存で、 U-FFFFFFFF より大きな値も扱えます。 >>27 use utf8

[35] UTF-128 は128ビット符号に拡張し IPv6アドレスと統合しています。

[29] UCS-X (UCS-∞) は無限大まで拡大しています。

[27] perlunicode - Unicode support in Perl - Perldoc Browser, 2025-09-17T13:35:30.000Z https://perldoc.perl.org/perlunicode#Beyond-Unicode-code-points

Unicode を取り込んだ符号

[30] Unicode の拡張とは逆に、 Unicode を使える符号は、符号空間を拡張して Unicode を取り込んだ巨大な符号空間を持つと理解できます。

ISO/IEC 2022

[31] Unicode の一部分だけ包含するものは除く。

[34] 双漢代碼は JIS X 0208 に Unicode を組合せたものですが、 Unicode とは別に MJ+ を追加しています。 (MJ+ は PUP を使っていますが、 MJ+ と MJ+ ではない PUP を共存させています。)

GB 18030

[14] GB 18030 は Unicode の全体を取り込んでいますが、それに加えて、符号構造上存在するものの Unicode符号位置との対応関係が定められていない領域があります。

[50] 一部は PUA として解放されており、残りは未利用のままとなっています。

Unicode非互換割当

Unicode符号空間

仕様書

Unicode 符号空間

符号空間の構造

符号位置

Unicode 符号化文字集合

字形

Unicode非互換割当

制御文字

サロゲート

独自式サロゲート

`U+10FFFF` の先

`U-7FFFFFFF` の先

Unicode を取り込んだ符号

GB 18030

関連

メモ

Unicode非互換割当

仕様書

Unicode 符号空間

符号空間の構造

符号位置

Unicode 符号化文字集合

字形

Unicode非互換割当

制御文字

サロゲート

独自式サロゲート

U+10FFFF の先

U-7FFFFFFF の先

Unicode を取り込んだ符号

GB 18030

関連

メモ

`U+10FFFF` の先

`U-7FFFFFFF` の先