異体選択子

[380] 基底文字に異 (い) 体 (たい) 選 (せん) 択 (たく) 子 (し) (variation selector) を組合せた異 (い) 体 (たい) 列 (れつ) (variation sequence) は、基底文字が表す字形を限定したものです。

[381] IVS は漢字を対象としたもの、 EVS は絵文字を対象としたもの、 SVS はその他のものです。

仕様書

意味

[31] Unicode文字は、いろいろなグリフによって表現 (represent) され得ます。ときにテキスト処理において文字を表現するのに使うグリフの集合を制限したり、変更したりする必要が生じることがあります。 >>30

[32] 通常それはリッチテキスト文書でフォントやスタイルを選ぶことで示します。しかし特殊な状況 (※ >>382) では、そうした通常の見た目 (appearance) の範囲との違い (variation) を、平文で書式付きテキストを交換するのが不可能か不便であるとしても、同じ文書に並べて表現する必要があったりもします。 >>30

[33] 例えばモンゴル文字を使う言語では、特定のテキスト的な目的 (textual purpose) のため「汎用 (generic) 」のグリフ群の範囲では不適切と考えられるときに、特定の異体 (variant) のグリフ群の範囲が必要となる場合があります。 >>30

[34] そこで異体選択子は特定の文字の表現に使うグリフの集合に対して制限を指定する仕組みを提供するのであります。 >>30

[35] 加えて、異体選択子は、 CJK漢字やモンゴル文字におけるような、本質的 (essentially) に同じ (same) 意味 (semantics) を持ちながら実質的 (substantially) に違ったグリフの範囲を持った、異体 (variant) を指定する仕組みを提供するのであります。 >>30

[36] つまるところ、異体選択子は、 Unicode が過剰に統合 (unify) して 1つの文字として扱っているものを、より細かく区別して扱うための救済措置的に使えるものとなっています。

[382] なお Unicode のいう「特殊な状況」とは、 Unicode の世界観で「特殊」とされるものです。それは世界各地の一般の人々の文字生活上「特殊」とは限りません。

[383] 例えば少なくない日本人が、自分の名前の通常の表記のために IVS を必要としています。

[37] Unicode文字が必ずしも一般に認識される「文字」と一致しない Unicode文字のと同じように、異体選択子が扱うものは一般にいう「異体字」と必ずしも同じではありません。

[472] たまに文字コードや漢字をちょっと齧ったくらいの知識の人が、「新しい符号位置を追加しないで異体字セレクタで異体字を表現するべきだ」と主張することがあります。しかしほとんどの場合この主張は誤りで、その人が思っている「異体字」は Unicode の異体字セレクタが表現可能な「異体字」ではありません。意図的ではないにせよ「今の Unicode を破壊して自分の思う新しいアーキテクチャーを採用するべきだ」という主張になってしまっています。

なお>>90も参照。

[473] 例えば広と廣は Unicode ではまったく異なる符号位置が与えられた互いに独立した文字です。これらの一方を他方の異体字選択子で表すことはできません。

[125] ある文字のグリフ的 (てき) 部 (ぶ) 分 (ぶん) 集 (しゅう) 合 (ごう) (glyphic subset) とは、その文字の表示 (display) に適切なグリフ群の部分集合です。 >>19 符号点が文字を表すように、異体列はグリフ的部分集合を表すものです。このグリフ的部分集合という語はなぜか The Unicode Standard ではなく UTS #37 で定義され IVS の説明にしか使われていませんが、その定義された意味は他の異体列にもそのまま通用するはずです。

[204] 「グリフ」 (単数) ではなく「グリフ群」の集合と説明されていますが、蒙古文字のように文脈でグリフが変化する場合はもちろん、漢字のような文脈変化がない場合でも、特定フォントの特定グリフだけを指すような限定的な指定ではなく、もう少し広い範囲の「同じようなグリフ」を指しています。ただしその「同じような」の具体的範囲は定められていません。

[205] 異体列のグリフ的部分集合だけでなく、文字のグリフ群についても具体的範囲を Unicode は定めていません。むしろ逆に異体列が定義されて代表グリフが提示されることで、 Unicode文字の代表グリフ以外にもこんな字形までその Unicode文字の範囲に含まれていたのかと知ることができます。

[137] ある文字に関する各異体列のグリフ的部分集合は、互いに素とは限りません。このことは IVS について明記されています >>19 が、他の異体列についても同様です。 IVS でもそれ以外でも、代表グリフが同じように見えるものすら散見されます。

[87] 異体列は、元の Unicode文字の意味的範囲に含まれる字形のうちの一部分を表す、という立て付けで規定されています。元の Unicode文字と同じ意味の別の文字を指すものではありません。従って元の Unicode文字の範囲に含まれないと思われるような、著しく異なるものが異体列で表されることはありません。この設計ゆえに、異体選択子に未対応だとしても、基底文字だけを見て処理できるということになっています。

[88] そのため、異体の区別のためには、元のUnicode文字と異体列との区別では意味がなく、異体列と異体列との区別にしなければいけません。

[89] 「令」 c について「明朝体の令」と「楷書体の令」が異体選択子 v1, v2 で区別されるとするとき、 c と <c, v1> や c と <c, v2> の区別では意味がなく、 <c, v1> と <c, v2> で区別しなければなりません。

[90] かつては、異体字のために膨大な符号空間を占用されるのはけしからんから枝番形式にしろ、という主張をする人達もいたようです。 Unicode の異体選択子は、微小な違いを枝番形式で「節約」することにはなりますが、微小でない違いは別の Unicode文字を追加しないといけないのですから、「節約」にはなりません。

[91] 異体字を枝番方式で表せば、枝番部分を無視すれば簡単に曖昧検索できて便利だ、といわれていました。異体選択子にもそれは当てはまりますが、既に異なるUnicode文字として区別されている (または今後追加される)、違いの大きな異体字の同一視もしないといけないので、検索処理の効率化にはあまり貢献しません。

[390] 異体列として登録されたグリフ的部分集合と同じものを含む別のUnicode文字が後から追加されるというおかしなこともたまに起こっています。

[391] 例えば 2022-09-13 版の IVD >>377 は Unicode 15 によって新しく追加された CJK統合漢字 U+31350 用の IVS <U+31350, U+E0100> を追加しました。

[392] これは Adobe-Japan1 の CID+19130 を表すものでしたが、 CID+19130 には以前から <U+793A, U+E0100> が登録されていました。

[393] <U+31350, U+E0100> と <U+793A, U+E0100> は同じもの (Duplicate Sequence) として IVD_Stats.txt に示されています。

[92] Unicode文字 ⊃ 異体列という構造は Unicode のアーキテクチャ的にはそれでいいのでしょうが、実際の運用を思うと厄介なことも少なくありません。

例えばある文字 c の符号点がほとんどの場合その一般的な字形 v1 で表示されていて、たまに使われる異体 v2 と区別したいとき、確実に区別するなら <c, v1>, <c, v2> と書き分けなければなりません。

ですが、現実的にほとんどの場合 c が <c, v1> の意味で使われているのです。普通の人が普通の入力方法で作った文書には c と書かれているのに、それが通用しなくなるのは困りものです。

異体列

[39] 異体列 (いたいれつ) (variation sequence) は、 1つの基底文字または spacing mark (General_Category=Mc) に、 1つの異体選択子文字を続けたものです。これを基底文字または spacing mark の異体 (いたい) (variant) といいます。 >>30

[38] 異体列

|
1. 基底文字
2. Mc
異体選択子

[107] 異体選択子は、適用対象の直後に置きます。 >>105 結合文字や ZWJ や ZWNJ を間に挟むことはできません。

[110] 自由異体選択子の古い実装は、 ZWJ を併用する時、基底文字、 ZWJ, 自由異体選択子の順としていました。古い The Unicode Standard でないドキュメントがこの順としていたためだといいます。 >>105

[111] The Unicode Standard はこのことにわざわざ言及しているのですが、古めの実装がそうしている、と書いているだけで、新しい実装がどうするべきか明確にしていません。 SVS でないものは無視するべきとも書いているので、新しい実装はこの方法を採るべきではないと暗に示しているのでしょうか。しかし古い実装がこの方法を使っていて、この方法を使った文書が現に存在しているのだとすると、後方互換性のためこの方法も意図通りに解釈できるべきでしょう。

[47] 異体列には、 SVS, IVS, EVS の3種類があります。 >>30

被演算子

[196] 適用対象となる文字が、異体列の1文字目となります。 1文字目は基底文字か、 spacing mark です。

[40] 基底文字が使われることが多く、 spacing mark があまりありません >>30。そこで The Unicode Standard は、簡潔のため基底文字のみ記述するが spacing mark も同様である >>30、というやや曖昧な規定の方法を採っています。

[51] 異体列の最初の文字が、 nonspacing combining mark や正準分解可能文字になることは、ありません。これは、正規化文における異体列の解釈の問題を防ぐための制限です。 >>30

[203] IVS には更に互換分解可能文字でないこととの制約が付きます (>>50)。

[197] 異体選択子は必ず適用対象の直後に来るとされています。そのため基底文字に結合文字が続く列に異体選択子を適用することはできず、合成済文字に異体選択子を適用することもできません。

[198] 例えば「ざ」の異体を区別したくても、「ざ」 + 異体選択子とすることはできません。「ざ」は「さ」 + 結合文字の濁点と正準等価なので、「さ」 + 異体選択子 + 結合文字の濁点、と表現することになります。

[199] 変体仮名は現行仮名 + 異体選択子とすることが検討されたようですが、濁音、半濁音が複雑になることから別の文字とされたようです。 (字源も字形も違う仮名まで現行仮名と同じ文字の異体とみなすのは濫用がすぎると思われ、結果それで良かったのでしょうが。)

[511] 結合文字 (前進マークを除く。) に異体字選択子を適用することはできません。

[512] 例えば濁点の異体字を異体字選択子で記述することはできません。

異体選択子

[93] 異体選択子の符号点は3種類あります。

[8] U+180B MONGOLIAN FREE VARIATION SELECTOR ONE (FVS1), U+180C MONGOLIAN FREE VARIATION SELECTOR TWO (FVS2), U+180D MONGOLIAN FREE VARIATION SELECTOR THREE (FVS3), U+180F MONGOLIAN FREE VARIATION SELECTOR FOUR (FVS4)
- [95] Unicode 3.0 で追加
- [362] FVS4 は Unicode 14.0 で追加
- [96] 蒙古文字専用
[26] U+FE00 VS1 - U+FE0F
- [97] Unicode 3.2 で導入
- [98] SVS, EVS で使われる
[94] U+E0100 - U+E01EF VS256
- [99] Unicode 4.0 で導入
- [100] IVS で使われる

[7] Variation_Selector の一覧 https://chars.suikawiki.org/set/%24unicode%3AVariation_Selector
- [218] 自由異体選択子 https://chars.suikawiki.org/set/%24unicode%3Afree-variation-selectors
- [217] IVS に使われる異体選択子の一覧 https://chars.suikawiki.org/set/%24uts37%3Avariation-selectors

[101] 兼用でもいいはずなのに、なぜか VS の種類ごとに使い分けられています。既に種類ごとに違う方法で実装されてしまっていて、今更兼用にもできないみたいです >>363。

[102] Unicode 4.0 追加分は第14面にあって、 UTF-8 でも UTF-16 でも4バイトで表されます (それ以外の文字は、 UTF-8 で3バイト、 UTF-16 で2バイトです)。 Unicode 4.0 時点では BMP に押し込められるだけの空き領域があったはずですが... SIP の漢字の IVS だと UTF-8 でも UTF-16 でも1つ8バイトにもなってしまいます。

[103] Unicode で欧米以外の文字を使うという時点で、バイト数的な効率が悪いことはわかりきっているので、いまさら気にするなということかもしれませんが...

[104] それにしたって、いちばん需要が大きそうな漢字の IVS に使う異体選択子がいちばんバイト長が大きくなる冷遇ぶりw

[138] 違う基底文字に対して同じ異体選択子が適用可能だからといって、それによって表される異体の関係性が同じとは限りません。このことは IVS については明記されています >>19 が、他の異体列でも同様です。

[210] 例えばある文字に対して U+E0100 が2点しんにょうを表していても、他の文字に対して1点しんにょうを表しているかもしれませんし、さらに他の文字に対しては異体列が定義されていないかもしれません。

[363] Proposal to add MONGOLIAN FREE VARIATION SELECTOR FOUR - 20057-mongolian-fvs4.pdf, 2020-01-24T16:50:17.000Z, 2022-03-13T01:26:40.964Z https://www.unicode.org/L2/L2020/20057-mongolian-fvs4.pdf

[139] IVS に使える異体選択子は 240 個あります。 Unicode Consortium は、 240 以上の IVS の登録が必要となった時、新しい異体選択子を追加する >>19 とされています。

[194] それがどの程度現実性があるのか不明ですが、実装は既存の異体選択子だけと決め打ちにせず、将来の追加も想定しておく必要があるでしょう。

[400] ほかに、私用の異体字選択子がいくつか使われています (>>113)。

SVS

[48] 標準化済異体列 (ひょうじゅんかずみいたいれつ) (standardized variation sequence) (SVS) は、 UCD の StandardizedVariants.txt >>17 で定義されます。 >>30

[24] StandardizedVariants.txt にはコメントとして SVS をいくつかの種類に分けています >>17。それによると:

[73] Mathematical
[74] East Asian punctuation positional variants
[75] Myanmar
[76] Phags-pa
[77] Manichaean
[78] Mongolian
[79] CJK compatibility ideographs

... があります。 (今後他の種類が増えることもあるでしょう。)

[80] Manichaean と Mongolian は、適用される shaping environment が、 isolate, initial, medial, final のうち1つ以上のみに限定されるとあります。 >>17

[81] このうち Mongolian だけは、専用の自由異体選択子文字を使います。

[378] 書字方向との関係は縦書き字形参照。

蒙古文字自由異体選択子

[67] 蒙古文字の異体は、 SVS に分類されていますが、特別な扱いを受けています。蒙古文字用には特別な異体選択子が3つ用意されています (>>8) >>105。この異体選択子は蒙古文字だけに使われています。蒙古文字には他の異体選択子は使われていません。 (この原則が将来にわたって維持されるのかは不明。)

[106] この蒙古文字の自由異体選択子 (じゆういたいせんたくし) (free variation selector) は、機械的に決定できないグリフ形が必要な時 (例えば外来語 (foreign word) を書く時) に使います。 >>105

[109] 利用者は、レンダリングシステムが自動的に正しいグリフを選択できないときのみ、自由異体選択子を使うべき (should) です。 >>105

数学記号

[200] ちなみに Unicode には数学用と称して太字、フォント違いなどラテン文字のバリエーションが大量に、 ASCII文字とは別に用意されています。それらはなぜか異体列ではなく独立した文字となっています。ラテン文字

[201] 「数学用」という制限が守られるはずもなく、フォント指定機能がない SNS で装飾付きの英数字の記述のために広く使われるようになっています。

CJK互換漢字SVS

[56] 各CJK互換漢字用に1つずつ、計1002個の SVS が定義されています。 >>30

[57] これは CJK互換漢字の正規化の問題の対策として定義されました。 CJK互換漢字を相当するCJK統合漢字と区別したい時がありますが、 CJK互換漢字はCJK統合漢字に正準等価な写像を持つ故、正規化によってその区別が失われてしまいます。そこでかわりに SVS を使えるのです。 >>30

[58] CJK互換漢字用 SVS は、 CJK互換漢字の符号点と一対一対応するものです。 IVD に登録された実装依存グリフに対応付けられた IVS とは違います。 >>30

[202] SVS と IVS は独立した判断で別の基準で追加されたため、同じ字形のように見える漢字が SVS と IVS とで2種類以上 (+ 元々の CJK互換漢字でもう1種類) 存在する事例が多々あります。混乱させたくてわざとやっているのではないかと思いたくなるほどの重複符号化祭です。

[59] CJK互換漢字用の SVS は、 CJK互換漢字に異体選択子を付けたものではなく、相当するCJK統合漢字に異体選択子を付けたものとなります。 CJK互換漢字は正準写像を持つので、異体列に使えないのです。

[60] CJK互換漢字の正準写像はCJK統合漢字単体であって、 CJK互換漢字用 SVS ではありません。 SVS に正準写像が変更されればさほど問題は生じなかったのですが、正規化の仕様変更は認められていないのです。

それゆえ、正規化をおそれて CJK互換漢字を避けるなら、 CJK統合漢字 + 異体選択子を使うことになりますが、それが正しく表示されるのは適切なフォントを持っている環境のみ、正しく処理されるのは対応した環境だけです。

CJK互換漢字をそのまま使っていれば、正規化以外はまったく支障がなかったのが、 SVS に置き換えるとまったく使い物にならなくなってしまいますw (フォントの問題は過渡期の今だけだと思いたいですが...)

[61] それどころか同じ表現が CJK互換漢字と SVS の2通りになって、しかも両者は正規化で同一視される対象ではありませんから、検索などで新規に個別対応が必要となってしまいます。むしろ面倒事は増えています。

[62] 正規化は破壊的操作なので、オリジナルデータや重要なデータには使うべきではありません。正規化正規化を使わない日常の用途には CJK互換漢字の SVS は出番がなさそうです。

[428] Wayback Machine, 2023-07-25T03:56:20.000Z https://web.archive.org/web/20110709094418/http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1468IVS_Recommendation.pdf

[358] IRG N1676 (IRG 34) - 10211-irgn1676-adj1-ivs-upd.pdf, 2010-06-16T20:38:33.000Z, 2022-10-06T13:55:20.097Z https://unicode.org/L2/L2010/10211-irgn1676-adj1-ivs-upd.pdf#page=13

[359] >>358 この時点の構想では当時登録済みの Adobe-Japan1 IVS と重複するものは共用しようとしていたようです。

定義済みSVSの削除

[82] 次の2件は、 Unicode 3.2 で定義されたものの、誤りとわかり SVS から削除された、と StandardizedVariants.txt にコメントがあります。 >>17

#2278 FE00; with vertical stroke; # NEITHER LESS-THAN NOR GREATER-THAN
#2279 FE00; with vertical stroke; # NEITHER GREATER-THAN NOR LESS-THAN

[354] この削除された列が今後どういう扱いになるのか (再割り当てされるのか) よくわかりません。

未成SVS

[484] 17070-cjk-glyph-comments.pdf, 2017-03-20T15:17:48.000Z, 2024-11-12T09:03:31.321Z https://unicode.org/L2/L2017/17070-cjk-glyph-comments.pdf

[485] >>484 は CJK統合漢字の代表字形の誤りを SVS で区別することを提案していたが、実現せず字形の変更のみが行われた。

非標準の SVS

[482] Ancient Sans Font | daredemotypo | FontSpace, 2024-11-08T03:38:13.000Z, 2024-11-08T03:41:52.267Z https://www.fontspace.com/ancient-sans-font-f104175
- [483] Xユーザーの叛逆の人(daredemotypo)さん: 「グルン・ケマ文字は旧字体にも対応してます。異体字セレクタVS02を挿入すると表示できます。 Older forms of the Gurung Khema Script are also available. Type variation selector 2 to display them.」 / X, 午後0:55 · 2024年11月7日, 2024-11-08T03:37:05.000Z https://x.com/FontHangyaku/status/1854372188272607238

[486] BabelStone Fonts : BabelStone Roman, 2024-12-13T04:42:38.000Z https://babelstone.co.uk/Fonts/Roman.html

EVS

[49] 絵文字異体列 (えもじいたいれつ) (emoji variation sequence) (EVS) は、 UTS #51 emoji-variation-sequences.txt で定義されます >>30。

[66] 古い Unicodeの版では EVS は SVS に含まれていました。当時 StandardizedVariants.txt に記述されていた EVS は、現在の版では削除されているようです。

[44] 数字, U+0023 (#), U+002A (*) を基底文字とする絵文字異体列は、それに対する結合文字 U+20E3 COMBINING ENCLOSING KEYCAP の色、サイズ、位置決定に影響することが想定されています。 >>30

[11] Emoji Variation Sequences (2016-06-15 08:30:11 +09:00) http://www.unicode.org/emoji/charts/emoji-variants.html

[351] 2020-07-13T10:28:02.000Z, 2021-01-11T03:46:10.790Z https://standards.iso.org/iso-iec/10646/ed-6/en/emoji-variation-sequences.txt

IVS

[50] 表意文字的異体列 (ひょういもじてきいたいれつ) (ideographic variation sequence) (IVS) は、 2つの符号化文字の列であって、 1つ目が Ideographic であって正準的分解可能でも互換的分解可能でもないもの、 2つ目が異体選択子文字 [ U+E0100, U+E01EF ] であるものです。 >>19

[124] 異体列一般よりも、 1文字目が Ideographic であることと、 2文字目の範囲に制約が増えています。

[127] IVS には、異体選択子の通常の規則が適用されます。 IVS は、関連付けられたグリフ的部分集合にレンダリングを制限したいときのみ、使うべきです。 >>19

[129] Ideographic な文字の一覧 https://chars.suikawiki.org/set/%24unicode%3AIdeographic

IVD

[123] IVS は、 UTS #37 の定める Ideographic Variation Database (IVD) >>21 に登録されています。 IVD に登録された IVS を登録済 (とうろくずみ) (registered) IVS といい、それ以外の IVS を未登録済 (みとうろくずみ) (unregistered) IVS といいます。 >>30

[208] SVS や EVS が Unicode Consortium の直轄で規定されるのに対し、 IVS は外部で定義されたものを Unicode Consortium に登録するという形をとっています。

[119] UTS #37 によると、漢字その他の表意文字にあっては、利用者の需要すべてを満足する異体列の単一の集成を構築することが不可能である、すなわち研究者、政府、出版社の要件が異なりすぎて単一の集成に収容することが困難であるゆえに、複数の独立した集成をもって各要件を満たせるようにしたものであります。 >>19

[121] それが不可能だと認めてしまうのなら、 CJK統合漢字がやらかしたことも間違いだったと認めてしまった方が楽なのではないかと思わんでもないw

[122] なぜ表意文字でだけそれが不可能で、他の文字では可能なのか説明されてませんが、不思議ですね。

[120] IVD は、異体列を使ったテキストの情報交換を信頼できるものとするべく、異体列に単一の定義を存在せしめるものであります。 IVD の目的は、 IVS を固有のグリフ的部分集合に関連付けることです。 IVS がテキストに現れたなら、 IVD をチェックすればその意図する所を特定できます。ゆえに登録済IVS は、テキスト交換に使うのに適したもの (suitable) です。 >>19

[126] 未登録済IVSは、テキスト交換で使うべきではありません。 >>19

IVD の版

[145] IVD は、 Unicode Consortium の Webサイトで公表されています >>21。

[147] UCD とは別のデータベースになっていて、 The Unicode Standard とは同期せずに、必要があるときに更新されているようです。過去に公開された版はそのままで、新しい版を公開されていく形になっています。各版で完結しているので、歴史的経緯を気にしないのであれば常に最新版だけを見ていれば済みます。

[236] IVD の版は日付で命名されています。 >>21

[148] 常に最新版を表す URL が提供されていないのが、少し使いづらい。

[239] 一度出版された版は変更されないこととされています。 >>21 しかし実際のものを見るとなぜか日付よりずっと新しいタイムスタンプのものが紛れ込んでいます。

[238] 2007-12-14 https://www.unicode.org/ivd/data/2007-12-14/
- [237] Adobe-Japan1 が追加されました。
- [242] テキストファイルは2012-03-02, 2012-03-23 付で更新されています。 2020-12-27T03:12:21.600Z
- [241] 2007-12-19 付のオリジナル: Index of /ivd/data/2007-12-14, 2007-12-26T06:56:45.058Z, 2020-12-27T03:11:27.100Z https://web.archive.org/web/20071226065605/http://www.unicode.org/ivd/data/2007-12-14/
- [243] https://www.unicode.org/ivd/data/2007-12-14/IVD_Stats.txt に2件の重複の旨のコメントがあります。
[263] 2010-11-14 https://www.unicode.org/ivd/data/2010-11-14/
- [244] Hanyo-Denshi が追加されました。
- [245] テキストファイルは2012-03-02, 2012-03-23 付で更新されています。 2020-12-27T03:12:21.600Z
- [246] 2010-11-17 付のオリジナル: Index of /ivd/data/2010-11-14, 2011-02-03T16:29:18.910Z, 2020-12-27T03:22:34.000Z https://web.archive.org/web/20110203162133/http://unicode.org/ivd/data/2010-11-14/
[264] 2012-03-02 https://www.unicode.org/ivd/data/2012-03-02/
- [255] Adobe-Japan1 に追加がありました。
- [256] Hanyo-Denshi に追加がありました。
- [259] この版から IVC 単位に分離された代表グリフの PDF が追加されました。
- [257] ファイルは2012-03-02, 2012-03-08, 2012-03-23, 2012-07-02付で更新されています。
  - [261] 7月2日付の更新は、サーバー上のファイル破損を修復したものとコメントがあります: 2012-07-02T15:00:18.000Z, 2020-12-27T03:46:37.534Z https://www.unicode.org/ivd/data/2012-03-02/IVD_Sequences.txt
  - [262] 3月2日付のオリジナル版は Internet Archive にもなし。
- [260] https://www.unicode.org/ivd/data/2012-03-02/IVD_Stats.txt に16件の重複の旨のコメントがあります (14件増)。
[265] 2014-05-16 https://www.unicode.org/ivd/data/2014-05-16/
- [272] Moji_Joho が追加されました。
- [266] テキストファイルは2014-05-16付、代表グリフ PDF は2015-05-07付で更新されています。
- [267] この版から全体の代表グリフの PDF が提供されなくなりました。
- [268] 2014-05-12付のオリジナル: Index of /ivd/data/2014-05-16, 2014-07-14T00:57:03.026Z, 2020-12-27T04:27:42.000Zhttps://web.archive.org/web/20140714005622/http://www.unicode.org/ivd/data/2014-05-16/
  - [269] テキストファイルは2014-05-16付。
  - [270] Moji_Joho の代表グリフ PDF ファイルは不存在。
- [271] 2015-05-07付更新は Moji_Joho の追加によるものとみられます。 PDF ファイル内に書かれた日付はいずれも「May 16, 2014」。
- [292] https://www.unicode.org/ivd/data/2014-05-16/IVD_Stats.txt に Hanyo-Denshi と Moji_Joho の IVS の共有の情報が追加されました。
[280] 2016-08-15 https://www.unicode.org/ivd/data/2016-08-15/
- [283] MSARG が追加されました。
- [281] テキストファイルは2016-08-15付。
- [282] 代表グリフ PDF ファイルは2016-09-11付。
  - [146] Index of /ivd/data/2016-08-15, 2016-08-16T09:17:58.242Z, 2020-12-27T05:00:56.000Zhttps://web.archive.org/web/20160816091712/http://www.unicode.org/ivd/data/2016-08-15 によると当時は2016-08-13付だったようです。残念ながら Internet Archive には現存しません。
[294] 2017-12-12 https://www.unicode.org/ivd/data/2017-12-12/
- [293] Adobe-Japan1 に追加されました。
- [295] Moji_Joho に追加されました。
- [296] KRName が追加されました。
- [297] ファイルは2017-12-12付。
- [319] IVD_Stats.txt に重複情報が6件追加。
[315] 2020-11-06 https://www.unicode.org/ivd/data/2020-11-06/
- [316] MSARG に追加されました。
- [317] ファイルは2020-11-06付。
- [318] IVD_Stats.txt だけ2020-12-17付。変更されたものかどうかは Internet Archive からは不明。
[377] 2022-09-13
- [388] Index of /ivd/data/2022-09-13, 2022-09-20T08:19:34.000Z https://www.unicode.org/ivd/data/2022-09-13/
- [389] Adobe-Japan1 に1つ追加されました。
- [394] IVD_Stats.txt に重複情報が1件追加。
- [379] 評価: >>456

IVD のファイル

[149] IVD のファイル IVD_Collections.txt, IVD_Sequences.txt は、 IVC と IVS の情報を含んだテキストファイルです。その構造は UTS #37 で説明されています >>19 が、 UCD 同様の ; 区切りの行指向データファイルです。 UCD

[150] IVD_Collections.txt には、 Ideographic Variation Collection の情報が記述されています。 IVC を表す識別子、 IVC 内の識別子の正規表現、 IVC の説明の Webサイトの URL が書かれています。 >>19

[152] IVD_Sequences.txt には、 IVS の情報が記述されています。 IVS の各文字の符号点、 IVC を表す識別子、 IVC 内の識別子の組が並べられています。 >>19

[231] 他に代表グリフの一覧表の PDF ファイルがあります。古い版では IVC 横断の一覧表だったようですが、新しい版では IVC ごとの一覧表になっているようです (ファイルサイズが大きすぎるからでしょうか)。改版のたびに変更のない IVC の PDF まで改訂されているようです (少なくても日付が書き換わっています)。 (意図しない代表グリフ変更が生じていないか、不安になりますね。)

IVC

[140] IVD では、 IVS (とそれに関連付けられたグリフ的部分集合) は、集成 (collection) (Ideographic Variation Sequence Collection, Ideographic Variation Collection, IVC) のエントリー (entry) という形にグループ化されます。 >>19

[212] IVC は0個以上の IVS と付加情報という形を採ります。 IVD は IVC の和集合という形になります。 IVS は複数の IVC に属することがあります。

[211] IVC は特定の利用者コミュニティーの要件を満たすグリフ的部分集合を集めたものとなることが期待されます。しかし IVC の登録は、特定目的への適当性 (suitability) を暗示するものではありません。 IVS の有用性や IVC 全体としての有用性は、その用途に依存します。登録者は IVC の意図を説明するべき (encouraged) で、利用者は IVC が自身の目的に有用かどうか評価するべき (encouraged) です。 >>19

[233] IVC は固定の集合ではありません。後から IVS を追加していくことができます。 IVC に既に含んでいる IVS の変更や削除の手続きはなく、認められていないものと思われます。

[143] 実装は、登録済IVS を任意の組み合わせで自由に対応でき、複数の IVC であろうとも IVC の部分集合であろうとも構いません。 >>19 つまり IVC は一応意味のある単位として想定されてはいるものの、実装に対する要件を課すものとはなっていません。

[141] 同じグリフ的部分集合の IVS がいくつもあると実装コストが嵩み、当該 IVC が実装される可能性は下がります。そこで同じグリフ的部分集合の IVS を減らすため、既存の IVC の IVS と似たものを共有することが強く推奨されます (strongly encouraged) (が必須ではありません)。 IVS の共有は、関係する IVC の登録者間相互の合意があれば実施できます。登録官は、 IVS の共有の可能性を登録者に警告しなければなりません。 >>19

[142] なお CJK互換漢字の SVS (>>56) は IVC ではありません。

[213] IVC は、識別子 (集成識別子 (しゅうせいしきべつし) (collection identifier) ) を持ちます。特に言及はありませんが、今の所他の IVC と重複しないものが割り当てられているようです。

[214] IVC 中の IVS は、識別子 (列識別子 (れつしきべつし) (sequence identifier) ) を持ちます。列識別子は IVC 内で固有の識別子です。同じ IVS が別の IVC で共有される場合、 IVC ごとに違う識別子になることがあります。

[153] 集成識別子と列識別子は、 ASCII英字から始まり、 ASCII英数字、 _, -, + のいずれかが続くような文字列です。 >>19

[154] このうち -, + は既存の登録との後方互換性のために認められるものです。 _ に置き換えるか、または除去することで、固有の識別子を生成できるとされます。 >>19 ということは今後は追加されない想定なのでしょうか。 (既存の IVC への追加の IVS に使われることはあるかもしれません。)

ASCII英字
|
1. ASCII英字
2. _
3. -
4. +

[216] 識別子の先頭に使える文字 https://chars.suikawiki.org/set/%24uts37%3Aidentifier-start-char
[215] 識別子に使える文字 https://chars.suikawiki.org/set/%24uts37%3Aidentifier-char

[151] IVC ごとに列識別子の正規表現が定められます。当該 IVC のすべての IVS の列識別子は、この正規表現に一致しなければなりません。これは Perl 5.8 正規表現です。 IVC 登録者が定めるもので、必要となれば拡張のために変更できます。 >>19

[226] 一旦 IVD に登録された IVC の集成識別子や IVS の列識別子を変更する手続きは用意されていません。変更は認められないものと思われますが、明記はされていません。

IVC の一覧

[344] IVD には次の IVC が登録されています。

[343] IVC

[345] 日本関係が3件、大韓民国関係が1件、中華人民共和国澳門特別行政区関係が1件、 Adobe 関係が2件 (重複あり) です。

部分実装

[506] IVC は実装水準の類ではなく、部分実装が可能です (>>143)。

[452] 平成時代中期以後の日本市場の多くの汎用フォントは JIS X 0213:2004 対応と称して、 JIS X 0213:2000 から JIS X 0213:2004 への改正で字形が変更された面区点位置の一部に相当する (それぞれの jp90 字形と jp04 字形の一方または両方の) AJ1 IVS を実装しています。 IPAex明朝, AJ1

[507] そのようなフォントの多くは、 AJ1 のうち、これに関係するごく一部のみを選んで実装しています。中には AJ1 の例示字形との乖離が著しい (しかし AJ1 に適合性の規定がほとんどないので適合するのかしないのか明らかではない) ものもあります。

[508] この場合の jp90 字形は、必ずしも AJ1 や JIS X 0208:1990 の字形に近いものではなく、 JIS X 0213:2004 対応と称する新しい字形に対して変更前の旧字形となっていることが多いようです。新しいものは規格の字形に忠実なものに変更する意図で作られているのに対して、古いものは規格の認める範囲で自由に作られているので、旧規格の字形に忠実とは限りません。

[509] 統計データはありませんが、おそらくこの目的で利用されている IVS が世間に流通する IVS の実利用で最も出現頻度が高いものと予想されます。また、 OS の標準フォントなどとして最も広く普及しているものでもあります。

登録機関

[172] IVD の登録機関 (registration authority) は、 Unicode Consortium です。 >>19

[173] 登録機関は、登録要求を処理する登録官 (registrar) (IVD Registrar) を任命します。 >>19 その資格や任期、待遇、人数などは UTS #37 には記載されていません。 Unicode Consortium の裁量で決められているようです。

[174] 登録機関自身が登録者 (registrant) となる IVC であっても特殊な地位は持ちません。登録機関が提出した IVC も他の提出案と同じ登録手続きを経ます。 >>19

登録料

[163] 登録機関は、 IVC や IVS の登録に於いて、返金不能な手数料 (processing fee) を課すことができます。 >>19

[165] 登録機関が提出したまたはスポンサーとなった IVC については、手数料は免除されます。 >>19

[164] 登録官は、登録の出願が不完全なとき、登録者にこれを通知し、訂正出願を1回無償で受理します。それ以後の訂正出願は有償となります。 >>19

[219] 具体的な価格は UTS #37 には書かれていません。

[220] ISO/IEC 10646 の制定作業に関与する national body は登録料が免除されているらしいです。 (SC2 に対し免除を表明する Unicode Consortium の書簡 >>356。)

[221] Moji_Joho の登録時には、文字情報基盤整備事業 (独立行政法人の IPA が受託した日本政府の事業) が登録料支払いを迂回するため JSC2 (SC2 に日本の代表として参加している情報処理学会の下部組織) の協力を仰いだらしいです。

[222] 登録料を徴収している理由は不明ですが、 Unicode 関係者や各国政府関係を除いた一般の団体や民間人が安易に登録して IVS が氾濫するのを防ぐ狙いがあるのでしょうか。

[223] 既存の IVC が登録料を支払ったものなのか、免除されたものなのか、外部からはよくわかりません。

[356] http://lucia.itscj.ipsj.or.jp/itscj/servlets/SecDoc20 - n3591.pdf, 2009-04-16T00:04:52.000Z, 2021-08-14T08:46:41.644Z http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3591.pdf

登録手続き

[207] IVS は、 UTS #37 の登録手続きにより、 IVD に登録されます >>30。登録者は、登録機関に登録要求を提出します >>19。登録手続きは登録者と登録官によって進行されます。

[175] 登録手続きは、 IVC の登録と IVS の登録の2つがあります。まず IVC を登録し、次にその IVC に個々の IVS (に関連付けるグリフ的部分集合) を登録していきます >>19。ただし IVC と IVS の登録手続きは並行して開始できる >>19 とされていますから、初期登録は同時に行われているようです。

[224] IVC と IVS の登録手続きは、次の手順を踏みます。

[225] 登録者は、説明の Webサイトを用意します。
[177] 登録者は、登録希望の旨を登録官の指示する方法で公告するとともに、 Unicode Consortium のメーリングリストに送信します。説明の Webページの URL を添えます。 >>19
[178] そこから90日以上を評価期間とし、登録者に対するコメントや質問を受け付けます。登録者は、それに返答するべき (should) です。 >>19
1. [234] この評価期間は、字数に基づき登録官が決定します >>21。
[189] 登録者は、評価期間終了後、出願を提出できます。
[227] 登録官は、完備した出願と出願費を受領したら、 IVD に追加します。 >>19

[166] 登録者は、 IVC の評価期間終了後の登録時に、次の登録事項を提出します。 >>19

[167] 登録者の名前と住所
[168] 代表者の名前と電子メールアドレス
[169] IVC を説明する Webサイトの URL
[170] IVC の集成識別子案
[171] IVS の列識別子のパターン

[179] 登録者は、 IVC の評価期間終了後の登録時に、次の事項を署名付きで声明します。 >>19

[180] 説明の URL とその Webサイトの安定性の維持を十分努力すること
[181] IVC に登録する IVS が制約、使用料、その他の要件なしに自由に利用できること
[182] 評価期間中に受信したすべてのコメントや質問に対応したこと

[184] IVC の所有者は、登録官への通知により、代表者と Webサイトの URL をいつでも変更できます。 IVS の列識別子の正規表現を拡張できます。 >>19

[185] IVC の所有権は、登録官への通知により、移転できます。 >>19

[187] IVS の登録者は、出願に当たり IVS の列識別子が IVC 中 (既に登録済みのものも含む。) の各基底文字に対して固有であることと、 IVC の列識別子の正規表現に一致すること、を確かめる (ensure) 責任を持ちます。この要件を満たさない出願は、拒絶されます。 >>19

[188] 理想的には、 IVS の登録者ははじめの出願の段階で、提案する IVS の代表グリフを含めるべき (should) です。 IVS の登録者は、評価期間終了後の登録時に、各 IVS に1つ以上の代表グリフを含めなければなりません。 >>19

[191] べきとなっているのは最初の出願時点で準備が整っていないことを容認する想定なのでしょうが、それでまともな評価が出来るのでしょうか。評価中の差し替えなども想定した規定なのかもしれませんが、実際はどう運用されているのでしょうか。

[192] IVS の登録者は、登録手続きとは別に、既存の IVC の登録済の IVS に追加の代表グリフを提供できます。 >>19

[183] 登録官は、 IVC の出願を受理したら、 IVC に集成識別子を (できるだけ提案を尊重して) 割当します。 >>19

[193] 登録官は、 IVS の出願を受理したら、 IVS に異体選択子を割当します。 >>19

[230] 登録官は出願を受理したら IVD に追加するとされていますが、具体的には関係するテキストファイルを編集して情報を追加し、代表グリフ一覧の PDF を作成しているようです。

[337] これまで実施された評価は Unicode Consortium の Webサイトで公表されています。

[439] 20140808-12.pdf, 2023-09-13T06:42:00.000Z https://warp.ndl.go.jp/info:ndljp/pid/10965918/mojikiban.ipa.go.jp/contents/2014/08/20140808-12.pdf#page=4

Moji_Joho コレクションの登録後に、公開レビュー期間を、2000 図形あたり 30 日追加するとの方針が Unicode コンソーシアムから示された。その結果残り約 48,000 のシーケンス登録には、2 年を超える公開レビューの期間が必要となる可能性がある。

[440] ここでいう「登録後」とは平成26年頃。

[423] IRG では他の漢字と統合可能なときに「ではそれは IVS で」という処理になってるぽいですが、それで新規追加が却下された結果 IVS が登録された事例はあまりなさそうに見えます。符号位置の新規追加プロセスと IVS の新規登録プロセスがまったく繋がっていません。

[453] このプロセスの違いを利用(?)して、CJK統合漢字に追加拒否された文字を IVD に押し込むという荒業が使われているようです。例えば注音字母参照

[468] 唯一例外として、文字情報基盤事業ではUCSへの追加ができなかったものを後から IVSとして登録することで、ほぼ全MJ文字図形が何らかの形で Unicode 化されました。 Unicode とは別に文字図形の一覧を画定させた上での、初めから符号位置追加と IVS 追加がセットで企画されていたプロジェクトだからこのフローが実現したのでしょう。

[469] それ以外は、 IRG に参加する各国代表機関にとっては「CJK統合漢字に不足を追加する」ことが目的 (管掌業務) になっていて、「既存の Unicode で表現できなものを表現できるようにする」ことを目的としていないので、CJK統合漢字に新規追加できなくても既存の符号位置に統合可能なら目的を達成できたという判断なのでしょうかね。

[424] 符号位置の追加では NB 以外からの要望でも Unicode Consortium が出典U に取り込んで新規追加してくれますが、 IVC はそのような運用がありません。そういうのがあれば、 NB がやる気がなくても誰かやる気がある人が必要なものをどんどん申請してくれそうなものですけどねえ。

登録用 Web サイト

[176] IVC の登録者は、 IVC の意図、原則、その他利用者に有用なデータを説明する Webページを作成します。 >>19

[186] IVS の登録者は、 IVC を説明する Webページ (から指定されたWebページ) に、提案する IVS を提示します。 IVD_Sequences.txt 形式のファイルとしますが、 IVS 符号点の欄には基底文字だけを示します。 >>19

[190] 異体選択子は登録機関側で決定されるようで、登録者が提案する時点では決められません。

[144] 登録手続きは登録者が Webサイトで説明を提供することを要求しています。そして登録後も可能な限り公衆アクセスを提供し続けることが強く推奨 (strongly encourage) されています。しかしそれは保証されません。利用者は、説明への公衆アクセスの継続性が自身の目的に必要かどうか、登録者がそれを提供できるかを、注意深く評価するべき (should) です。 >>19

[247] IVC の Webサイトの状況をまとめると次の通り。

[248] Adobe-Japan1
- [310] AJ16
  - [249] 当初登録されていた URL: http://www.adobe.com/devnet/font/pdfs/5078.Adobe-Japan1-6.pdf
  - [250] そのリダイレクト先: Adobe Technical Note #5078: The Adobe-Japan1-6 Character Collection - 5078.Adobe-Japan1-6.pdf, 2020-12-04T18:24:22.000Z, 2020-12-27T03:25:39.824Z https://www.adobe.com/content/dam/acom/en/devnet/font/pdfs/5078.Adobe-Japan1-6.pdf
- [311] 2017-12-12 版で登録されている URL:
  - [312] GitHub - adobe-type-tools/Adobe-Japan1: The Adobe-Japan1-7 Character Collection, 2020-12-27T05:14:35.000Z https://github.com/adobe-type-tools/Adobe-Japan1/
[251] Hanyo-Denshi
- [252] 登録されている URL: http://www.itscj.ipsj.or.jp/domestic/sc02/hanyo-denshi/20100331
  - 消滅確認 2020-12-27T03:27:43.500Z
  - [342] 提案 (>>156) されていた URL: http://www.itscj.ipsj.or.jp/domestic/sc02/hanyo-denshi/20100331/
  - [253] Combined registration of the Hanyo-Denshi collection and the first batch of its ideographic variation sequences, 2020-12-27T03:27:45.000Z, 2010-04-05T02:19:59.961Z https://web.archive.org/web/20100405021926/http://www.itscj.ipsj.or.jp/domestic/sc02/hanyo-denshi/20100331/
  - [254] Internet Archive によれば西暦2010年-西暦2013年の間に消滅。
  - [258] 2012-03-02付の IVD に追加収録があるので、その手続時点ではまだ存在していたはず。3
- [332] 2020-11-06 版で登録されている URL: The Hanyo-Denshi IVD Collection, 2020-11-04T13:11:27.000Z, 2020-12-27T05:44:50.111Z https://www.unicode.org/ivd/hanyo-denshi/
[273] Moji_Joho
- [307] /1/
  - [298] 当初登録されていた URL: http://mojikiban.ipa.go.jp/mjc/1/
  - [276] Moji_Joho collection, 2020-12-27T04:37:59.000Z, 2014-03-06T19:20:32.011Z https://web.archive.org/web/20140306191852/http://mojikiban.ipa.go.jp/mjc/1/
    - [277] 「2013-12-05」版。
  - [278] Moji_Joho collection, 2020-12-27T04:38:45.000Z, 2016-07-18T06:56:01.074Z https://web.archive.org/web/20160718065546/http://mojikiban.ipa.go.jp/mjc/1/
    - [279] 「2014-05-16」版。
  - [274] Moji_Joho collection, 2019-07-29T01:05:49.000Z, 2020-12-27T04:33:16.740Z http://mojikiban.ipa.go.jp/mjc/1/
    - [275] 「2017-12-dd」版。 2020-12-27T04:36:38.900Z
- [309] /2/
  - [341] 提案 (>>157) されていた URL。
  - [305] Moji_Joho collection, 2020-12-27T05:09:39.000Z, 2017-08-18T04:23:53.187Z https://web.archive.org/web/20170818042341/http://mojikiban.ipa.go.jp/mjc/2/
    - [306] 「2017-08-09」版。
  - [303] Moji_Joho collection, 2019-07-29T01:05:50.000Z, 2020-12-27T05:08:13.959Z http://mojikiban.ipa.go.jp/mjc/2/
    - [304] 「2017-12-dd」版。
- [308] /
  - [299] 2017-12-12 版で登録されている URL: http://mojikiban.ipa.go.jp/mjc/
  - [300] Moji_Joho collection, 2019-07-29T01:05:50.000Z, 2020-12-27T05:07:30.024Z http://mojikiban.ipa.go.jp/mjc/
    - [301] 「2017-12-12」版。 2020-12-27T05:07:53.00Z
  - [302] 変更履歴上の前の版は「2014-05-16」版。いつからこの URL にあったのか、 Internet Archive では不明。
- [320] / (https:)
  - [322] 2020-11-06 版で登録されている URL: https://mojikiban.ipa.go.jp/mjc/
    - [323] 「2017-12-12」版。
  - [321] Moji_Joho collection, 2019-07-29T01:05:50.000Z, 2020-12-27T05:33:39.078Z https://mojikiban.ipa.go.jp/mjc/
    - [408] 消滅確認 2023-05-02T08:21:20.200Z
    - [409] Moji_Joho collection, 2023-05-02T08:21:01.000Z, 2020-12-27T04:41:29.216Z https://web.archive.org/web/20201227044123/http://mojikiban.ipa.go.jp/mjc/
- [410] moji.or.jp
  - [411] 2022-09-13 で登録されている URL: https://moji.or.jp/mojikiban/
    - [412] 文字情報基盤整備事業 | 一般社団法人文字情報技術促進協議会, 2023-05-02T08:23:27.000Z https://moji.or.jp/mojikiban/
      - [413] 文字情報基盤のトップページ。 IVC の登録事項はどこにも書かれていない。
[284] MSARG
- [327] 2016
  - [324] 当初登録されていた URL: http://www.iso10646hk.net/ivd/MSARG/
  - [285] Registration of MSARG Collection and Sequences, 2016-07-09T07:57:59.934Z, 2020-12-27T04:50:02.000Z https://web.archive.org/web/20160709075536/http://www.iso10646hk.net/ivd/MSARG/
    - [286] 「2016-05-13」版。
  - [289] Registration of MSARG Collection and Sequences, 2016-09-20T02:57:46.539Z, 2020-12-27T04:53:25.000Zhttps://web.archive.org/web/20160920025701/http://www.iso10646hk.net/ivd/MSARG/
    - [290] 「2016-07-25」版。
  - [287] リダイレクト先: https://www.safp.gov.mo/mscs/ivs/ 2020-12-27T05:37:09.900Z
    - [288] Registration of MSARG Collection and Sequences, 2020-06-10T03:40:28.000Z, 2020-12-27T04:51:51.439Z https://www.safp.gov.mo/mscs/ivs/2016/default.htm
      - [291] 「2016-07-25」版。
- [328] 2020
  - [325] 2020-11-06 版で登録されている URL: https://www.safp.gov.mo/mscs/ivs/
  - [326] Registration of MSARG Collection and Sequences, 2020-06-29T15:10:15.000Z, 2020-12-27T04:51:24.802Z https://www.safp.gov.mo/mscs/ivs/
    - [329] Registration of New Sequences in MSARG Collection, 2020-06-29T15:31:57.000Z, 2020-12-27T05:38:55.087Z https://www.safp.gov.mo/mscs/ivs/2020/default.htm
      - [330] 「2020-06-22」版。
      - [331] 変更履歴によると前の版「2020-06-08」があったが Internet Archive に所蔵なし。
[313] KRName
- [314] 旧: GitHub - adobe-type-tools/krname-ivd-collection: KRName IVD Collection, 2020-12-27T05:17:12.000Z https://github.com/adobe-type-tools/krname-ivd-collection/
- [404] The KRName IVD Collection, 2023-04-25T00:35:00.000Z, 2023-05-02T08:14:00.408Z https://www.unicode.org/ivd/krname/

[333] Hanyo-Denshi は登録した汎用電子情報交換環境整備プログラムが終了して Webサイトも消滅してしまったようです。救済措置なのか Unicode Consortium の Webサイトに紹介ページが作られました。

[405] それなら最初から資料だけ提出させて Unicode Consortium でホストしてあげたほうが、と思わんでもない。

[406] どのような手続きでこの変更が行われたのかは謎です。

[334] これらの Webサイトの情報は、登録に必要な事項はいったん登録されてしまえば IVD から入手可能になるので、実装には不要で無くなっても困らないことは事実です。

[335] 本来なら代表グリフ以外にも実装や利用に必要なはずの詳細な情報とか、自由に利用できる参照フォントとかが提供されていてしかるべき感はありますが。登録手続きで要求されて仕方なく作っただけにしか見えないサイトがいくつかあります。

[336] そういう情報が提供されないなら、開発過程の履歴を残すという歴史的意義しか残らないのですが、 (GitHub を使っているサイトはともかく) どこも登録手続き中の改訂でどんどん上書きして前の版を残していないようなので、それすら満足がいくとはいえない状況です。

[479] 「源ノ角ゴシック」バージョン 2.000 の技術的な特長について, 2020-11-19T06:22:33.000Z, 2024-10-18T11:59:51.265Z https://ccjktype.fonts.adobe.com/2018/11/shsans-v2-technical-tidbits-ja.html

コメント欄

Dr. Ken Lunde says:
January 7, 2019 at 8:09 AM
Supporting the Hanyo-Denshi IVD Collection is a non-starter for a variety of reasons. First and foremost, other than the glyph charts for that collection, there is no longer a stable web page that describes the collection, which is one of the requirements. As the IVD Registrar, I have repeatedly asked Japan to restore its URL so that the one that is reflected in the IVD_Collections.txt file is no longer stale.

[480] >>479 JSC2 に消えたサイトなんとかしろと言ってもどうにもならなかったのでそうなったのか... ほんと JSC2 は仕事しないだけでなく世界中に迷惑掛けまくってばかりだなあ...

[481] しかしそれにしても消えたサイトにも復活したサイトにも IVD 以上の情報はないし、登録手続きが終わったあとにサイトを残せという要件はないので、これを実装しない理由に挙げるのは難癖でしかないんだよなあ。それじゃああかんと思うのだったら手続きの方をなんとかしなよ、被害者面してるけど手続き作る側の立場の人でしょ...

[415] Moji_Joho の文字情報基盤は日本政府傘下の IPA から民間団体に令和2年に移管されました。 2022-09-13 版で登録 URL が新しいものに変更されています。

[416] しかしなぜか変更履歴にはそのことが書かれていません。また、新しい URL はただの文字情報基盤のトップページで、元々の IVC 登録用の情報は見当たらなくなっています。どのような手続きによって変更されたのかは謎です。

[417] Unicode Consortium 的には登録が終わったらもう中身はどうでもいいのでしょうか?

[407] KRName も令和5年4月に GitHub から Unicode に移転しました。これは Adobe から Unicode Consortium への登録者の移管と同時に行われたものです。

[414] KRName は移転後 IVC が更新されておらず、現時点で最新の 2022-09-13 は当然古い URL のままです。しかし IVD ウェブサイトのリンク集 (KRName 移転とほぼ同時に新設) は新しい URL に更新されています。

[418] これらもどのような手続きによるものか謎です。

IVS に使う基底文字の選択

[128] 異体選択子は default ignorable なので、 IVS に関連付けられたグリフ的部分集合は、基底文字を単体で使った時に適切なグリフ群の部分集合である、言い換えると IVS のグリフ部分集合が基底文字に統合可能なものである必要があり、登録者はそれを確かめる (ensure) ことが期待されます。 Unified_Ideograph の文字の場合については、 The Unicode Standard の漢字の章と ISO/IEC 10646 附属書 S の漢字統合規則に照らし合わせることが、その方法の1つです。 >>19

[131] encoded variants の数を削減するための取り組みとして、 Unified_Ideograph な文字に関する統合規則は、 IVD に適用される時、次の2つの場合も含めるよう拡大されます。 >>19

[132] 異なる構造を持つ文字で、その違いが別の統合漢字として符号化するほどには重大とはみなされない場合であって、符号化済文字の異体として関連付ける強い証拠を有するもの。
- 例: ⿱椎十 / ⿰木隼, ⿱汨皿 / ⿰氵昷, ⿱戠火 / ⿹戠火
[133] 同じ構造を持つ文字で、第2 (以後) 段階の構成要素が違って通常は統合可能ではない場合であって、符号化済文字の異体として関連付ける強い証拠を有するもの。
- 例: ⿰月㲋 / ⿰月𣬉, ⿺𠃊西 / ⿺辶西
- [134] 此の場合当該文字は稀にしか使われないものであるべき (should) で、登録者はグリフ図形の類似性や異体としての許容性の根拠を提示することが期待されます。

[135] グリフ的部分集合の前提を覆す例外が、「encoded variants の数を削減」という意味不明な理由で追加されてることが気になりますが... 通常の統合規則に漏れているのに「別の漢字とするほど重大ではない」ものがあるという世界観も意味不明です。

[470] 実際の登録字形を見ると、本当にこの字形は基底文字と統合可能なのだろうか、どの UCV によりそう判断できるのだろうか、と疑問を呈さずにはいられない異体列が数多あります。

[209] ある基底文字の異体列として登録された IVS の代表グリフが、実は別の基底文字の代表グリフに一致する (かそちらの方がより近い) ことが後から判明する、という事例がままあるようです。

[130] Unified_Ideograph な文字の一覧 https://chars.suikawiki.org/set/%24unicode%3AUnified_Ideograph

[350] 草書体フォントや篆書体フォントの字形を使った登録を試みたらどうなるのか、おもしろそうだからどこかがやってみてくれないものかw

[475] L2/24-165 (CJK & Unihan Working Group Recommendations for UTC #180 Meeting) - 24165-cjk-unihan-wg-utc180.pdf, 2024-07-11T13:54:04.000Z, 2024-07-12T06:18:42.732Z https://www.unicode.org/L2/L2024/24165-cjk-unihan-wg-utc180.pdf#page=7

[476] >>475 統合分離に伴い従来IVSで使われていた字形と同形の新しい符号位置が追加される事例。 IVSと矛盾した追加であることを認識し、引き続きIVSを使うことが容認された上での分離。

未成IVCと非標準のIVS

[395] 未登録のまま長年放置されているものがいくつか見つかっています。再開の見込みがあるのかどうかも不明。

[396] 未成IVC

[514] >>14 はUTCソースの IVS の提案。

[513] CJK互換漢字SVSは当初IVSとして提案されていました (>>359)。

[14] Wayback Machine, 2023-07-25T03:48:53.000Z https://web.archive.org/web/20150104014658/http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg36/IRGN1757_ProposedIVDRegistration.pdf

[401] BabelStone フォントは IVD 登録済みの IVS とそうでない IVS を実装しています。未登録のものは将来登録するつもりであるものの、変更の可能性もあると説明されています。 >>357 ウェブページ上の日付から2年既に経過していますが、今のところ登録はされていません。すぐに登録しようというスケジュール感ではなさそうです。未登録 IVS がどの程度利用されているのかは不明です。

[371] BabelStone は標準の IVS の続きの未割当の異体選択子を使っています。 >>357 独自分は追加提案する意思があると書いていますし、変更の可能性もあるとは書かれています。 (怖くて実用できないですね...)

[426] BabelStone Khitan Small Linear は契丹小字 + VS を使っています。 >>425

[510] IVS 用の VS は現在の所漢字との利用のみ定められているので、契丹文字との併用は完全に独自の用法です。

[357] BabelStone Fonts : BabelStone Han Variants (2021-09-06T04:18:36.000Z) https://www.babelstone.co.uk/Fonts/BSH_IVS.html
[425] BabelStone Fonts : BabelStone Khitan Small Linear, 2023-07-04T12:36:22.000Z https://www.babelstone.co.uk/Fonts/KhitanLinear.html

[402] Nôm Na Tống フォントは IVD にない IVS を多数実装しています。旧版は IVD の IVS を避けていましたが、現行版は IVD の IVS と非互換に衝突しています。 Nôm Na Tống

[429] 常用標準漢喃表と漢喃復活委員会フォントは IVD にない IVS を多数実装しています。 IVD の IVS と非互換に衝突しています。 Nôm Na Tống の IVS とも違っています。漢喃復活委員会フォント

[419] 注音IVS字型規格 (Bopomofo IVS Font Specification) は U+E01E0 からの VS を中文漢字音の区別に使っています。 >>420

[421] PanCJKV IVD Collection は U+E01E5 から U+E01EF を使っています。注音IVS字型規格とぎりぎり衝突を回避できているのか、いないのか?

[399] Unicode非互換割当も参照。

[451] IPA明朝は U+E0100 を (IVD に存在しない IVS も含めて) 多くの符号位置で機械的に定義しているようです。 IPA明朝

[450] >>449 のフォントは、 U+E01EA, U+E01EB に独自に割り当てています。

[517] Ethiopic Variation Database (EVD) は IVS 用の VS をエチオピア文字や PUA と独自に併用しています。 Ethiopic Variation Database (>>50 の定義に矛盾する独自の用法です。)

[420] GitHub - ButTaiwan/bpmfvs: 注音IVS字型規格 Bopomofo IVS Font Specification, 2023-07-04T08:51:20.000Z https://github.com/ButTaiwan/bpmfvs#%E6%B3%A8%E9%9F%B3ivs%E5%AD%97%E5%9E%8B%E8%A6%8F%E6%A0%BC-bopomofo-ivs-font-specification
[449] ChiuKongGothic/Other/IVD_Ext.csv at main · ChiuMing-Neko/ChiuKongGothic · GitHub, 2023-10-30T11:54:07.000Z https://github.com/ChiuMing-Neko/ChiuKongGothic/blob/main/Other/IVD_Ext.csv

[515] 中華人民共和国で登録の準備が進められています。 >>496

[495] n2796-CAAPH-IVD.pdf, 2025-02-27T12:44:00.000Z, 2025-03-04T03:01:02.375Z https://www.unicode.org/irg/docs/n2796-CAAPH-IVD.pdf
- [496] n2796r2-CAAPH-IVD.pdf, 2025-03-05T02:02:36.000Z, 2025-03-05T05:36:33.307Z https://www.unicode.org/irg/docs/n2796r2-CAAPH-IVD.pdf

[422] 中華民国でも IVS 利用を検討しているらしいですが、具体的な話にはなっていない模様です。

[458] >>422 少しずつ進んではいるようです >>457。でも先は長そうな雰囲気。

[457] Activity Report from TCA - IRGN2628_TCA_ActivityReport.pdf, 2023-10-13T20:01:28.000Z, 2023-11-27T14:28:47.042Z https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg61/IRGN2628_TCA_ActivityReport.pdf

データ

[441] IVS についてのデータはいろいろなところにあります。

[442] 基本情報は IVD にあります。
[443] 多少の情報が Unihan に (やや無理のある方法で) 押し込まれてます。
[446] Adobe-Japan1 IVS の情報は Adobe-Japan1 GitHub リポジトリーにあります。
[444] Hanyo-Denshi IVS の情報は漢字データベースプロジェクトにいくらかあります。
[445] Moji_Joho IVS の情報は文字情報基盤にあります。関係するCJK互換漢字SVSの情報もあります。
[447] 一通りの字形や関係する情報が GlyphWiki にあります。

代表グリフ

[63] ほとんどの SVS の代表グリフは、符号表に示されています。 >>30

[69] SVS は、符号表の文字一覧の元の文字の項に、 swung dash (~) で示されています。 >>68

[70] SVS は、符号表の元の文字のブロックの後に代表グリフの一覧が付されています。ただし CJK互換漢字用の SVS は、 CJK統合漢字でなく CJK互換漢字の側に示されています。 >>68

[71] Unicode 8.0 の時代まで、 CJK互換漢字用を除く SVS (後の EVS を含みます。) の字形は UCD の StandardizedVariants.html に収録されていました。蒙古文字のものも含まれ、語頭形など複数の字形例が示されたものもありました。 >>22

[85] StandardizedVariants.txt >>84 は Unicode 4.0 で追加されたもので、 Unicode 3.2 時代には HTML しかなかったようです。

[72] Unicode 9.0 でこのファイルの内容は削除され >>23, >>18、 Unicode 10.0 でファイル自体も削除されました。

[64] EVS の代表グリフは、絵文字表に示されています。 >>30

[65] IVS の代表グリフは、 IVD に示された登録中にあります。 >>30

[430] 異体列が表すグリフ部分集合を代表するのが代表グリフですが、グリフ部分集合とは基底文字が表し得るグリフ全体の集合の部分集合です。つまり代表グリフは基底文字をある意味代表する字形の1つともいえます。

[431] 基底文字の代表字形は、大部分のUnicode文字には1つ、 CJK統合漢字やCJK互換漢字には1つ以上が符号表で示されています。それら代表字形が異体列の代表グリフに選ばれている (ような異体列が規定または登録されている) こともあれば、そうでないこともあります。

[432] CJK統合漢字のJ字形と同じ代表グリフの IVS が登録されていることもありますが、そうでないこともあります。

[434] なお、フォントにおいて異体列に割り当てられたグリフに対して、基底文字のみの列に対して割り当てられたグリフのことを、文字情報基盤ではデフォルトグリフ (default glyph) と呼んでいます >>433。

[435] フォントのデフォルトグリフ = 既定グリフは、同じフォントで異体列に割り当てられたいずれかのグリフと一致することもあれば、どれとも一致しないこともあります。

[437] OpenType の場合、異体列のグリフがデフォルトグリフと一致するような異体列のことを default UVS (既定UVS) といい、そうでない異体列のことを non-default UVS (非既定UVS) といいます。両者には別のデータ構造が用意されています。 >>436 cmap

[438] この区別は必須ではないので、すべて非既定UVS用データ構造で記述することも可能です。既定UVSを使った方が少しファイルサイズを節約できますが、フォントファイル (特に漢字がたくさん入ったフォントファイル) 全体の大きさに比べれば微々たるものなので、簡単さを取ってすべて非既定UVSで表すフォントも珍しくないようです。なお、既定UVSを使うとフォントからグリフを探す手順が1段階増えるので表示処理が少し遅くなりますが、これもやはり微々たる差です。

[433] Unicode IVS/IVDについて | 一般社団法人文字情報技術促進協議会, 2023-09-10T14:01:14.000Z https://moji.or.jp/mojikiban/aboutivs/#defaultglyph
[436] cmap - Character To Glyph Index Mapping Table (OpenType 1.9) - Typography | Microsoft Learn, PeterCon, 2023-09-10T14:06:41.000Z https://learn.microsoft.com/en-us/typography/opentype/spec/cmap#format-14-unicode-variation-sequences

レンダリング

[41] 異体列において異体選択子は基底文字または spacing mark の見た目 (appearance) に影響します。 >>30

[42] この見た目の変化は、後に続く文字、とりわけ同じ基底文字または spacing mark に適用される結合文字にも視覚的 (visual) な影響を与えることがあります。 >>30

[43] 基底文字の図形 (shape) の変化に合わせて、結合マークの図形や位置も変化するべきです。基底文字の色の変化に合わせて、結合マークの色も変化するべきです。基底文字の advance width が変化すれば、次の spacing文字の位置も変化します。 >>30

[384] 異体列に対応したフォントが存在しない時、基底文字だけの場合と同じグリフを表示し、異体選択子相当の表示はしない実装が普通です。

[385] この実装方法のメリットは、受信者が対応した異体列かどうかを個別に送信者が判断せずとも、そこそこの表示が得られる点です。

[386] この実装方法のデメリットは、送信者の意図しない表示になっていても受信者が気づかない可能性が高いことです。

[46] 異体列は、定義されたものを除き、表示 (display) 上の効果を持ちません。異体選択子によって視覚的 (visual) な見た目 (appearance) は変化しません。 >>30 適合する処理は、未定義のものを SVS として解釈してはなりません >>105。

[108] SVS を構成しない自由異体選択子は無視されるべき (should) です。 >>105

[52] 異体選択子は、結合マークであり結合クラス ccc = 0 で、 default ignorable です。従って異体列に対応していない場合には、異体選択子は不可視 (invisible) で無視されるべきです。 >>30 異体選択子は視覚的 (visual) な見た目 (appearance) を持ちません >>105。

[53] 異体選択子が可視的な見た目 (visible appearance) を与えられるモードや環境があっても構いません。例えば「隠れたものを表示する」モードで特別なグリフで表示しても構いませんし、基底文字に下波線を引いて現在のフォントでは対応できないことを示したりできます。 >>30

OpenType フォント

[467] 利用者:emk - GlyphWiki, 2024-04-30T03:46:39.000Z https://glyphwiki.org/wiki/User:emk#i2

Windows 7でIVSを認識させるには、以下の条件をすべて満たす必要があるようです。

`cmap`

[375] OpenType フォントは cmap の format = 14 を使って異体列とグリフの対応関係を記述しています。 cmap

`GSUB`

[376] Mongolian Universal White

蒙古文字の異体字選択子を cmap でなく GSUB で実現。

処理

[387] 結合列, 書記素クラスターも参照。

[360] 文字の表示上の処理の多くは、書記素クラスターを単位にします。異体選択子は結合文字ですから、異体列は書記素クラスター (の一部分) になります。多くの処理では異体列はその基底文字単体と同じように振る舞います。

[361] 例えば縦書き字形に関する Vertical_Orientation は、多くの場合に書記素クラスターの先頭文字の Vertical_Orientation となります。つまり異体列が横書きと縦書きで字形回転するかどうかは、異体選択子に関わらずに決まります。

標準化

[45] 異体選択子は、文字符号化の一般の拡張機構を想定したものではありません。基底文字や spacing mark と異体選択子の組み合わせは、 Unicode Consortium が定義するリストにあるものを除き、表示 (display) 上の効果を持ちません。 >>30 定義されていないものは、将来の標準化のために予約されています >>105。

[54] 特定の異体列の標準化や対応 (support) は、基底文字単独での表現に使うことが出来るグリフの集合を制限することにはなりません。利用者がある文字とその特定の異体の視覚的 (visual) な区別を必要としているなら、その区別のためにはフォントを使わなければなりません。 >>30

[55] 異体列が存在するからといって、異なる意味 (semantics) で同じまたは重なるグリフの範囲の新しい文字が将来符号化されることを否定するものではありません。 >>30

安定性

[206] 異体列は、誤りとして廃止された事例が2件知られています (>>82)。今後も廃止される可能性があるのかは不明です。

[136] 登録済 IVS を使ったテキストの安定性を保証するため、 IVS とグリフ的部分集合の関連付けは恒久的なものとされます。 IVS が他のグリフ的部分集合に再割当されることはありません。 >>19 恒久的ということは、変更も削除もされることはないと解釈できそうです。

[228] IVS には後から追加の代表グリフを追加することが認められています。その条件は特に規定されていません。ということはある時点の代表グリフ群から推測されるその異体列の解釈の幅と、それより後の時点の代表グリフ群から推測されるその異体列の解釈の幅が変わっていることもあり得るわけです。 (削除が認められるとは書かれていないので、幅が狭まることはないとは思われます。)

[229] SVS、 EVS の代表グリフが変更されることもありそうですが不明です。過去あったのかも不明です。 (符号点の代表グリフはたまに変更されています。)

非標準の用法

[367] Content Credentials : C2PA Technical Specification :: C2PA Specifications, 2026-01-15T06:08:55.000Z, 2026-01-27T01:56:50.482Z https://spec.c2pa.org/specifications/specifications/2.3/specs/C2PA_Specification.html#embedding_manifests_into_unstructured_text

[368] >>367 メタデータの埋め込みに濫用しています。

応用

[518] IVS は Unicode文字列ですから、 Unicode符号位置の列を制約なく使える任意の場所で使えます。

[519] その他に、応用独自の用法を定めているものもあります。

[520] 通信用語の基礎知識V6フォーマット:

      文字をそのまま書くとエディターを選んでしまう可能性があるため、
      \x{e0100};のようなエスケープ表記が望ましい。

[521] 2014-10-24T14:04:00.000Z, 2025-11-05T08:06:53.915Z https://www.wdic.org/file/dic6form.txt#:~:text=IVS

`<ivs>` (朝刊太郎)

[25] DTP ソフトウェア朝刊太郎・改(仮称)は、 ASCII文字を使った <ivs> タグという機能で IVS を文字列表現しています。

[118] 「朝刊太郎・改(仮称)」タグの使い方, 2019-06-11T13:06:00.000Z, 2020-12-24T08:24:21.588Z https://www.chokantaro.com/tag/tag.html#Ivs

辻と<ivs>辻、祇園と<ivs>祇園
兵庫の芦屋市と広島の<ivs>芦田川

辻と<ivs=2>辻、祇園と<ivs=2>祇園
兵庫の芦屋市と広島の<ivs=2>芦田川

異体字の枝番号を省略すると「0」番と判断されます。(実際の枝番号定義から逆算しやすいよう番号はゼロから指定します)

私用

[112] Unicode の異体列は標準化の対象とされ、私用の仕組みは用意されていません。

[195] 私用文字に異体選択子を併用することも認められていません。

[113] それとは別に、私用文字に独自に異体選択子的な機能を割り当てている応用もあります。

[505] 正式な VS の符号位置の勝手な利用については、 IVS 等各項を参照。

[114] Apple は U+F870 「transcoding hint: variant tag 16」 - U+F87F 「transcoding hint: variant tag 1」を定義しています。 >>15

[116] Apple が Unicode 以前に使っていた各国用の文字コードにあって Unicode にない文字で、他の Unicode文字の異体とみなされるもののために、 Unicode文字の後に置いて使われています。

[117] 例えば MacJapanese の縦書き字形に使われています。

[15] (2018-02-19 16:28:14 +09:00) ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/APPLE/CORPCHAR.TXT
- [115] 2005-04-05T01:04:12.000Z, 2020-11-13T11:39:33.292Z https://www.unicode.org/Public/MAPPINGS/VENDORS/APPLE/CORPCHAR.TXT

[427] Wenlin は PUA に独自の異体字選択子を規定して使っています。 Wenlin Variation Sequences

[502] 新異体字セレクター >>501 は新規異体字選択子の追加提案ですが、未割当なので代替として PUA を使うとしていました。

[503] 残念ながらデータファイルは Internet Archive 未所蔵です。

[5] 新異体字セレクター作成計画 ‐ 未来情報産業 ( (未来情報産業株式会社著, 2010-12-04 23:55:56 +09:00 版)) http://www.mirai-ii.co.jp/data/ivs/
- [500] 消滅確認 2025-04-06T10:19:37.200Z
- [501] 新異体字セレクター作成計画 ‐ 未来情報産業, 未来情報産業株式会社, 2025-04-06T10:21:48.000Z, 2018-08-31T11:57:19.888Z https://web.archive.org/web/20180831115702/http://mirai-ii.co.jp/data/ivs/

[504] Unicode に私用の VS を追加する提案が令和6年頃にありました >>474 が、却下されたようです。

[474] Proposal to Encode a Set of 128 User-Defined Variation Selectors - 24148-n5266-uvs_proposal.pdf, 2024-06-20T18:03:41.000Z, 2024-06-21T06:43:28.581Z https://www.unicode.org/L2/L2024/24148-n5266-uvs_proposal.pdf

冗談ネタとして消費されてきた歴史

[499] Unicode の界隈では冗談なのか皮肉なのか、異体字の問題に真剣に取り組まずに謎の内輪ウケ狙いのネタにするだけして放置していた黒歴史があります。

[487] n2326.pdf, 2001-04-01T09:18:08.000Z, 2025-01-15T12:00:07.221Z https://www.unicode.org/wg2/docs/n2326.pdf

[488] >>487 2001-04-01 (4月1日)。艹の字形を区別する異体選択子を提案していた。

[489] 実際に必要とされる機能を標準化することを怠り冗談として「提案」だけして放置、悪ノリとしか思えない。

[498] 他はまあいいとしても

FRACTAL GRASS RADICAL (grass mat radical)
DOUBLE TEN GRASS RADICAL (Taiwan national day grass radical)

は悪ノリを通り超えて意味が不明すぎてセンスを疑うレベル。冗談にも風刺にも皮肉にも何にもなっていない、実在するとも思えない、ただただ意味が不明。

[497] 組み文字も参照。

[459] Microsoft Word - wg2n4572_gvs-proposal_20140401a.doc - n4572.pdf, 2014-03-31T20:28:00.000Z, 2024-04-11T05:14:31.615Z https://www.unicode.org/wg2/docs/n4572.pdf

[460] >>459 2014-04-01 (4月1日)。〓の字形を区別する Geta VS (GVS) を提案していた。

[461] SVS として普通に有用そうだし実例が示されているように横書き字形と縦書き字形の区別は本来あるべきなのに、なぜかスルーされてるのが謎。

[462] n4796-CJKComplexSymbol.pdf, 2017-05-01T18:38:03.000Z, 2024-04-27T08:26:20.801Z http://www.unicode.org/wg2/docs/n4796-CJKComplexSymbol.pdf

[463] >>462 は2017-04-01 (4月1日)。こちらは VS とは正反対で、本来の CJK統合漢字なら統合対象にならない粒度まで統合する新しい概念の提案。問題設定は真面目だし、実際解決の必要性がありそうな課題を選んでいるのに、解決案は雑で、おそらく4月1日ならではの文書だと思われるが、いまいちその点が伝わりにくいというか、どこにユーモアがあるのかよくわからないんだよな...

[464] というかもうはっきりいってしまうと、ギャグとして滑ってるんじゃないの、って。 (ギャグなんだとしたらね。たまたま4月1日の提案になっただけで大真面目だったら申し訳ない。 ← この突っ込んでいいのか悪いのかよくわからない感じが滑ってるんよ)

[465] これがギャグだろうとなんだろうと、ここで紹介された統合対象になってない文字が、なぜ現在まで CJK統合漢字に新規追加されず、 VS も登録されないまま放置されてるのか、がやっぱり謎。

[466] どの4月1日も、解決するべき問題を示すだけ示して、非現実的な解法を提示するだけで放置して逃げてるのがダサいというか困ったところ。

[490] こういうのってやるべきことはやった上でやるから冗談として楽しめるんじゃないのかね。

[492] >>491 は >>487 について、日本が常用漢字表等に由来する文字の追加を提案した折のもので、それに反感を持った米国代表団が意趣返し的に提出したのだとしている。

[493] もし >>492 の解釈が事実だとすると、 >>487 は冗談やユーモアと言って済まされる話ではなく、 Unicode / ISO/IEC 10646 の幹部級の人々が多文化理解、文化的多様性に関して致命的なレベルの悪意を有していることになってしまうが...