仕様書

[2] Ideographic Description Characters (2019-04-27 04:21:40 +09:00) https://www.unicode.org/charts/PDF/U2FF0.pdf
[135] The Unicode Standard, Version 15.0 - ch18.pdf, 2022-09-08T18:13:46.000Z, 2023-11-17T12:04:28.468Z https://www.unicode.org/versions/Unicode15.1.0/ch18.pdf#page=25
- [4] 旧: The Unicode Standard, Version 12.0 - ch18.pdf (2019-03-02 07:15:42 +09:00) https://www.unicode.org/versions/Unicode12.0.0/ch18.pdf#page=24

意味

[16] 結合文字と構図は似ていますが、文字として扱われるべきものそのものではなく、漢字の構造を記述したものに過ぎない >>4 とされています。

[17] Unicode に含まれる漢字の分析のための記述に使うこともできます。 >>4

[13] Unicode に含まれる漢字の代替図形表現を交換する手段として使うべきではありません。 >>4

[40] そのような手段には、例えば IVS があります。

[39] IDS は通常の漢字の列に溶け込んで「漢⿱宀子列」のようにして外字の記述に使われます。厳密な意味の解釈においては、これは漢字3文字の列を表しているのか、漢字1文字、IDSによる漢字の構造1組、漢字1文字の3組の列を表しているのか明らかではありません。そのような厳密さが必要な場合には、マーク付け言語の機能で「漢<gaiji>⿱宀子</gaiji>列」のように記述するなど、アプリケーション依存の方法でもう1工夫必要となります。

[57] 漢字以外の表現に流用されることもあります。例えば単位を表すラテン文字や片仮名の合字の記述に使われることがあります。

構文

[20] IDC を使って表意文字的なものを記述する文字列を表意文字的記述列 (Ideographic Description Sequence) (IDS) といいます。

[21] IDS は、 Ideographic, Radical, CJK_Stroke, 私用, U+FF1F か、 IDS_BinaryOperator に IDS が2つ続くものか、 IDS_TrinaryOperator に IDS が3つ続くものです。 >>4

[148] また、 IDS_Unary_Operator に IDS が1つ続くものです。

[26] IDS

|
1. Ideographic
2. Radical
3. CJK_Stroke
4. 私用
5. U+FF1F
6. =
  1. IDS_Unary_Operator
  2. IDS
7. =
  1. IDS_BinaryOperator
  2. IDS
  3. IDS
8. =
  1. IDS_TrinaryOperator
  2. IDS
  3. IDS
  4. IDS

[38] Unicode Standard の定義上は、 IDC を使わないただの単独の漢字や部首も「IDS」となっています。普通に「IDS」と言ったときにそれがただの漢字だったというケースはあまりない気がします。入れ子の定義を簡潔にするためにこうしているのでしょうか。

[87] この IDS の構文定義だと、 IDS の直後に結合文字や ZWJ や ZWNJ が続くとき、 IDS の一部ではないのに IDS または IDS の最後の符号点と書記素クラスターを構成することになるのですかね?

[14] 同じ漢字を複数の異なる IDS で表現できるかもしれませんが、等価性は規定されていません。自然な分割で最短の表現とすることが好ましいですが、要件とはなっていません。ただ可能な限り最短の表現を使うのが好ましいとは注文されています。 >>4

[205] 逆に、分析目的の場合のように、出来得る限り細かく分解する場合もあるようです。

演算子

[85] IDC は前置演算子で、引数となる後続の文字の数は IDC ごとに違います。

[149] IDS_Unary_Operator は、 U+2FFE と U+2FFF です。 >>143

p: 符号位置
c: 文字
n: 文字名称

p: U+2FFE
c: ⿾
n: IDEOGRAPHIC DESCRIPTION CHARACTER HORIZONTAL REFLECTION

p: U+2FFF
c: ⿿
n: IDEOGRAPHIC DESCRIPTION CHARACTER ROTATION

[22] IDS_BinaryOperator は、 U+2FF0, U+2FF1, [ U+2FF4, U+2FFB ] の10文字 >>4 と、 U+2FFC, U+2FFD, U+31EF です。 >>143

p: 符号位置
c: 文字
n: 文字名称
1: 次の文字
2: 次の次の文字

p: U+2FF0
c: ⿰
n: IDEOGRAPHIC DESCRIPTION CHARACTER LEFT TO RIGHT
1: 左
2: 右

p: U+2FF1
c: ⿱
n: IDEOGRAPHIC DESCRIPTION CHARACTER ABOVE TO BELOW
1: 上
2: 下

p: U+2FF4
c: ⿴
n: IDEOGRAPHIC DESCRIPTION CHARACTER FULL SURROUND
1: 外側
2: 内側

p: U+2FF5
c: ⿵
n: IDEOGRAPHIC DESCRIPTION CHARACTER SURROUND FROM ABOVE
1: 外側
2: 内側・下

p: U+2FF6
c: ⿶
n: IDEOGRAPHIC DESCRIPTION CHARACTER SURROUND FROM BELOW
1: 外側
2: 内側・上

p: U+2FF7
c: ⿷
n: IDEOGRAPHIC DESCRIPTION CHARACTER SURROUND FROM LEFT
1: 外側
2: 内側・右

p: U+2FF8
c: ⿸
n: IDEOGRAPHIC DESCRIPTION CHARACTER SURROUND FROM UPPER LEFT
1: 左・上
2: 内側

p: U+2FF9
c: ⿹
n: IDEOGRAPHIC DESCRIPTION CHARACTER SURROUND FROM UPPER RIGHT
1: 右・上
2: 内側

p: U+2FFA
c: ⿺
n: IDEOGRAPHIC DESCRIPTION CHARACTER SURROUND FROM LOWER LEFT
1: 左・下
2: 内側

p: U+2FFB
c: ⿻
n: IDEOGRAPHIC DESCRIPTION CHARACTER OVERLAID

p: U+2FFC
c: ⿼
n: IDEOGRAPHIC DESCRIPTION CHARACTER SURROUND FROM RIGHT

p: U+2FFD
c: ⿽
n: IDEOGRAPHIC DESCRIPTION CHARACTER SURROUND FROM LOWER RIGHT

p: U+31EF
c: ㇯
n: IDEOGRAPHIC DESCRIPTION CHARACTER SUBTRACTION

[27] U+2FFB は重ね合わせを表します。例えば「⿻工从」は「巫」を表します >>4。

[35] U+2FFB と U+31EF は外部情報なく機械的に処理できません。

[23] IDS_TrinaryOperator は、 U+2FF2 と U+2FF3 です。 >>4

p: 符号位置
c: 文字
n: 文字名称
1: 次の文字
2: 次の次の文字
3: 次の次の次の文字

p: U+2FF2
c: ⿲
n: IDEOGRAPHIC DESCRIPTION CHARACTER LEFT TO MIDDLE AND RIGHT
1: 左
2: 中
3: 右

p: U+2FF3
c: ⿳
n: IDEOGRAPHIC DESCRIPTION CHARACTER ABOVE TO MIDDLE AND BELOW
1: 上
2: 中
3: 下

[29] IDS の前に U+303E IDEOGRAPHIC VARIATION INDICATOR (〾, IVI) を置くことで、 IDS が近似であることを示せます。 >>4

[136] IVI つき IDS

〾
IDS

[137] しかしながら、 IVI は IDS の一部ではないとされています。 >>135 IDS 全体の前に IVI を置いて全体が近似であることは示せますが、 IDS の中に IVI を入れて IDS の一部が近似であることは示せません。

[150] Unicode 15.1 の演算子の追加 (>>138) があるまで、いくつか非標準の演算子が使われていました。

[75] >>73 は ↔, ↷, ⊖ の独自の演算子を使っています。

[154] GlyphWiki / CHISE にはいくつか独自の演算子があります。

[198] 代用表記 (新・新しい日本語を作る会) にもいくつか拡張があります。

[201] Xユーザーの膦酯熊貓(Pambdaphos)さん: 「“包”を記述する為のUCS外のIDS https://t.co/Yt9H7kOc2z」 / X, 午前6:32 · 2025年1月22日, 2025-01-24T02:30:27.000Z https://x.com/Pambdaphos/status/1881817249327313291

[151] 文字

文字: ⿾
代替表現: ↔

[152] 文字

文字: ⿿
代替表現: ↷

[153] 文字

文字: ㇯
代替表現: ⊖

被演算子

[30] IDS の IDC 以外の文字 (operand) の一覧は次の通りです。

[31] Character set "IDS (operand character)" (2019-06-15 10:53:53 +09:00) https://chars.suikawiki.org/set/%24unicode%3AIDS-operand-char

[18] IDS は漢字だけでなく、同様の構造を持つ周辺の文字にも適用できます。 >>4

[25] 異なる用字系の混在は正式な構文上禁止されていませんが、好ましくありません。 >>4

[28] U+FF1F FULLWIDTH QUESTION MARK もなぜか認められています。不明を表すのでしょうか。説明はありません。なぜ敢えて全角形のみ認めているのか不明です。

[76] >>73 はこれを「記述不能」に使っています。他の IDS データベースも明記せずこれを使っていることがあります。 UAX #45 は半角の ? を使っています。他に 〓 を使った例や、文字化けかもしれませんが U+FFFD を使った例も見られます。

[32] 漢字でありながら CJK統合漢字外のものとして、例えば「〇」は認められていますが、「々」はなぜか認められていません。

[33] IVS を使う需要はありそうですが、なぜか認められていません。

[34] 仮名、ハングル、ラテン文字を部品とする漢字の例が知られますが、認められていないため IDS で表現できません。

[48] なぜか私用文字が認められています。相互運用性に貢献しなそうで謎です。

[52] 実際に流通している IDS や IDS データベースでは、必要に応じて表意文字以外や IVS が使われることも珍しくありません。 CJK互換漢字, 部首, CJK筆画, 仮名が使われることもあります。

[53] CHISE の IDS データベース >>3 では CHISE文字参照が使われています。現行漢字の他に、甲骨文字や篆書にも利用されているようです。

[56] 漢字データベースプロジェクトの IDS データベースには CDP外字が使われています。 CDP外字なしの版もあり、記述できない部品はかわりに画数を①②のように丸付き数字で記述しています。部品として α, ℓ, △ も使われています。

[113] GlyphWiki は「当面の間」 CDP外字とCJK互換漢字を認めています。 >>112

[74] BabelStone の IDS (>>100) は Unicode にない文字部品を {1}, {2} のように記述しています。ファイル内の他に >>108 にも例示があります。

[90] IRG はSGMLの文字参照風の構文で Unicode にない文字部品を表しています。 >>89

[91] UAX #45 は IRG 方式を踏襲していますが、区切子として &, ; のかわりに [, ] を使います。 >>89

[98] IRGN2225 >>97, >>99: IRG が使う Unicode にない漢字部品。符号、字形、文字の名前、 CDP との対応などが示されている。

[105] HKSCS の IDS では Unicode にない漢字部品が3,4桁の英数字列 (区切子なし) で表されています。 >>104 の2つめのファイルに一覧があります。

[107] >>106 は IRG, HKSCS, CDP, BabelStone に加えて GF1997, GF2009, UCV から漢字部品を選んで連番を振っています。

[129] >>50, >>119 は独特の構文を導入しています。

[124] #(...) : Unicode で表せない文字部品と思われます。
[125] ⿻[...] : 重ね方と思われます。
[126] ⿴[n], ⿶[n], ⿷[n], ⿹[n] : 不明。
[127] >>119: ドキュメントには [s] で地域字形を表すと書かれていますが、現在のデータには出現しません。
[122] >>50: ↔s, ↷s
[130] >>50 lv0 : 漢字の後に記号を加えて細かな字形差を表しています。

[128] >>79 は Unicode で表せない構成要素を {...} と表しています。

[203] IWDS では包摂規準の記述のため、具体的な何かではなく任意の構成要素を表すために ⬚ を使っています。 >>204

長さ制限

[24] 以前の版では IDS の部分の長さに制限がありましたが、撤廃されました。 >>4

[54] 実装では実際的な制限を設けていることがあります。セキュリティーのためにも何らかの上限は必要です。

処理

[41] IDC は、 IDS として以外の用法は定められていません。しかし任意の入力を受信する実装 (文字列を処理するほとんどの実装) は、 IDS の構文に合致しない IDC を与えられた時にも適切に処理できる必要があります。

[42] 例えば、 IDC が単独で出現したときにクラッシュするような実装は、不適切です。

[46] 実際、 IDS を意識しないで IDC を使う場合 (例えば Unicode文字の一覧表や、「⿱の構造」のような書き方をする場合) や、厳密に IDS の構文では記述できないものを敢えて記述する場合 (>>30) のような事例が見られます。

レンダリング

[7] IDC は制御文字でも結合文字でもありません。 >>4

[12] IDC は制御文字ではないので、 IDC の有無でレンダリングは違わなければなりません。 >>4

[8] 文字境界や語境界に影響しなければならないという要件はありません >>4 (が影響させることは禁止もされていません)。

[9] 個別の文字の並びとしてレンダリングしても構いませんし、 IDS を解釈した結果をレンダリングしても構いません。 >>4

[10] 後者の場合、 hit test、カーソル移動その他利用者インターフェイス関係では合字として扱うべきです。 >>4

[43] IDC のうち「⿻」だけは、機械的に合成してレンダリングすることが困難です。

[44] それ以外は機械的に合成可能ですが、構成要素の幅を適切に決めて美しくレンダリングするのは中々に難しそうです。

[45] 同じ木偏でも「林」と「機」では幅がかなり違います。

[11] 不適切な IDS の扱いは明記されていませんが、後者の実装方法の場合でも前者の方法とするべきでしょう。

[88] 実装が異常動作してはいけません。文字のセキュリティー

[83] IPSJ-MGN601107.pdf, 2023-07-13T07:58:08.000Z, 2023-07-13T07:59:36.592Z https://ipsj.ixsq.nii.ac.jp/ej/index.php?action=pages_view_main&active_action=repository_action_common_download&item_id=199699&item_no=1&attribute_id=1&file_no=1&page_id=13&block_id=8#page=5

IDS を ccmp で実装した Source Han の事例。

[86] OpenType による実装については、連なりも参照されたし。

[196] zi.tools では KAGE でレンダリングしています。

相互作用

[36] 漢字は基底文字になり得るので、次に結合文字が来ることが認められています。では IDS の後に結合文字が来たときどうなるのでしょうか。 IDS を1つにまとめてレンダリングするなら、それ全体が基底扱いになるのでしょうか。 IDS の一部分ではないので、IDS を構成する最後の漢字に結合するのはおかしい気がします。

[47] IDS 内部に ZWJ, ZWNJ を挿入することは構文的にできません。前後に挿入することはできますが、効果の程は不透明です。続け字

非標準の用法

[59] Webページや SNS で IDS の形を取らずに構造を説明するために使われることがたまにあるようです。 (例えば偏と旁で横並びであることを「⿰」で表すような。)

[58] 2022-11-09T13:37:37.000Z http://www.nomfoundation.org/nom-tools/Tu-Dien-Chu-Nom-Dan_Giai/Arrangement-of-Entries?uiLang=en

ここでは中置記法で使われています。

[199] 代用表記 (新・新しい日本語を作る会) は IDS を拡張した独自の構文を定めています。

[200] XユーザーのCLOUT COLLECTION ™️さん: 「『 ⿻ 』ᴄʟᴏᴜᴛ ᴄᴏʟʟᴇᴄᴛɪᴏɴ ™️ Dip-Dye Distressed Cable Knit Sweater https://t.co/KpuhHJYI3R https://t.co/oV2l9lmLMv」 / X, 午後7:37 · 2024年10月18日, 2024-12-20T13:52:17.000Z https://x.com/cloutcollection/status/1847225360175476814

[202] Source Han Serif Version 2.003 Read Me - SourceHanSerifReadMe.pdf, 2025-03-03T14:07:52.000Z https://raw.githubusercontent.com/adobe-fonts/source-han-serif/release/SourceHanSerifReadMe.pdf#page=28

Fixed TW/HK mapping for ⿱攵-composed glyphs. See Issue #115.

[197] Xユーザーの白砂沙帆さん: 「⿻質問募集中⿻ 愛原ありさ・白砂沙帆への質問をハッシュタグ【 #ありさほ質問】で募集します…!個人でも2人でも…!ぜひ何個でも沢山ポストしてくださると助かります! こちらは明日のトークイベントのコーナーで使わせていただきます✨️明日の夜暇だなって方もぜひふらっといかがですか🤭🌙*.」 / X, 午後8:08 · 2024年9月22日, 2024-09-22T11:12:51.000Z https://x.com/sahoshirasu/status/1837811313948742136

[206] Hal Seki ⿻(@hal_sk)さん / X, 10月10日, 2025-11-27T09:35:19.000Z https://x.com/hal_sk

[207] のりぃ⿻(@noly_sugii)さん / X, 2025年6月5日, 2026-02-04T04:52:47.000Z https://x.com/noly_sugii

運用方針

[95] IRG:

[92] HKSCS:

[133] CHISE:

[134] 2morioka.pdf, 2021-07-07T03:30:55.000Z, 2023-08-20T02:06:12.957Z http://kanji.zinbun.kyoto-u.ac.jp/seminars/oricom/PDFs/2021-7PDFs/2morioka.pdf

漢字のIDSデータ

[109] Unicode:

[110] UAX #45
- [111] 出典Uの符号化済漢字、未符号化漢字、却下された漢字

[65] CHISE:

[70] CHISE / CHISE IDS database · GitLab, 2023-07-06T13:52:22.000Z https://gitlab.chise.org/CHISE/ids
- 公式
[69] GitHub - chise/ids: Mirror of https://gitlab.chise.org/CHISE/ids, 2023-07-06T13:51:50.000Z https://github.com/chise/ids
- 公式ミラー
[66] GitHub - osfans/chise-ids, 2023-07-06T13:50:12.000Z https://github.com/osfans/chise-ids
- [68] ミラー
[84] 甲骨文字
[67] UCS, 大漢和辞典, CNS 11643, CBETA 等

[64] 漢字データベースプロジェクト:

[78] GlyphWiki:

[80] GlyphWiki は既存文字コードにない漢字で IDS で表せるものはグリフ名を IDS (の符号位置をASCII文字列にしたもの) にしています。
- [82] グループ:IDS - GlyphWiki, 2023-07-07T11:20:52.000Z https://glyphwiki.org/wiki/Group:IDS

[100] BabelStone:

[71] その他:

[50] GitHub - yi-bai/ids: Yet another IDS (Ideographic Description Sequences) lists with MIT license, 2022-10-21T05:55:10.000Z https://github.com/yi-bai/ids
- Unicode
[119] GitHub - Transfusion/cjkvi-ids-unicode: Unicode-only CJKV IDS data, 2023-08-12T03:31:19.000Z https://github.com/Transfusion/cjkvi-ids-unicode
[79] GitHub - hfhchan/ids: Ideographic Description Sequences, 2023-07-06T14:31:13.000Z https://github.com/hfhchan/ids
- GlyphWiki hkcs データ + 手動
- Unicode

歴史

[51] 漢字構造記述は古来いろいろな方法が試されてきました。

[5] GBK で規定されました。 >>4

[6] GBK を出典に Unicode に追加されました。 >>4

[1] Ideographic Description Characters (Unicode block) - Wikipedia (2019-06-14 07:58:52 +09:00) https://en.wikipedia.org/wiki/Ideographic_Description_Characters_(Unicode_block)

[37] IDS + OpenType: Pseudo-encoding Unencoded Glyphs (2020-10-21T02:06:27.000Z) https://blogs.adobe.com/CCJKType/2014/03/ids-opentype.html

[60] jj11.pdf, 2022-11-10T13:46:57.000Z https://jaet.sakura.ne.jp/?plugin=attach&refer=%E5%87%BA%E7%89%88%E7%89%A9%2F%E3%80%8E%E6%BC%A2%E6%83%85%E7%A0%94%E3%80%8F%E7%AC%AC11%E5%8F%B7&openfile=jj11.pdf#page=14

新 IDC の追加

[138] 令和5(2023)年の Unicode 15.1 で新しい IDC が追加されました >>139, >>140。

[144] 従来の IDC のブロックの空きを埋める形で [ U+2FFC, U+2FFF ] の4文字が >>140、 CJK Strokes ブロックの末尾に U+31EF の1文字が >>139 追加されました。

[145] The Unicode Standard は大版が繰り上がるときに規格本体が改正され、小版のみの改正では UCD や符号表などのみが改正されることになっています。従って Unicode 15.1 は Unicode 15.0 の規格本体等と Unicode 15.1 の改正差分の UCD, 符号表等で構成されています。

[146] ところで IDS の構文と意味は規格本体で規定されています >>135。そのため Unicode 15.0 に改正前の規定がありますが、 Unicode 15.1 に改正後の規定は見当たりません。符号表と UCD で文字の情報は増えているのに、その使い方は定義されないままになっているのです。

[147] 改正概要にに

There are 5 new ideographic description characters. These extend the syntax of ideographic description sequences.
Two of the new ideographic description characters function as unary operators, which necessitated introduction of a new binary property: IDS_Unary_Operator.

... とあり >>142、確かに UCD には追加後の定義が含まれます >>143 が、その「extend the syntax」に相当する規定が見当たりません。

[49] (2021-06-30T13:11:37.000Z, 2021-07-06T05:40:44.833Z) https://www.unicode.org/L2/L2021/21118-kids-preliminary.pdf

[55] L2/22-247 (CJK & Unihan Group Recommendations for UTC #173 Meeting) - 22247-cjk-unihan-group-utc173.pdf, 2022-10-28T14:51:30.000Z, 2022-10-31T13:10:23.394Z https://www.unicode.org/L2/L2022/22247-cjk-unihan-group-utc173.pdf#page=45

IDEOGRAPHIC DESCRIPTION CHARACTER SUBTRACTION

IDC (Unicode)

仕様書

意味

構文

演算子