[1] 合成除外表は、 正準分解可能な文字のうち、合成 (初等合成) が行われないものの表です。 NFC や NFKC は分解の後に初等合成を行いますが、ここで合成結果として採用しない文字の表がこの合成除外表です。
[7] 用字系固有に分類される文字は、 正準分解できるものの、通常はその用字系の利用時に合成形は使わないものです。 >>5
[8] 例: U+0958
DEVANAGARI LETTER QA
(क़
)
>>5
[9] 合成版後に分類される文字は、 合成版であるところの Unicode 3.0 よりも後に追加された正準分解できる文字です。 >>5
[11] 一人っ子に分類される文字は、 文字1つだけへの正準分解を持つ文字です。 >>5
[12] 例: U+2126
OHM SIGN
(Ω
)
>>5
[2] 一人っ子というのはちょっとわかりにくいのですが、 UAX #15 には次のような例が挙げられています。
U+212B
(ANGSTROM SIGN
)
の正準分解は <U+0041, U+00C5>
(<LATIN CAPITAL LETTER A, COMBINING RING ABOVE>
) である。U+00C5
(LATIN CAPITAL LETTER A WITH RING ABOVE
)
の正準分解も <U+0041, U+00C5>
である。U+212B
が U+00C5
になってしまう (一人っ子分解)。[13] 非開始子分解に分類される文字は、 正準分解で複数の文字に展開されるものであって、その文字自体が開始子で無いか、 または正準分解した最初の文字が開始子で無いものです。 >>5
[17] 新たに正準分解が追加される場合、その分解結果の文字のうち一つでもそれ以前の版の Unicode に含まれていたなら、合成除外表に追加しなければなりません。 >>5
[18] >>17 に該当しない場合は、合成除外表に入れても入れなくても構いません。 どちらにするかは、合成形を普通に使うかどうかによって決めます。 >>5
[23] 既存の文字の合成除外表への追加や削除は、 NFC や NFKC の結果が変わってしまうことになるので、 正規化形の安定性の原則から認められません。
[24] Unicode 3.0.0 と Unicode 3.0.1 では
U+FB1D
HEBREW LETTER YOD WITH HIRIQ
が本来合成除外表に入れられるべきところ、誤って入っていなかったとして、
訂正 #2 で修正されています。
Unicode 3.1.0 以降では合成除外表に含まれています。
>>25、>>3
[26] このため、この修正の前後では NFC と NFKC の結果が変化することがあります。
[27] 非互換変更はしないつもりだけど使用頻度は高くないし云々などという恥ずかしい言い訳 >>25、>>3 をまたしておりますぞ。懲りない連中ですこと。
[21] 合成除外表は >>20 で配布されています。ただし >>11 と >>13 は他の特性から計算できるということで、 コメント化されています。 >>5
[22] すべての一覧は、 UCD に特性 Full_Composition_Exclusion として含まれています。 >>5, >>30
[31] 狭義の合成除外表に含まれる文字の一覧は、 >>33 にあります。 すべての含まれる文字の一覧は、 >>32 にあります。
[28] Unicode 3.0 と Unicode 3.1 の間の訂正 #2 で1文字非互換に追加されました (>>24)。