[2]
Unicode符号点は、
結合クラス
(特性 Canonical_Combining_Class
, ccc
)
を持ちます。
結合クラスは、
正準順序付けアルゴリズムで結合マークの正準等価性の決定に使う
[ 0, 254 ]
の数値です。
>>1 D104
[3]
Canonical_Combining_Class
は、
UCD
の
UnicodeData.txt
で定義されます。
DerivedCombiningClass.txt
にも収録されています。
>>1 D104
[4] データファイルに明記されていないときの既定値は、 0 です。 >>1 D104
ccc
が
0
以外なのは、
結合マークだけです。
>>1 D104ccc
が非 0
ではないものもあります。
>>1 D104ccc
= 0
の結合文字には、
例えば
CGJ
があります。[11] 固定位置クラスは、 結合クラスの部分集合で、 範囲 [ 10, 199 ] の数値です。 >>1 D105
[12] 固定位置クラスは、 ヘブライ文字、 アラビア文字、 シリア文字、 テルグ文字、 タイ文字、 ラオス文字、 チベット文字の少数の結合マークのみに適用され、 grapheme base に対して固定された位置に出現するものを表しています。 適用対象となる結合文字には Arabic vowel point や Indic matras のような母音記号の一部が含まれますが、 すべてではありません。 >>1 D105
[13] 固定位置クラスは、 正規化形の正式な標準化に先立つ開発の初期段階に由来する歴史的遺物とされます。 >>1 D105
[15]
ccc
は、元々、
typograph的相互作用を持つ
nonspacing mark
を同じ値でグループ化すべく定められました。
ccc
を使って行われる
canonical ordering
は、
通常は、
... となります。
ところが固定位置クラスの結合文字など、
一部には
ccc
が違うのにtypograph的相互作用するケースもあります。
>>1
[18]
それ故に
ccc
が規定として使われるのは正準順序付けアルゴリズムだけです。
>>1