[3] 特性
Grapheme_Base
の文字には、
基底文字が含まれますが、
U+FF9E
, U+FF9F
は含まれません。
ほとんどの
spacing mark
が含まれます。
>>1 D58
[5]
書記素拡張子は、
特性
Grapheme_Extend
の文字です。
すべての
nonspacing mark、
ZWJ
,
ZWNJ
,
U+FF9E
,
U+FF9F
,
一部の spacing mark
が含まれます。
>>1 D59
[6]
ZWJ
,
ZWNJ
は、
前後が他の書記素拡張子の列のとき、
それを分断しないように書記素拡張子に含まれています。
>>1 D59
[7] 書記素基底と書記素拡張子は、互いに素です。 >>1 D59
[8]
Grapheme_Extend
は
Grapheme_Cluster_Break
= Extend
から導出されたものですが、完全には一致しません。
>>1 D59
Graphme_Extend
の一覧
https://chars.suikawiki.org/set/%24unicode%3AGrapheme_ExtendGrapheme_Base
と
Grapheme_Extend
のどちらに属するか見る
https://chars.suikawiki.org/set/compare?expr=$unicode:spacing-mark&expr=$unicode:Grapheme_Base%20-%20$unicode:base-character&expr=$unicode:Grapheme_Extend%20-%20$unicode:nonspacing-mark[13] 書記素クラスターは、 UAX #29 書記素クラスター境界間のテキストです。 >>1 D60
[14] UAX #29 は拡張済書記素クラスターと遺物書記素クラスターを定義している上に、 tailor 可能と定めています。 >>1 D60
[19] 拡張済書記素クラスターは、 UAX #29 拡張済書記素クラスター境界の間のテキストです。 >>1 D61
[15] 書記素クラスターはテキストの水平に segment 化可能な単位です。 いくつかの書記素基底と、 それに適用されるいくつかの nonspacing mark を合わせたものです。 >>1 D60
[16] 結合文字列と書記素クラスターは似ていますが、 同じではありません。 結合文字列は主に正規化、 比較、 検索のような処理に関係してきます。 書記素クラスターは主に text rendering やカーソル配置、 テキストの選択のような処理に関係してきます。 比較や検索に関係することもあります。 >>1 D60
[18] 多くの処理においては、 書記素クラスターは、 書記素基底と同じ特性の1つの文字のような挙動を示します。 >>1 D60
[20] 関連付けられた書記素基底は、 nonspacing mark が属する書記素クラスター中の書記素基底です。 >>115 D61b
[22] nonspacing mark は、 関連付けられた書記素基底に適用するといいます (図形的適用)。 >>115 D61b
[23]
Vertical_Orientation
は書記素クラスターの最初の文字によって定義されます。
Vertical_Orientation
[24] 書記素クラスターは、 大まかに言って一般の利用者が 「文字」 と認識するものを表しています。 Unicode は結合文字その他の仕組みを導入し 「文字」 より細かな単位を文字と呼んでしまっているため、 齟齬が生じています。
[27] CSS Writing Modes の一部の規定では、 文字とは書記素クラスターを意味すると定義して使っています。 いちいち書記素クラスターと書いて使うのが厳密なのでしょうが、 煩雑で読みにくくイメージしがたい文章になってしまいます。
[25]
The Unicode Standard
は、
スロバキア語 ch
、
「kw」のような修飾子付きのもの、
合字その他のような一般の
「文字」
の単位が必ずしも一定しない事例があることから、
言語や、
照合、一致など応用にも依存して
「文字」
の決め方は変える必要があるとしています。
>>142
[26] 書記素クラスターは、一般の 「文字」 に近いものを言語に依存しない形で定義したものです。 これを基礎に、言語や用途によって必要なら tailor して使うことが期待されています。 >>142
[17] UTR #50 や CSS Writing Modes は書記素クラスターを使って書字方向の処理を定めています。
[29] Uniscribe はクラスターという単位を持っています。
書記素クラスターに近いものに見えますが、同じかどうかは不明です。