grapheme clusters

grapheme clusters

仕様書

書記素基底

[3] 特性 Grapheme_Base文字には、 基底文字が含まれますが、 U+FF9E, U+FF9F は含まれません。 ほとんどの spacing mark が含まれます。 >>1 D58

[2] 書記素基底 (grapheme base) は、 特性 Grapheme_Base文字か、 標準韓音節ブロックです。 >>1 D58

[4] 書記素基底拡張済基底と似ていますが、多少の出入りがあります。

書記素拡張子

[5] 書記素拡張子 (grapheme extender) は、 特性 Grapheme_Extend文字です。 すべての nonspacing markZWJ, ZWNJ, U+FF9E, U+FF9F, 一部の spacing mark が含まれます。 >>1 D59

[6] ZWJ, ZWNJ は、 前後が他の書記素拡張子の列のとき、 それを分断しないように書記素拡張子に含まれています。 >>1 D59

[7] 書記素基底書記素拡張子は、互いに素です。 >>1 D59

[8] Grapheme_ExtendGrapheme_Cluster_Break = Extend から導出されたものですが、完全には一致しません。 >>1 D59

書記素クラスター

[13] 書記素クラスター (grapheme cluster) は、 UAX #29 書記素クラスター境界間のテキストです。 >>1 D60

[14] UAX #29拡張済書記素クラスター遺物書記素クラスターを定義している上に、 tailor 可能と定めています。 >>1 D60

[19] 拡張済書記素クラスター (extended grapheme cluster) は、 UAX #29 拡張済書記素クラスター境界の間のテキストです。 >>1 D61

[15] 書記素クラスターテキストの水平に segment 化可能な単位です。 いくつかの書記素基底と、 それに適用されるいくつかの nonspacing mark を合わせたものです。 >>1 D60

[16] 結合文字列書記素クラスターは似ていますが、 同じではありません。 結合文字列は主に正規化比較検索のような処理に関係してきます。 書記素クラスターは主に text renderingカーソル配置、 テキストの選択のような処理に関係してきます。 比較検索に関係することもあります。 >>1 D60

[18] 多くの処理においては、 書記素クラスターは、 書記素基底と同じ特性の1つの文字のような挙動を示します。 >>1 D60


[20] 関連付けられた書記素基底 (associated grapheme base) は、 nonspacing mark が属する書記素クラスター中の書記素基底です。 >>115 D61b

[22] nonspacing mark は、 関連付けられた書記素基底適用する (apply) といいます (図形的適用 (graphical application) )。 >>115 D61b

[21] 関連付けられた基底文字とそれへの適用と似た意味ですが、少しずつ定義が違います。

[23] Vertical_Orientation書記素クラスターの最初の文字によって定義されます。 Vertical_Orientation


[24] 書記素クラスターは、 大まかに言って一般の利用者が 「文字 (character) 」 と認識するものを表しています。 Unicode結合文字その他の仕組みを導入し 「文字」 より細かな単位を文字と呼んでしまっているため、 齟齬が生じています。

[27] CSS Writing Modes の一部の規定では、 文字 (character) とは書記素クラスターを意味すると定義して使っています。 いちいち書記素クラスターと書いて使うのが厳密なのでしょうが、 煩雑で読みにくくイメージしがたい文章になってしまいます。

[25] The Unicode Standard は、 スロバキア語 ch、 「kw」のような修飾子付きのもの、 合字その他のような一般の 「文字」 の単位が必ずしも一定しない事例があることから、 言語や、 照合一致など応用にも依存して 「文字」 の決め方は変える必要があるとしています。 >>142

[26] 書記素クラスターは、一般の 「文字」 に近いものを言語に依存しない形で定義したものです。 これを基礎に、言語や用途によって必要なら tailor して使うことが期待されています。 >>142

応用

[17] UTR #50CSS Writing Modes書記素クラスターを使って書字方向の処理を定めています。

[30] Unicode用字系特性値

フォント

[28] GSUB, cmap

[29] Uniscribeクラスターという単位を持っています。 書記素クラスターに近いものに見えますが、同じかどうかは不明です。 連なり, shaping engine

関連

組合せて使う文字

メモ