正準等価性

[1] 正準等価性 (canonical equivalence) は、基底文字と結合文字の列と合成済文字とを同一視するなどとした文字の等価性です。正準等価性を保ちつつできるだけ基底文字と結合文字の列に分解することを正準分解 (canonical decomposition) 、できるだけ合成済文字に結合することを正準結合 (canonical composition) といいます。

仕様書

定義

[14] 正準分解 (canonical decomposition) : Unicode Character Database と Conjoining Jamo Behavior にある正準写像をそれ以上分解できる文字がなくなるまで再帰的に適用し、 Normalization Forms に従い現在位置の前進を伴わない記号を並べ替えて得られる文字または文字の列の分解。 >>13 D68

正準写像

[15] 正準写像 (canonical mapping) は、ハングル音節については符号位置の計算により、それ以外については Unicode Character Database に含まれる表により定義されています。

歴史

訂正 #3

[5] Unicode 3.0.0 から Unicode 3.1.1 までの間、U+F951 CJK COMPATIBILITY IDEOGRAPH-F951 の正準分解が誤っていたとして、訂正 (Corrigendum) #3 で修正されています。 Unicode 3.2.0 以降は正しくなっています。 >>4

[6] 旧版では U+96FB という全く関係ない漢字に正準分解されることになっていましたが、新版では U+964B となっています。 >>4

[7] この漢字は余り使われていないし、弱い正規化安定性は満たされているので問題ないだろう >>4 とされていますが、全く違う文字に正規化されていて問題ないも何もないですねwww (この当時は強い正規化安定性は保証されていませんでした。)

[4] Corrigendum #3: U+F951 Normalization (2011-04-01 06:49:19 +09:00 版) <http://www.unicode.org/versions/corrigendum3.html>

訂正 #4

[8] Unicode 3.2.0 において5つのCJK互換漢字の正準分解が誤っていたとして、訂正 (Corrigendum) #4 で修正されています。 Unicode 4.0.0 以降は正しくなっています。 >>9

CJK互換漢字	誤 (Unicode 3.2.0)	正 (Unicode 4.0.0)
`U+2F868`	`U+2136A`	`U+36FC`
`U+2F874`	`U+5F33`	`U+5F53`
`U+2F91F`	`U+43AB`	`U+243AB`
`U+2F95F`	`U+7AAE`	`U+7AEE`
`U+2F9BF`	`U+4D57`	`U+45D7`

[10] U+2F868 は似た漢字との混同、それ以外は符号位置の入力ミスのようです。

[9] Corrigendum #4: Five Unihan Canonical Mapping Errors (2011-04-01 06:49:26 +09:00 版) <http://www.unicode.org/versions/corrigendum4.html>

[11] 今回は稀な文字だから問題ないなどという言い訳はありませんw

Corrigendum #4

仕様書

定義

正準写像

歴史

訂正 #3

訂正 #4

関連