[1] 正準等価性は、 基底文字と結合文字の列と合成済文字とを同一視するなどとした文字の等価性です。 正準等価性を保ちつつできるだけ基底文字と結合文字の列に分解することを正準分解、 できるだけ合成済文字に結合することを正準結合といいます。
[14] 正準分解: Unicode Character Database と Conjoining Jamo Behavior にある正準写像をそれ以上分解できる文字がなくなるまで再帰的に適用し、 Normalization Forms に従い現在位置の前進を伴わない記号を並べ替えて得られる文字または文字の列の分解。 >>13 D68
[15] 正準写像は、ハングル音節については符号位置の計算により、 それ以外については Unicode Character Database に含まれる表により定義されています。
[5] Unicode 3.0.0 から Unicode 3.1.1 までの間、U+F951
CJK COMPATIBILITY IDEOGRAPH-F951
の正準分解が誤っていたとして、
訂正 #3 で修正されています。
Unicode 3.2.0 以降は正しくなっています。 >>4
[6] 旧版では U+96FB
という全く関係ない漢字に正準分解されることになっていましたが、
新版では U+964B
となっています。 >>4
[7] この漢字は余り使われていないし、弱い正規化安定性は満たされているので問題ないだろう >>4 とされていますが、全く違う文字に正規化されていて問題ないも何もないですねwww (この当時は強い正規化安定性は保証されていませんでした。)
[8] Unicode 3.2.0 において5つのCJK互換漢字の正準分解が誤っていたとして、 訂正 #4 で修正されています。 Unicode 4.0.0 以降は正しくなっています。 >>9
CJK互換漢字 | 誤 (Unicode 3.2.0) | 正 (Unicode 4.0.0) |
U+2F868 | U+2136A | U+36FC |
U+2F874 | U+5F33 | U+5F53 |
U+2F91F | U+43AB | U+243AB |
U+2F95F | U+7AAE | U+7AEE |
U+2F9BF | U+4D57 | U+45D7 |
U+2F868
は似た漢字との混同、それ以外は符号位置の入力ミスのようです。