文字列正規化

正規化、正準化

[1] 正規化 (normalization) 正準化 (canonicalization) は、 表記揺れを統一する演算です。

いろいろな正規化

[3]

文字列正規化

[6] Unicode文字列正規化

[50] StringprepUnicode IDNA互換性処理PRECIS も広義の正規化と言えますが、 Unicode正規化に加えて大文字と小文字の変換や禁止文字などその他の処理も組み合わさっています。 IDNA2008 による制約を満たす文字列も広義の正規化形と言えますが、やはり他の制約が組み合わさっています。

[5] 正規化形応用レベルの文脈上の制約を組み合わせた概念もあります。

[7] 自然言語処理その他のための正規化

文脈

[2] 比較の基礎となる演算でもあります。

[4] 電子署名正規形に対して演算するのが一般的です。 本質的でない表現のバリエーションによる検証の失敗を防ぐためです。

関連

[5] 文字列の比較

メモ