
NFC (Unicode)

[1] UnicodeNFC (正規化形 C) は、 http://www.unicode.org/reports/tr15/#Normalization_Form_C で規定されている Unicode 文字列の正規形のひとつです。

NFC は、大まかには、正準分解を行った後に正準結合を行います。 これによって、ひとつの文字に複数種類の表現が対応するときに、 (Unicode 的に) 等価でもっとも短い形にすることができます。

[17] Unicode正規形を用いるほとんどの場面では、 NFC が採用されています。


  1. 仕様書
  2. 定義
  3. 文脈
  4. NFC によるデータ破壊
  5. 変種
  6. デマ
  7. NFC を採用するプロトコル



[2] 詳しい定義はこうです。 (実装はこれと同じ結果が得られるなら、他の方法を使ってもかまいません。)

  1. 原始文字列 S の正準分解を、 実装が対応している最新版の UCD正準写像に従って生成する。
  2. 分解中の最初から最後までのそれぞれの文字 C について、次の操作を繰り返す。
    1. C が最後の開始子 L から妨害されておらず、 L初等結合できるなら、 L を合成 L-C で置換し、 C を削除する。
  3. これによって得られた文字列 S'SNFC である。

[5] 仕様書:


[32] 一般論として、 Unicode文字列NFC とするのが好ましいと考えられています。

[33] しかし、文字列生成者NFC を使うべきですが、 消費者は勝手に正規化するべきではないとされています。

[50] 実際には、正規化は破壊的な操作なので、情報交換では使うべきではありません。 プロトコルが要求する場合だけに限るべきです。 正規化

NFC によるデータ破壊#

[57] NFC は破壊的操作です。データが不可逆に変化します。 恒久的に保存される、または外部に送信されるオリジナルデータに適用するべきではありません。 Unicode正規化


[56] KS X 1026-1


[64] 普通のUnicodeはNFCなのか – ものかの, , https://tama-san.com/unicode-nfc/



NFC を採用するプロトコル#

[34] Web において NFC が使われる場面は、次の通りです。

[35] その他色々な場面で NFC が使われることがあります。

[65] ファイル名も参照。

[58] Unicode正規表現は実装が入力に適用してもいいとしています。

[9] NFC FAQ ‎(Macchiato)‎ ( 版) http://www.macchiato.com/unicode/nfc-faq

This really depends on the kind of text involved. For example, according to data at Google:

  • ~99.98% of web HTML page content characters are definitely NFC.
  • Content means after discarding markup, and doing entity resolution.
  • ~99.9999% of web HTML page markup characters are definitely NFC.
    • Because so much of markup is plain ASCII.

Of course, this represents data from just a sample of the web (in this case, the total characters in 700,000,000 documents as of January 23, 2009). Proportions may differ somewhat depending on which sample is chosen, and may change over time as the percentage of languages on the web changes. Normalization is important for some languages like Vietnamese and other languages of South and Southeast Asia even though their percentage of total text is small.

[11] ES3UTR#15 の「1998年版」 (Unicode 2.1 世代) を引用し、 ソース・テキストNFC正規化されていることが期待されているが、 適合ECMAScript実装正規化することは必須ではない、としています >>10


[61] RFC 4329JavaScriptプログラムNFC であることが期待される (expected) 正規化されていないとセキュリティー的危険が伴うので注意必須、 としていました >>60。 16年越しに改訂された RFC 9239 もそのままでした >>59

[62] 明記されていませんが、期待されるとは ES3 に従ったものかと思われます。

[21] CharmodUnicode正規化済み (Unicode-normalized) とは NFC のことをいいます >>19, >>20NFCマーク付け言語の構造の組み合わせにより取り込み正規化済み完全正規化済みという正規化の形が定義されています。 XML 1.0XML 1.1構文解析対象実体完全正規化済みであるべきとしています。

Strings that are not Normal Form Composed (NFC)

are not valid NAIs and SHOULD NOT be treated as such.

To aid Reading Systems in implementing consistent searching and sorting behavior it is required that Unicode Normalization Form C (NFC) be used

CSV files should be encoded using UTF-8, and should be in Unicode Normal Form C as defined in [UAX15].

In accordance with [RFC5198], normalization form C (NFC) is


Every string passed to and from the Dropbox API needs to be UTF-8 encoded. For maximum compatibility, normalize to Unicode Normalization Form C (NFC) before UTF-8 encoding.

If the local-part contains any non-ASCII characters, it SHOULD be

normalized using the Unicode Normalization Form C from [UNICODE].

Recommended normalization rules can be found in Section 10.1 of


Where possible, this should be in Normalization Form C.

入力した文字がCJK互換漢字(U+F900 - U+FAFF)及びCJK互換漢字補助(U+2F80 - U+2FA1)(以下まとめてCJK互換漢字と呼びます)の場合、プレビュー・保存等を行った場合、MediaWikiの仕様により、UnicodeのC型正規化(NFC)を行い、CJK統合漢字に分解(変換)されます。例えば「神」と入力した場合、プレビューや保存をすると「神」に正規化されます。

HCL は string (文字列) 型の equal (等価性) の判定に NFC を採用。

