文字符号化 (文字コード)

[7] 文字符号化 (character encoding) は、文字を符号化する一連の規則の集合です。「文字コード」と同じように曖昧に使われていますが、「文字コード」とは違って単一の文字の符号化を指すことはあまりなく、符号化の方式全体を指しているようです。

仕様書

[16] 符号化 (encoding) は、スカラー値の列からバイト列へ (やその逆方向) の写像を定義するものです >>15。

[8] 文字符号化は、次のような特性を持ちます。

[9] 文字符号化には次のような分類があります。

[10] 文字符号化は40種類あります。

[27] ISO-2022-JP 以外の複数バイトの符号化は、スカラー値列を符号化したものと、そのスカラー値列を任意のスカラー値列のリストに分割し、それぞれを符号化してから連結したものが等しくなるという性質があります。

[29] ですから、 ISO-2022-JP 以外は、符号化器内の状態を保持せずとも、文字のストリームを読み込みながら符号化したバイトをストリームに書き込んでいくことができます。

[30] 複数バイトの符号化は、バイト列を復号したものと、そのバイト列を任意の位置で分割してから復号して連結したものが等しいとは限りません (等しくならない場合が多いです)。

[28] 複数バイト符号化の一覧

[11] いくつかの符号化は、ラベルが指定されても他の符号化と読み替えるとの特別な扱いが規定されています。

[26] 符号化の名前は、ラベルの1つになっています。かつては replacement だけは、 replacement というラベルが存在していませんでした。

[13] 同型符号化、同型復号は他の文字符号化と違う特殊な性質があり、 Encoding Standard でなく Infra Standard で規定されています。

[5] RFC 7303 では、特定の XML MIME実体で実際に用いられている MIME charset のことを文字符号化 (character encoding) (文脈で明確な場合は符号化 (encoding) ) と呼んでいます >>4。

[6] charset 引数や encoding 擬似属性に指定されている値ではなく、実際に符号化に用いられているものを指しています。