符号

符号化文字集合 (文字コード)

[16] 符号化文字集合 (coded character set) は、 文字符号 (コード) を割り当てたものについての ISO/IECJIS などで用いられている用語です。 一般に文字コードと呼ばれるものに当たります (が、文字コードという語はしばしば曖昧に用いられます)

[24] Unicode に統一された現在ではほとんど意味のない用語となりました。

ISO における定義

[4]

JIS X 0211‐1994 4.2.18 符号化文字集合 (coded character set), 符号 (code)
文字集合を定め、かつ、その集合内の文字ビット組合せを1対1に関係付ける、 あいまいでない規則の集合。

[5]

符号化文字集合 (coded character set), 符号 (code)
文字集合を定め、かつ、 その集合内の文字ビット組合せを1対1に関係付ける、 あいまいでない規則集合
  • 参考 符号化文字集合符号とは、交換可能な用語である。例えば、7ビット符号化集合7ビット符号と、同じ意味である。 JIS X 0202:1998 4.5
  • 注意: この参考は、 JIS X 0202ISO/IEC 2022 に対して追加した部分です。

[1]

符号化文字集合 (coded character set)
文字集合を定め、かつ、その集合内の文字ビット組合せを 1対1に関係付ける、あいまいでない規則集合

[3]

符号化文字集合 (coded character set)
文字集合及びその集合の文字と符号化表現との間の関係を定めるあいまいさのない規則の集合。 (JIS X 0221‐1:2001 4.9)

[9]

A coded character set (CCS) is a set of unambiguous rules that establishes a character set and the relationship between the characters of the set and their coded representation. <ISOIEC10646>

[8] 符号化文字集合と符号が同義というのはどうも納得いかないんだけど、そういう定義である以上 (ISO/IECJIS の文脈では) この2つは「交換可能な用語」です。

[7] 交換したら符号化文字集合符号化文字集合化文字集合になってしまいましたが・・・

[6] 業界的に再帰(謎)ですね。。。

IETF における定義

[17] IETF での符号化文字集合の定義は、 ISO/IEC の定義と同じようで若干の違いがあります。 IETF ではしばしば符号化文字集合と対になる概念として文字符号化方式を用います。 前者を CCS、後者を CES と略します。 CCS文字符号を対応付けるものですが、 CES はその符号を更に別の符号へと対応付けます。 一般的に文字コードと呼ばれるものは、 CCSCES の組み合わせとされています。

[18] 例えば一般的に UTF-8 と呼ばれる文字コードは、 Unicode Standard によって定義される文字符号位置の組み合わせから成る CCS と、 Unicode Standard によって定義される符号位置から UTF-8オクテット列の対応関係から成る CES の組み合わせと理解されます。

[2]

符号化文字集合 (coded character set)
整数の部分集合が変域であって、 文字レパートリ値域である関数。 ある整数の集合が存在して、符号化文字集合とその集合中の整数が文字を決定する。 逆に文字と符号化文字集合が符号位置を決定する。 (まれに、一つではなく幾つかの符号位置になることもある。) (RFC 1866, ISO‐HTML <http://purl.org/NET/ISO+IEC.15445/15445.html#DEFS> 4.6)

[11] RFC 6365 - Terminology Used in Internationalization in the IETF ( 版) <http://tools.ietf.org/html/rfc6365#page-7>

[12]

A Coded Character Set (CCS) is a mapping from a set of abstract characters to a set of integers. Examples of coded character sets are ISO 10646 [ISO-10646], US-ASCII [ASCII], and ISO-8859 series [ISO-8859].

RFC 2130 - The Report of the IAB Character Set Workshop held 29 February - 1 March, 1996 ( 版) <http://tools.ietf.org/html/rfc2130#page-8>

[13] RFC 2277 - IETF Policy on Character Sets and Languages ( ( 版)) <http://tools.ietf.org/html/rfc2277#section-3>

符号化文字集合の分類

[14]

性質

[19] 符号化文字集合は、符号化文字集合ですが、 数学的な意味の集合とは厳密には異なり、やや特異な性質を持っています。

[20] 集合要素である「符号化文字」は、 文字符号化したものです。つまり、符号化文字集合要素には数値が割り振られています。 通常はこの数値と文字は一対一対応しますが (重複符号化の禁止の原則)、 これが成立していないケースがあります。

[21] また集合要素である「符号化文字」の定義はしばしば曖昧で、 重複符号化でなくとも、2つの符号化文字の区別が曖昧だったり、 ある文字がどちらで符号化できるのか (どちらでもできないのか) 明確にされていないこともあります。

[22] 更に、符号化文字集合には私用域や未割り当ての符号位置が含まれることがあります。 つまり集合要素が文脈により変化したり、存在しない (が複数あっても互いには区別される) ものだったりします。

[23] 符号拡張法を用いた文字コードのことも符号化文字集合と呼ぶことがありますが、 その場合そもそも集合と言えるものかどうかも怪しいところです。

メモ

[15] Character Model for the World Wide Web 1.0: Fundamentals ( ( 版)) <http://www.w3.org/TR/charmod/#def-CCS>