ISO/IEC 10646

UCS (ISO/IEC 10646)

[1] ISO/IEC 10646 は、 UCS (Universal Multiple-octet Coded Character Set、 (多オクテットの) 国際符号化文字集合) を規定する ISO/IEC国際標準です。

[2] UCS は、4オクテット (厳密には31ビット) の符号空間に世界中の文字を符号化しています。 ISO/IEC JTC1/SC2(/WG2) によって開発されています。

[5] Unicode Consortium によって開発されている Unicode Standard と事実上同じ符号化文字集合となっていて、両者は共同で標準化作業を行っています。 このため、稀に UnicodeISO/IEC 10646 の総称を UCS と呼ぶこともあります。

代替

[18] 政治的にやむを得ない場合を除き、 Unicode ではなく ISO/IEC 10646 を使うべき場面はありません (>>14)。

符号位置の表記

[8] 符号位置を8ビットごとに区切って上位のオクテットから順にといいます。

[9] 十六進数により U-HHHHHHHH とも表記します (十六進数部分は8桁固定)。また0 0-16U+HHHH とも表記します (十六進数部分は4-6桁可変)。

符号化文字集合

[10] 現在までに文字が割り当てられているのは0の次のです。

[11] この他に私用域があります。

符号化方式

[7] 現在または過去の ISO/IEC 10646 は次の符号化文字集合を規定しています。

[17] 厳密には UnicodeISO/IEC 10646UTF-8 は定義が異なります。

文字の情報

[6] Unicode ConsortiumUnicode文字について Unicode Character Database として詳細な情報を公開しているのに対し、 ISO/IEC 10646附属書にわずかに説明があるだけで、 代表字形文字の名前以外の情報はほとんど含まれていません。 (Unicode ではなく) UCS を実用レベルで実装するのはほとんど不可能と思われます。

対応国内規格

[4] JIS は日本語版を JIS X 0221 として出版しています。 (ただし基本的に数年遅れのようです。政治的理由から JIS を参照しなければならない場面以外に、 実用的な価値は皆無です。)

Unicode との関係

[13] UnicodeISO/IEC 10646 は実質的に同じ文字コードですが、 仕様書としてはまったく異なっています。両者の標準化手続きは連動していますが、 両者の出版には時間差があります。

[14] 実用上 ISO/IEC 10646 には実装するのに十分な情報が含まれておらず、 Unicode が広く利用されています。他の標準化団体の仕様書等から ISO/IEC 10646Unicode のどちらを引用するべきかという議論も 00年代初期までは盛んに行われていましたが、 Unicode の方が積極的に Web で情報を公開していることもあり、現在では Unicode を参照するのが普通です。

[15] 国家機関などで公的標準を参照しなければならない制約があるなど特殊な状況を除き、 ISO/IEC 10646 を使う意味はほとんどありません。

歴史

[16]

規格番号出版日規格名ほぼ相当する Unicode の版
1983-072オクテット規格の提案
1984-04JTC1/SC2/WG2 組織 (JTC1 は当時 TC97)
WD 1064619871st WD (A案/B案)
1987-03符号化方式が決定 (A案)
DP 106461989-011st DP
1989-10draft?
1989-122nd DP
1990CJK-JRG
DIS 10646:19911990-12-061st DISInformation technology: Universal Coded Character Set
1991-02draft?
1991-041st DIS 投票否決
1991Unicode 化決定
DIS 10646-1.2:19921992
1992-062nd DIS 投票通過
ISO/IEC 10646-1:19931993-05Part 1: Architecture and Basic Multilingual Plane1.1
ISO/IEC 10646-1:20002000-09-15Part 1: Architecture and Basic Multilingual Plane3.0
ISO/IEC 10646-2:20012001-11-01Part 2: Supplementary Planes3.1
ISO/IEC 10646-1:2000/Amd.1:20022002-07-15AMENDMENT 1: Mathematical symbols and other characters3.2
ISO/IEC 10646-1:2000/Amd.24.0
ISO/IEC 10646-2:2001/Amd.14.0
ISO/IEC 10646:20032003Information technology —— Universal Multiple‐Octet Coded Character Set (UCS)
ISO/IEC 10646:2003/Amd.12005-11-22AMENDMENT 1: Glagolitic, Coptic, Georgian and other characters

[3] 10646 の第一部と第二部を併合するのは Unicode との同期が面倒だかららしいぞ... (名無しさん [sage] 2004-04-07 02:56:20 +00:00)

[19] JIS X 0221-1995 国際符号化文字集合 (UCS) ――第1部 構造及び基本多言語面は、 1995年/平成7年1月1日制定、1月4日官報公示。

[21] ISO/IEC 10646-1:1993対応国内規格でした。

[22] JIS 独自の次の附属書がありました。

  • 附属書1 (規定) 日本文字サブレパートリ
  • 附属書2 (規定) 日本語データ情報交換用としての私用文字の使用
  • 附属書3 (参考) JIS X 0201, JIS X 0208 及び JIS X 0212 表内文字との対応

[23] 附属書1では次の文字集合が定義されていました。

  • 基本日本文字集合
  • 追加非漢字集合
  • 追加漢字集合
  • 補助漢字集合
  • その他の漢字集合
  • 互換用全角英数字集合
  • 互換用半角仮名集合

[24] 基本日本文字集合には COMBINING ENCLOSING CIRCLE が (なぜか) 含まれていたようです。

[25] 基本日本文字集合と追加非漢字集合にはなぜかどちらにも TILDE, HYPHEN, OVERLINE, IDEOGRAPHIC SPACE が重複して含まれていたようです。

[20] 2000年/平成12年6月20日確認、2001年/平成13年4月20日廃止

[26] JIS X 0221-1:2001 国際符号化文字集合 (UCS) ――第1部 構造及び基本多言語面は、 2001年/平成13年4月20日のものです。

[27] ISO/IEC 10646-1:2000対応国内規格でした。

[28]JIS の附属書は規定から参考に変わって存続しています。 おおまかな構成は変わっていないようですが、細かい内容は修正されているようです。

[29] mohta 氏が IETF を通じてに出版した RFC 1815 は、2つの ISO/IEC 10646プロファイルを定義し、 IANA charset として登録しました。

[30] ISO-10646 は、 ISO/IEC 8859-1 相当の部分集合でした。 ISO-10646-J-1 は、 JIS X 0208半角文字全角文字にほぼ相当する部分集合でした。 CJK統合漢字は「J」欄を用いるとしていました。 いずれも非推奨 (discourage) であり、 ISO-8859-1 または ISO-2022-JP を使うべきとされていました。

[31] RFC 8120 - Mutual Authentication Protocol for HTTP () <https://tools.ietf.org/html/rfc8120#section-3.1>

All of the parameters contained in the above three headers, except

for the "realm" field, MAY be extended to ISO 10646-1 values using

the framework described in [RFC5987].

[32] ISO/IEC 10646:2017が発行 漢字の国際規格化が完了 | 文字情報基盤整備事業 () <http://mojikiban.ipa.go.jp/4825.html>