UCS (ISO/IEC 10646)

[1] ISO/IEC 10646 は、 UCS (Universal Multiple-octet Coded Character Set、 (多オクテットの) 国際符号化文字集合) を規定する ISO/IEC の国際標準です。

[2] UCS は、4オクテット (厳密には31ビット) の符号空間に世界中の文字を符号化しています。 ISO/IEC JTC1/SC2(/WG2) によって開発されています。

[5] Unicode Consortium によって開発されている Unicode Standard と事実上同じ符号化文字集合となっていて、両者は共同で標準化作業を行っています。このため、稀に Unicode と ISO/IEC 10646 の総称を UCS と呼ぶこともあります。

代替

[18] 政治的にやむを得ない場合を除き、 Unicode ではなく ISO/IEC 10646 を使うべき場面はありません (>>14)。

符号位置の表記

[8] 符号位置を8ビットごとに区切って上位のオクテットから順に群、面、区、点といいます。

[9] 十六進数により U-HHHHHHHH とも表記します (十六進数部分は8桁固定)。また0群 0面-16面は U+HHHH とも表記します (十六進数部分は4-6桁可変)。

符号化文字集合

[10] 現在までに文字が割り当てられているのは0群の次の面です。

BMP (0面)
SMP (1面)
SIP (2面)
TIP (3面)
SSP (14面)

[11] この他に私用域があります。

符号化方式

[7] 現在または過去の ISO/IEC 10646 は次の符号化文字集合を規定しています。

[17] 厳密には Unicode と ISO/IEC 10646 の UTF-8 は定義が異なります。

文字の情報

[6] Unicode Consortium が Unicode の文字について Unicode Character Database として詳細な情報を公開しているのに対し、 ISO/IEC 10646 は附属書にわずかに説明があるだけで、代表字形と文字の名前以外の情報はほとんど含まれていません。 (Unicode ではなく) UCS を実用レベルで実装するのはほとんど不可能と思われます。

規格票の言語

[45] ISO/IEC 10646 の各版は英語で出版されています。

[46] かつては英語版と仏語版が出版されていました。

[47] 2008-02-14の ISO/IEC 10646:2003/AMD3:2008 までは仏語版がありました。 2008-06-23の ISO/IEC 10646:2003/AMD4:2008 以後、英語版のみになりました。

[48] 仏語版は、文字の名前のような規定に含まれる技術的内容まで仏語に翻訳されていました。文字の名前

[49] 各国の対応国内規格が仏語やその他各国の公用語に翻訳したものを出版している場合があります。公式な英語版や仏語版とは違って、それらは ISO/IEC が関与せず各国の標準化団体側で作成したものです。

[44] Translating the standard, 2018-03-14T11:56:01.000Z, 2022-03-12T11:35:03.118Z https://corp.unicode.org/pipermail/unicode/2018-March/006399.html

対応国内規格

[4] JIS は日本語版を JIS X 0221 として出版しています。 (ただし基本的に数年遅れのようです。政治的理由から JIS を参照しなければならない場面以外に、実用的な価値は皆無です。)

[71] JIS X 0221-1:1995 : ISO/IEC 10646-1:1993
[70] JIS X 0221-1:2001 : 2000
[73] JIS X 0221:2007 : ISO/IEC 10646:2003, /Amd.1:2005, /Amd.2:2006
[74] JIS X 0221:2014 : 2012
[76] JIS X 0221:2020

[61] 20131211_5k_s6.pdf, 2023-09-13T09:56:08.000Z https://warp.ndl.go.jp/info:ndljp/pid/11177851/mojikiban.ipa.go.jp/contents/pdf/2013/20131211_5k_s6.pdf

[36] 中華人民共和国
- [65] GB 13000 : ISO/IEC 10646-1:1993
- [72] 2003 draft
[64] 中華民国
- [66] CNS 14649-1 民国91(2002)年6月6日 : ISO/IEC 10646-1
- [67] CNS 14649-2 民国92(2003)年 : ISO/IEC 10646-2
- [68] 民国97年
- [75] 2017 : 2014
[50] 大韓民国
- [69] KS X ISOIEC10646:2005 : IDT ISO/IEC 10646:2003

[51] >>69 解説には朝鮮民主主義人民共和国出典で追加された文字に関する大韓民国側の見解も書いてあって、それを解説に記述するということ自体も含めて興味深いものがあります。

[54] 越南の TCVN 6909 は、翻訳規格ではなく越南語用部分集合です。 TCVN 8271 も越南用規格ですが、 MOD の部と独自規格の部で構成されています。

実装水準

[37] 古い ISO/IEC 10646 は、実装水準 (implementation level) を 1、 2、 3 の3種類定義していました。現在の ISO/IEC 10646 ではこの区分は廃止されており、実装水準3相当となっています。

[38] ISO/IEC 2022 エスケープシーケンス DOCS ISO/IEC 10646におけるエスケープシーケンスや、 ISO/IEC 10646 附属書N (参考) の ASN.1 構文で、使用する実装水準が識別されていました。現在は旧実装水準3のもののみ規定されており、 NOTE で実装水準1、実装水準2は非推奨 (deprecated) とされています。

[39] 実装水準1では、結合文字 (附属書B.1) と、 HANGUL JAMO ブロックの文字をつかってはなりません。

[40] 実装水準2では、附属書B.2の文字 (B.1の一部および HANGUL JAMO) をつかってはなりません。

[41] 実装水準1と実装水準2では、インド系文字に関する unique-spelling rule に従わなければなりません。

Unicode との関係

[13] Unicode と ISO/IEC 10646 は実質的に同じ文字コードですが、仕様書としてはまったく異なっています。両者の標準化手続きは連動していますが、両者の出版には時間差があります。

[14] 実用上 ISO/IEC 10646 には実装するのに十分な情報が含まれておらず、 Unicode が広く利用されています。他の標準化団体の仕様書等から ISO/IEC 10646 と Unicode のどちらを引用するべきかという議論も 00年代初期 (平成時代中頃) までは盛んに行われていましたが、 Unicode の方が積極的に Web で情報を公開していることもあり、現在では Unicode を参照するのが普通です。

[34] しかも、初期の版は Unicode とは同内容の別規格という建前を保っていましたが、何度目かの改訂から徐々に一部の規定で Unicode (The Unicode Standard や UAX や UCD) を参照するようになっています。

[15] 国家機関などで公的標準を参照しなければならない制約があるなど特殊な状況を除き、 ISO/IEC 10646 を使う意味はほとんどありません。

[116] The Unicode Standard の一部を参照しているわけですが、その The Unicode Standard の一部は当然 The Unicode Standard の他の部分 (用語の定義など) と依存関係を有しているわけでして、どこからどこまでが ISO/IEC 10646 から参照されている部分なのかはっきりしません。解釈次第では ISO/IEC 10646 本体と The Unicode Standard とで重複する規定もありそうで、 1つの仕様書群として整合的に解釈できるものか不安があります。

[117] The Unicode Standard はそれ自体で完結していて、 ISO/IEC 10646 を参照することなく理解、解釈できるものですから、それなら最初から ISO/IEC 10646 は無視して The Unicode Standard だけ見ておけば済むということになります。

[118] そうではなくやはり ISO/IEC 10646 を参照しなければならないのだ、という場面といえばやはり政治的その他の建前的な理由で The Unicode Standard ではなく ISO/IEC でなければならない事情があるときに限られるでしょう。つまり建前とか規定の厳密性とか標準化の制度面とかが重要になるような場面ですね。ところが ISO/IEC 10646 とその引用規格の文面を厳密に解釈しようとすると詰んでしまうわけです...

[119] まあ ISO/IEC 10646 が The Unicode Standard を引用しているのに、その ISO/IEC 10646 は引用できて The Unicode Standard を直接引用することができないのだとすると、建前とか厳密性とかは表面的、表層的にだけ求められていて、実質は誰も見ていないということでもあるので、実際には ISO/IEC 10646 がどれだけ雑であろうと問題になることはないのでしょう。

[58] 両方を引用する仕様書

ECMA-404

[109] Code Charts - Help and Links, 2023-09-07T16:44:18.000Z, 2024-05-30T14:24:49.365Z https://www.unicode.org/charts/About.html#Terms

The ISO/IEC 10646:2017 code charts present information copyrighted by Unicode, Inc. The Unicode Consortium specifically grants ISO the right to use those code charts with their associated character names list to show the repertoire of characters for that standard, as a normatively referenced, integral part of that standard.

[110] もう完全に ISO/IEC 10646 は Unicode に乗っ取られてるんだなあw

[111] ISO は著作権にうるさくて、他所だと原案委員会が規格票をWebに公開してるのまで消させたりしてるのですが (昔は緩かった、というかISO の中央事務局が気づいてなかったのか、原案委員会や共同開発団体が完成版を一般公開していることがままありましたが、いつからかなくなって古いのまで遡って消され始めました)、 Unicode はこういうロジックで符号表だけですけど堂々と公開してるんですね。

[112] 実際符号表の印刷に初期の ISO/IEC 10646 はすごい苦労していたみたいで、 Unicode の符号表に統一されてなきゃ、もう ISO/IEC 10646 は出版不能になってたでしょうからねえ。

[113] 挙げ句 >>105 みたいなのまで出てきてるし...

歴史

[16]

規格番号	出版日	規格名	ほぼ相当する Unicode の版
	1983-07	2オクテット規格の提案
	1984-04	JTC1/SC2/WG2 組織 (JTC1 は当時 TC97)
WD 10646	1987	1^st WD (A案/B案)
	1987-03	符号化方式が決定 (A案)
DP 10646	1989-01	1^st DP
	1989-10	draft?
	1989-12	2^nd DP
	1990	CJK-JRG
DIS 10646:1991	1990-12-06	1^st DIS	Information technology: Universal Coded Character Set
	1991-02	draft?
	1991-04	1^st DIS 投票否決
	1991	Unicode 化決定
DIS 10646-1.2:1992	1992-01
	1992-06	2^nd DIS 投票通過
ISO/IEC 10646-1:1993	1993-05	Part 1: Architecture and Basic Multilingual Plane	1.1
ISO/IEC 10646-1:2000	2000-09-15	Part 1: Architecture and Basic Multilingual Plane	3.0
ISO/IEC 10646-2:2001	2001-11-01	Part 2: Supplementary Planes	3.1
ISO/IEC 10646-1:2000/Amd.1:2002	2002-07-15	AMENDMENT 1: Mathematical symbols and other characters	3.2
ISO/IEC 10646-1:2000/Amd.2			4.0
ISO/IEC 10646-2:2001/Amd.1			4.0
ISO/IEC 10646:2003	2003	Information technology —— Universal Multiple‐Octet Coded Character Set (UCS)
ISO/IEC 10646:2003/Amd.1	2005-11-22	AMENDMENT 1: Glagolitic, Coptic, Georgian and other characters
ISO/IEC 10646:2003/Amd.2	2006
ISO/IEC 10646:2003/Amd.3	2008
ISO/IEC 10646:2003/Amd.5	2008-12-01	AMENDMENT 5: Tai Tham, Tai Viet, Avestan, Egyptian Hieroglyphs, CJK Unified Ideographs Extension C, and other characters	5.2
ISO/IEC 10646:2011	2011		6.0
ISO/IEC 10646:2012	2012		6.2
ISO/IEC 10646:2017	2017
ISO/IEC 10646:2017/Amd.1:2019	2019
ISO/IEC 10646:2017/Amd.2:2019	2019
ISO/IEC 10646:2020	2020

[3] 10646 の第一部と第二部を併合するのは Unicode との同期が面倒だかららしいぞ... (名無しさん [sage] 2004-04-07 02:56:20 +00:00)

[19] JIS X 0221-1995 国際符号化文字集合 (UCS) ――第1部構造及び基本多言語面は、 1995年/平成7年1月1日制定、1月4日官報公示。

[21] ISO/IEC 10646-1:1993 の対応国内規格でした。

[22] JIS 独自の次の附属書がありました。

附属書1 (規定) 日本文字サブレパートリ
附属書2 (規定) 日本語データ情報交換用としての私用文字の使用
附属書3 (参考) JIS X 0201, JIS X 0208 及び JIS X 0212 表内文字との対応

[23] 附属書1では次の文字集合が定義されていました。

基本日本文字集合
追加非漢字集合
追加漢字集合
補助漢字集合
その他の漢字集合
互換用全角英数字集合
互換用半角仮名集合

[24] 基本日本文字集合には COMBINING ENCLOSING CIRCLE が (なぜか) 含まれていたようです。

[25] 基本日本文字集合と追加非漢字集合にはなぜかどちらにも TILDE, HYPHEN, OVERLINE, IDEOGRAPHIC SPACE が重複して含まれていたようです。

[59] Win98 Font Extension, 2022-12-02T05:09:39.000Z, 2001-08-04T11:54:55.104Z http://web.archive.org/web/20010804104216/http://www.asahi-net.or.jp/~EZ3K-MSYM/comp/win98.htm

[20] 2000年/平成12年6月20日確認、2001年/平成13年4月20日廃止。

[26] JIS X 0221-1:2001 国際符号化文字集合 (UCS) ――第1部構造及び基本多言語面は、 2001年/平成13年4月20日のものです。

[27] ISO/IEC 10646-1:2000 の対応国内規格でした。

[28] 旧 JIS の附属書は規定から参考に変わって存続しています。おおまかな構成は変わっていないようですが、細かい内容は修正されているようです。

[29] mohta 氏が IETF を通じて1995年に出版した RFC 1815 は、2つの ISO/IEC 10646 のプロファイルを定義し、 IANA charset として登録しました。

ISO-10646
ISO-10646-J-1

[30] ISO-10646 は、 ISO/IEC 8859-1 相当の部分集合でした。 ISO-10646-J-1 は、 JIS X 0208 と半角文字、全角文字にほぼ相当する部分集合でした。 CJK統合漢字は「J」欄を用いるべき (should) としていました。いずれも非推奨 (discourage) であり、 ISO-8859-1 または ISO-2022-JP を使うべきとされていました。

[33] 非推奨とされたのは mohta の思想上の理由。

[12] RFC 1815 - Character Sets ISO-10646 and ISO-10646-J-1 (2016-05-15 17:30:23 +09:00) https://tools.ietf.org/html/rfc1815

[31] RFC 8120 - Mutual Authentication Protocol for HTTP (2017-04-20 12:04:06 +09:00) https://tools.ietf.org/html/rfc8120#section-3.1

All of the parameters contained in the above three headers, except
for the "realm" field, MAY be extended to ISO 10646-1 values using
the framework described in [RFC5987].

[121] ISO/IEC DIS 10646-1.2:1992

[126] >>16 では DIS2 は1992-01となっているが、 >>122 #page=1 は1991-12-26としている。

[127] ただ >>122 #page=1 の表題は Working Document for ISO/IEC Draft International Standard 10646-1.2:1992。これ自体は DIS ではなく DIS の原案とも取れる。 DIS を WG2 文書として配布したものか、 DIS となるものを WG2 文書の形で提出したものか。これがまだ DIS となる前だとすれば DIS となったのは1992-01だったと考えるのが日付的に妥当だろう。

[128] >>122 #page=1 は -1.2:1992 としているが、 #page=2 以降では