国際符号化文字集合

UCS (ISO/IEC 10646)

[1] ISO/IEC 10646 は、 UCS (Universal Multiple-octet Coded Character Set、 (多オクテットの) 国際符号化文字集合) を規定する ISO/IEC国際標準です。

[2] UCS は、4オクテット (厳密には31ビット) の符号空間に世界中の文字を符号化しています。 ISO/IEC JTC1/SC2(/WG2) によって開発されています。

[5] Unicode Consortium によって開発されている Unicode Standard と事実上同じ符号化文字集合となっていて、両者は共同で標準化作業を行っています。 このため、稀に UnicodeISO/IEC 10646 の総称を UCS と呼ぶこともあります。

代替

[18] 政治的にやむを得ない場合を除き、 Unicode ではなく ISO/IEC 10646 を使うべき場面はありません (>>14)。

符号位置の表記

[8] 符号位置を8ビットごとに区切って上位のオクテットから順にといいます。

[9] 十六進数により U-HHHHHHHH とも表記します (十六進数部分は8桁固定)。また0 0-16U+HHHH とも表記します (十六進数部分は4-6桁可変)。

符号化文字集合

[10] 現在までに文字が割り当てられているのは0の次のです。

[11] この他に私用域があります。

符号化方式

[7] 現在または過去の ISO/IEC 10646 は次の符号化文字集合を規定しています。

[17] 厳密には UnicodeISO/IEC 10646UTF-8 は定義が異なります。

文字の情報

[6] Unicode ConsortiumUnicode文字について Unicode Character Database として詳細な情報を公開しているのに対し、 ISO/IEC 10646附属書にわずかに説明があるだけで、 代表字形文字の名前以外の情報はほとんど含まれていません。 (Unicode ではなく) UCS を実用レベルで実装するのはほとんど不可能と思われます。

規格票の言語

[45] ISO/IEC 10646 の各版は英語で出版されています。

[46] かつては英語版と仏語版が出版されていました。

[47] ISO/IEC 10646:2003/AMD3:2008 までは仏語版がありました。 ISO/IEC 10646:2003/AMD4:2008 以後、 英語版のみになりました。

[48] 仏語版は、文字の名前のような規定に含まれる技術的内容まで仏語に翻訳されていました。 文字の名前

[49] 各国の対応国内規格仏語やその他各国の公用語に翻訳したものを出版している場合があります。 公式な英語版や仏語版とは違って、それらは ISO/IEC が関与せず各国の標準化団体側で作成したものです。

[44] Translating the standard, , https://corp.unicode.org/pipermail/unicode/2018-March/006399.html

対応国内規格

[4] JIS は日本語版を JIS X 0221 として出版しています。 (ただし基本的に数年遅れのようです。政治的理由から JIS を参照しなければならない場面以外に、 実用的な価値は皆無です。)

[61] 20131211_5k_s6.pdf, https://warp.ndl.go.jp/info:ndljp/pid/11177851/mojikiban.ipa.go.jp/contents/pdf/2013/20131211_5k_s6.pdf


[51] >>69 解説には朝鮮民主主義人民共和国出典で追加された文字に関する大韓民国側の見解も書いてあって、 それを解説に記述するということ自体も含めて興味深いものがあります。

[54] 越南TCVN 6909 は、翻訳規格ではなく越南語部分集合です。 TCVN 8271越南用規格ですが、 MOD の部と独自規格の部で構成されています。

実装水準

[37] 古い ISO/IEC 10646 は、 実装水準 (implementation level) を 1、 2、 3 の3種類定義していました。 現在の ISO/IEC 10646 ではこの区分は廃止されており、 実装水準3相当となっています。

[38] ISO/IEC 2022 エスケープシーケンス DOCS ISO/IEC 10646におけるエスケープシーケンス や、 ISO/IEC 10646 附属書N (参考) の ASN.1 構文で、 使用する実装水準が識別されていました。 現在は旧実装水準3のもののみ規定されており、 NOTE実装水準1実装水準2非推奨 (deprecated) とされています。

[39] 実装水準1では、 結合文字 (附属書B.1) と、 HANGUL JAMO ブロック文字をつかってはなりません。

[40] 実装水準2では、 附属書B.2の文字 (B.1の一部および HANGUL JAMO) をつかってはなりません。

[41] 実装水準1実装水準2では、 インド系文字に関する unique-spelling rule に従わなければなりません。

Unicode との関係

[13] UnicodeISO/IEC 10646 は実質的に同じ文字コードですが、 仕様書としてはまったく異なっています。両者の標準化手続きは連動していますが、 両者の出版には時間差があります。

[14] 実用上 ISO/IEC 10646 には実装するのに十分な情報が含まれておらず、 Unicode が広く利用されています。他の標準化団体の仕様書等から ISO/IEC 10646Unicode のどちらを引用するべきかという議論も 00年代初期 (平成時代中頃) までは盛んに行われていましたが、 Unicode の方が積極的に Web で情報を公開していることもあり、現在では Unicode を参照するのが普通です。

[34] しかも、 初期の版は Unicode とは同内容の別規格という建前を保っていましたが、 何度目かの改訂から徐々に一部の規定Unicode (The Unicode StandardUAXUCD) を参照するようになっています。

[15] 国家機関などで公的標準を参照しなければならない制約があるなど特殊な状況を除き、 ISO/IEC 10646 を使う意味はほとんどありません。

[116] The Unicode Standard の一部を参照しているわけですが、 その The Unicode Standard の一部は当然 The Unicode Standard の他の部分 (用語の定義など) と依存関係を有しているわけでして、どこからどこまでが ISO/IEC 10646 から参照されている部分なのかはっきりしません。 解釈次第では ISO/IEC 10646 本体と The Unicode Standard とで重複する規定もありそうで、 1つの仕様書群として整合的に解釈できるものか不安があります。

[117] The Unicode Standard はそれ自体で完結していて、 ISO/IEC 10646 を参照することなく理解、解釈できるものですから、 それなら最初から ISO/IEC 10646 は無視して The Unicode Standard だけ見ておけば済むということになります。

[118] そうではなくやはり ISO/IEC 10646 を参照しなければならないのだ、 という場面といえばやはり政治的その他の建前的な理由で The Unicode Standard ではなく ISO/IEC でなければならない事情があるときに限られるでしょう。 つまり建前とか規定の厳密性とか標準化の制度面とかが重要になるような場面ですね。 ところが ISO/IEC 10646 とその引用規格の文面を厳密に解釈しようとすると詰んでしまうわけです...

[119] まあ ISO/IEC 10646The Unicode Standard引用しているのに、 その ISO/IEC 10646引用できて The Unicode Standard を直接引用することができないのだとすると、 建前とか厳密性とかは表面的、表層的にだけ求められていて、 実質は誰も見ていないということでもあるので、 実際には ISO/IEC 10646 がどれだけ雑であろうと問題になることはないのでしょう。

[58] 両方を引用する仕様書

[109] Code Charts - Help and Links, , https://www.unicode.org/charts/About.html#Terms

The ISO/IEC 10646:2017 code charts present information copyrighted by Unicode, Inc. The Unicode Consortium specifically grants ISO the right to use those code charts with their associated character names list to show the repertoire of characters for that standard, as a normatively referenced, integral part of that standard.

[110] もう完全に ISO/IEC 10646Unicode に乗っ取られてるんだなあw

[111] ISO著作権にうるさくて、他所だと原案委員会規格票をWebに公開してるのまで消させたりしてるのですが (昔は緩かった、というかISO の中央事務局が気づいてなかったのか、 原案委員会や共同開発団体が完成版を一般公開していることがままありましたが、 いつからかなくなって古いのまで遡って消され始めました)、 Unicode はこういうロジックで符号表だけですけど堂々と公開してるんですね。

[112] 実際符号表の印刷に初期の ISO/IEC 10646 はすごい苦労していたみたいで、 Unicode符号表に統一されてなきゃ、もう ISO/IEC 10646 は出版不能になってたでしょうからねえ。

[113] 挙げ句 >>105 みたいなのまで出てきてるし...

関連

[52] 入管正字JIS X 0221 を参照しています。

歴史

[16]

規格番号出版日規格名ほぼ相当する Unicode の版
1983-072オクテット規格の提案
1984-04JTC1/SC2/WG2 組織 (JTC1 は当時 TC97)
WD 1064619871st WD (A案/B案)
1987-03符号化方式が決定 (A案)
DP 106461989-011st DP
1989-10draft?
1989-122nd DP
1990CJK-JRG
DIS 10646:19911st DISInformation technology: Universal Coded Character Set
1991-02draft?
1991-041st DIS 投票否決
1991Unicode 化決定
DIS 10646-1.2:1992
1992-062nd DIS 投票通過
ISO/IEC 10646-1:19931993-05Part 1: Architecture and Basic Multilingual Plane1.1
ISO/IEC 10646-1:20002000-09-15Part 1: Architecture and Basic Multilingual Plane3.0
ISO/IEC 10646-2:20012001-11-01Part 2: Supplementary Planes3.1
ISO/IEC 10646-1:2000/Amd.1:20022002-07-15AMENDMENT 1: Mathematical symbols and other characters3.2
ISO/IEC 10646-1:2000/Amd.24.0
ISO/IEC 10646-2:2001/Amd.14.0
ISO/IEC 10646:20032003Information technology —— Universal Multiple‐Octet Coded Character Set (UCS)
ISO/IEC 10646:2003/Amd.12005-11-22AMENDMENT 1: Glagolitic, Coptic, Georgian and other characters
ISO/IEC 10646:2003/Amd.22006
ISO/IEC 10646:2003/Amd.32008
ISO/IEC 10646:2003/Amd.5AMENDMENT 5: Tai Tham, Tai Viet, Avestan, Egyptian Hieroglyphs, CJK Unified Ideographs Extension C, and other characters5.2
ISO/IEC 10646:201120116.0
ISO/IEC 10646:201220126.2
ISO/IEC 10646:20172017
ISO/IEC 10646:2017/Amd.1:20192019
ISO/IEC 10646:2017/Amd.2:20192019
ISO/IEC 10646:20202020

[3] 10646 の第一部と第二部を併合するのは Unicode との同期が面倒だかららしいぞ... (名無しさん [sage] 2004-04-07 02:56:20 +00:00)


[19] JIS X 0221-1995 国際符号化文字集合 (UCS) ――第1部 構造及び基本多言語面は、 1995年/平成7年1月1日制定、1月4日官報公示。

[21] ISO/IEC 10646-1:1993対応国内規格でした。

[22] JIS 独自の次の附属書がありました。

  • 附属書1 (規定) 日本文字サブレパートリ
  • 附属書2 (規定) 日本語データ情報交換用としての私用文字の使用
  • 附属書3 (参考) JIS X 0201, JIS X 0208 及び JIS X 0212 表内文字との対応

[23] 附属書1では次の文字集合が定義されていました。

  • 基本日本文字集合
  • 追加非漢字集合
  • 追加漢字集合
  • 補助漢字集合
  • その他の漢字集合
  • 互換用全角英数字集合
  • 互換用半角仮名集合

[24] 基本日本文字集合には COMBINING ENCLOSING CIRCLE が (なぜか) 含まれていたようです。

[25] 基本日本文字集合と追加非漢字集合にはなぜかどちらにも TILDE, HYPHEN, OVERLINE, IDEOGRAPHIC SPACE が重複して含まれていたようです。

[59] Win98 Font Extension, , http://web.archive.org/web/20010804104216/http://www.asahi-net.or.jp/~EZ3K-MSYM/comp/win98.htm

[20] 2000年/平成12年6月20日確認、2001年/平成13年4月20日廃止


[26] JIS X 0221-1:2001 国際符号化文字集合 (UCS) ――第1部 構造及び基本多言語面は、 2001年/平成13年4月20日のものです。

[27] ISO/IEC 10646-1:2000対応国内規格でした。

[28]JIS の附属書は規定から参考に変わって存続しています。 おおまかな構成は変わっていないようですが、細かい内容は修正されているようです。


[29] mohta 氏が IETF を通じて1995年に出版した RFC 1815 は、2つの ISO/IEC 10646プロファイルを定義し、 IANA charset として登録しました。

[30] ISO-10646 は、 ISO/IEC 8859-1 相当の部分集合でした。 ISO-10646-J-1 は、 JIS X 0208半角文字全角文字にほぼ相当する部分集合でした。 CJK統合漢字「J」欄を用いるべき (should) としていました。 いずれも非推奨 (discourage) であり、 ISO-8859-1 または ISO-2022-JP を使うべきとされていました。

[33] 非推奨とされたのは mohta の思想上の理由。
[31] RFC 8120 - Mutual Authentication Protocol for HTTP () https://tools.ietf.org/html/rfc8120#section-3.1

All of the parameters contained in the above three headers, except

for the "realm" field, MAY be extended to ISO 10646-1 values using

the framework described in [RFC5987].

[126] >>16 では DIS2 はとなっているが、 >>122 #page=1 はとしている。

[127] ただ >>122 #page=1 の表題は Working Document for ]ISO/IEC Draft International Standard 10646-1.2:1992 。 これ自体は DIS ではなく DIS の原案とも取れる。 DIS を WG2 文書として配布したものか、 DIS となるものを WG2 文書の形で提出したものか。 これがまだ DIS となる前だとすれば DIS となったのはだったと考えるのが日付的に妥当だろう。

[128] >>122 #page=1 は -1.2:1992 としているが、 #page=2 以降では

と表記がまちまち。年末の原案準備の慌ただしさがそのまま反映されているのだろう。

[129] RFC 1345ISO 2DIS 10646 として N783 を引用している。

[130] RFC 1345 と関係が深いと思われるファイル ( mnem ) で WG2 N745 を引用したものがある。 N783 より前段階の原案だろうか。 ただ 「ISO/IEC DIS 10646:1992」 として N745 を引いているのが謎。

[81] SC2 Standards, https://www.unicode.org/L2/sc2standards.html

[32] ISO/IEC 10646:2017が発行 漢字の国際規格化が完了 | 文字情報基盤整備事業 () http://mojikiban.ipa.go.jp/4825.html

[55] Unibook Document - n5006R-6thEdition-CD-chart.pdf, , https://unicode.org/wg2/docs/n5006R-6thEdition-CD-chart.pdf

[35] 国際符号化文字集合(UCS) JIS改正原案作成委員会 | IPSJ/ITSCJ (一般社団法人 情報処理学会 情報規格調査会, , ) https://www.itscj.ipsj.or.jp/hyojunka/h_sn_member/h_sn_katsudo/h_sn_katsudo2012/jucs_2012.html

[42] ISO/IEC 10646 に対する日本の代表部って、日本で使われていて ISO/IEC 10646 に含まれない文字の収集と追加申請を、明らかに何もやってないよね?? CJK統合漢字にも他国の提案で未だに追加が続いているのに、日本代表はほとんど提案していないし。 漢字以外はまったくやる気なさそうだし。

[43] 担当グループがサボっているのか、権限や予算を与えられていなくてできていないのか知らんけど。

[56] jj11.pdf, https://jaet.sakura.ne.jp/?plugin=attach&refer=%E5%87%BA%E7%89%88%E7%89%A9%2F%E3%80%8E%E6%BC%A2%E6%83%85%E7%A0%94%E3%80%8F%E7%AC%AC11%E5%8F%B7&openfile=jj11.pdf#page=139

[57] >>56 やる気がない日本 NB を迂回して他国の NB から仮名が追加され、 日本 NB 側が不快を表明して不穏、という事例が紹介されてます、

[53] 20201120001-3.pdf, , https://www.meti.go.jp/press/2020/11/20201120001/20201120001-3.pdf

[60] 1 - 000248447.pdf, , https://www.gsi.go.jp/common/000248447.pdf#page=50

[105] 23265-ucs-repertoire-maintenance.pdf, , https://www.unicode.org/L2/L2023/23265-ucs-repertoire-maintenance.pdf

[106] >>105 これは事実上の ISO/IEC 10646 終了のお知らせ。通るかなこの提案。 今なら通っても驚かないな。