CCCII

[3] CCCII (中文資訊交換碼, Chinese Character Code of Information Interchange) は、中華民国 (台湾) の符号化文字集合です。

符号構造

[11] CCCII における符号位置は面区点で表されます。

[12] 全体として1つの ISO/IEC 2022 の 94³文字集合の形になっています。面区点がそれぞれ94個ずつで1つの上位単位になっています。

[47] 6つの面が1層 (レイヤー) とされています。

[48] 合計15層 (+ 1) あり、うち第1層から第12層は、異体字関係にある文字同士が別の層の同じ符号位置に来るように設計されています。該当する異体字がなければ割当なしとなっています。

[50] いわゆる枝番方式に近いもの言えます。現在の Unicode の IVS に近いですが、基底文字とそれに属するグリフ部分集合という非対称で文字列長が違う IVS と違って CCCII では異体字同士が平等で固定長です。

[90] 説明文では層/面・区点の番号で表したり、 GL の3バイト符号の16進数で表したりするようです。

[64] 上位の符号単位の用語には混乱が見られます。現在の定訳の成立前に訳されたものなのか、何らかの誤りによるものなのか謎です。

[69] 「layer」が16個、「plane」が94個 >>68
[66] 「LAYER (面)」が 16個、「PLANE (層)」が 94個 >>29
[67] 「面(Layer)」が16個、「層(Plane)」が94個 >>63
[70] 「群」「面」 >>46
[98] 「層(layer)」「面(plane)」 >>43

[63] 中文資訊交換碼 - 维基百科,自由的百科全书, 2022-10-17T06:43:51.000Z, 2022-10-22T10:10:46.560Z https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%96%87%E8%B3%87%E8%A8%8A%E4%BA%A4%E6%8F%9B%E7%A2%BC
[68] Chinese Character Code for Information Interchange - Wikipedia, 2022-10-21T21:05:32.000Z, 2022-10-22T10:17:36.324Z https://en.wikipedia.org/wiki/Chinese_Character_Code_for_Information_Interchange

[74] 1面3区は ISO/IEC 646の版のようなものが置かれていますが、一部の実装は1面3区1点 (0x212321) の直前に当たる 0x212021 をスペースとして使っているようです。 >>25 これは ISO/IEC 2022 と整合しない拡張です。

[76] 一部の実装は1面1区の前に当たる 0x2120hh の領域に非漢字を割り当てているようです。 >>25 これは ISO/IEC 2022 と整合しない拡張です。

[75] 一部の実装は95面として 0x7Fhhhh の領域に UCS-2BE を割り当てているようです。 >>25 これは ISO/IEC 2022 と整合しない拡張です。

符号化文字集合

[13]

第1層繁体字
- 1面 (0x21)
  - 0区非漢字 (非標準の拡張 >>76)
  - 1区 -
  - 2区数学記号56文字
  - 3区 ASCII94文字
    - 0点スペース (非標準の拡張 >>74)
  - 4区~10区保留
  - 11区括弧、句読点その他の記号35文字
  - 12区~14区部首214文字
  - 14区十干・十二支漢字、ローマ数字 >>88
  - 15区中文数字 (蘇州号碼、漢数字小字・大字) 45文字、注音字母37文字、音調符号4文字
  - 16区~67区 (0x3021~0x6330) 最常用字4808文字
- 1面68区~3面64区 (0x216421~0x23607E) 次常用字17032文字
- 3面65区~6面5区 (0x236121~0x262543) その他の漢字20583文字
第2層簡体字
- 7面私用域 CityU は非漢字を割当 >>89
- 0x273021~0x2C7E7E 簡体字11517文字 (大陸簡体字3625文字とその他の簡体字7892文字、0x213021~0x267E7E 相当)
第3層~第12層その他の異体字
- 13面私用域 CityU は漢字を割当 >>89
- 19面私用域 CityU は漢字を割当 >>89
- 0x2D3021~ 異体字 (0x213021~0x267E7E 相当)
第13層日本漢字
- 73面 JIS X 0208 (JIS X 0208 の非漢字・漢字のうち未収録分を JIS X 0208 と同じ区点位置に割当)
第14層韓国漢字
- 79面ハングル (ハングル字母、ハングル音節)
- 80面漢字
第15層予約
第16層
- 91面
  - JIS C 6226-1978 相当の漢字
  - 片仮名追加分
- 92面
  - KIPS に予約
  - 漢字
- 93面補遺漢字に予約
- 94面 CB2 非漢字に予約
- 95面 UCS-2BE (非標準の拡張 >>75)

[49] 第1層以外 (第12層まで?) の最初の面の1区~15区は外字領域。

[127] 3バイト固定長で領域を自由に使えるはずだったのに、 1面1区から15区を非漢字に割り当てるという JIS X 0208 以来の東アジア漢字コードを踏襲しているのが面白いですね。 1面3区が ASCII というのも。

[128] 非漢字や外字は6面に満たない16層に入れて、1層から12層は全ての区点を対応付けられるようにした方が設計は美しくなりそうですが、そうしたくない理由があったのでしょうか。

CCCII

[4] 1980年 (民国69年) に行政院文化建設委員会が発表しました。一説4808字、別説6139字。

[5] 1981年 (民国70年) に第二批が発表されました。

[6] 1982年 (民国71年) に第二冊第二版が発表されました。

[7] 1985年 (民国74年) 5月に第二冊第三版が発表されました。 21840 文字あり、うち常用字 4804文字、備用字 17302 文字でした。

[9] 1985年 (民国74年) 5月に中文資訊交換碼異體字表(甲)の第二冊第三版が発表されました。異体字が11517字あり、そのうち簡体字が3625字ありました。

[8] 1987年 (民国76年) 2月に第三冊が発表されました。これは罕用字集で、20583字あり、そのうち教育部選定の罕用字が12924字、次常用字が314字、その他康熙字典、中文大辭典、財?資料考核中心字、電信傳輸碼字、五大專題碼字、其它資訊字から7345字が含まれていました。

[10] 1989年 (民国78年) 月に中文資訊交換碼異體字表第一次綜合修訂稿が発行されました。ここまでに発行された符号化文字集合には異体字関係のミスなどが多く含まれており、それを修訂したものとなっています。

EACC

[18] ANSI/NISO Z39.64-1989(R1995) (EACC) East Asian Character Code for Bibliographic Use, 1986年1月16日。ISBN 0-88738-947-3。

[19] REACC, EACC (REACC の R は RLIN (Research Libraries Information Network) より。)

[20] The Research Libraries Group (RLG) が US Library of Congress, Chinese Character Analysis Group とともに開発し、1983年から主に北米の図書館で利用されている。

[21] 符号化文字集合はおおむね CCCII と同じだが、

含まれていない漢字がある
いくつかの入れ替えがある
13層1面に JIS C 6226-1983 から293文字追加
14層1面に KIPS からハングル追加
14層2面に GB 2312-80 から44文字追加

[26] MARC-8 で使われています。私用終端バイト 3/1 が使われます。

[23] MARC 21 Specifications: Character Sets: East Asian http://lcweb.loc.gov/marc/specifications/specchareacc.html
- [125] Character Sets: East Asian Characters: Alternative Unicode Mappings for MARC 21 Characters Assigned to the Private Use Area (PUA): MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress), 2007-12-07T16:43:02.000Z, 2022-10-23T06:11:57.726Z https://www.loc.gov/marc/specifications/specchar.pua.html
- [126] Character Sets: East Asian Characters: Changes to Unicode Mappings for MARC 21 Characters formerly assigned to the Private Use Area (PUA): MARC 21 Specifications for Record Structure, Character Sets, and Exchange Media (Library of Congress), 2007-12-07T16:39:32.000Z, 2022-10-23T06:12:10.818Z https://www.loc.gov/marc/specifications/specchar.chg9-04.html

[77] null, 2022-10-22T12:35:58.000Z http://memory.loc.gov/diglib/codetables/eacc2uni.txt

REACC

[27] REACC: Research Libraries Group http://www.rlg.org/ の漢字コードらしい。

[54] 消滅確認 2022-10-22T09:44:28.700Z
- [53] Research Libraries Group, 2022-10-22T09:44:12.000Z, 2000-11-10T16:16:18.042Z https://web.archive.org/web/20001110161600/http://www.rlg.org/

[56] CA663 - 中国語処理の機械化の動向 / 猶原清子 | カレントアウェアネス・ポータル, 2022-10-22T09:46:27.000Z, 2022-10-22T09:54:46.934Z https://current.ndl.go.jp/ca663

米国のREACC^*1はCJKプロジェクトの一環として開発され(CA590),台湾のCCCII^*2を基礎としている。容量面,コスト面でも問題ないとし3バイトの立体構造を持つ点が注目される(CA272参照)。これは種々の相関関係(例えば繁体字,簡体字等々)を組み込むことを可能にする。(Table 2)

[57] 40_KJ00002307699.pdf, 2022-10-22T10:00:18.000Z https://www.jstage.jst.go.jp/article/jkg/40/11/40_KJ00002307699/_pdf

[58] REACC がほぼそのまま EACC となった >>57 #page=2

[59] 47_KJ00002307058.pdf, 2022-10-22T10:04:26.000Z https://www.jstage.jst.go.jp/article/jkg/47/7/47_KJ00002307058/_pdf

指示シーケンス

[28] ISO-IR に登録されていませんが、私用終端バイトの指示シーケンスが使われています。 Fp

[39] null, 2022-10-14T02:16:32.000Z, 2004-12-08T05:21:05.940Z https://web.archive.org/web/20041208050841/http://cell.cs.uh.edu/computing/techroadmap.html

依據 [1] 的資料,CCCII 的起始碼是 ESC 0x24h 0x41h, 由 CCCII 回到 ASCII 的碼是 0x0fh. 這是跟 ISO 註冊的。在 [1] 中提到表示 CCCII 的方法如下: 一丁(CCCII 值分別為 21 30 21, 21 30 22) ESC 24 41 21 30 21 21 30 22

[1] 資訊應用國字整理小組,「中文資訊交換碼(CCCII) 簡介」,民 82 年

[95] ESC 2/4 4/1 は GB 2312。意図的なのか 3/1 の誤りなのか不明。

先導子バイト付きCCCII

[99] 3バイトの符号として使う方式の他に、先導子バイト (leader byte) を前につけて4バイト符号として使う方式がありました。 >>100

[101] ただしその先導子バイトを使う方式でも先導子バイトを何にするかで流儀があったようです。 >>100

[100] 2022-10-22T14:22:02.000Z https://ah.nccu.edu.tw/bitstream/140.119/33494/8/15500208.pdf#page=12

EUC-CCCII-FT

[96] Unix 環境向けソフトウェアの whterm は EUC 化して使っていました。 CCCII-FT內碼 / EUC-CCCII-FT と呼ばれていました。 >>36

CS0 1バイト: ASCII
CS1 2バイト: CCCII 1面の一部と2面の一部
CS2 SS2 + 3バイト : CCCII の残り
CS3 SS3 + 2バイト : CCCII 2面の一部と3面の一部

[97] 利用頻度の高い台湾の一般的な漢字が含まれている最初の3面の漢字領域を短くするため、 2バイトの CS1 と3バイトの CS3 に変則的に割り振られていました。

[33] EUC-CCCII-FT Internal Code for Traditional Chinese Locale and Wen-Huan Terminal, 2022-10-14T02:04:08.000Z, 2003-07-15T19:43:20.541Z https://web.archive.org/web/20030715194037/http://santos.ee.ntu.edu.tw/~changcs/whterm/whterm.html
- [36] EUC-CCCII-FT Internal Code for Traditional Chinese Locale and Wen-Huan Terminal: CCCII-FT內碼, 2022-10-14T02:10:30.000Z, 2003-08-02T12:32:49.524Z https://web.archive.org/web/20030802123221/http://santos.ee.ntu.edu.tw/~changcs/whterm/whterm-2.html
- [37] EUC-CCCII-FT Internal Code for Traditional Chinese Locale and Wen-Huan Terminal: 檔案下載, 2022-10-14T02:12:16.000Z, 2003-08-02T12:38:49.515Z https://web.archive.org/web/20030802123813/http://santos.ee.ntu.edu.tw/~changcs/whterm/whterm-5.html
  - [38] Wayback Machine, 2022-10-14T02:12:56.000Z https://web.archive.org/web/20030802171122/http://santos.ee.ntu.edu.tw/~changcs/files/big5-to-CCCII-stuffed

[133] CCCII‐FT 内碼 (EUC-CCCII-FT) は、 CCCII を使った EUC です。張嘉聖により考案され、 whterm で実装されています。

[134] 符号化文字集合:

G0: ASCII
G1: CCCII 1面11区〜2面10区
G2: CCCII その他の面
G3: CCCII 2面11区〜3面10区

G1 および G3 では、11区が 0xA1 に当たるように CCCII の面を平行移動しています。例えば CCCII 1-11-1 (GL 0x212B21) は EUC-CCCII-FT では 0xA1A1 に、 CCCII 3-2-1 (GL 0x232221) は EUC-CCCII-FT では 0x8FF6A1 と表されます。

G2 は CCCII をそのまま GR で表したものになります。但し G1, G3 で表せる文字の符号位置は使用しません。

[135] 出典:

Wen-Huan Term (whterm) http://santos.ee.ntu.edu.tw/~changcs/whterm/whterm.html

フォント

[92] 「CDDB」と呼ばれる CCCII による文字データベースが無料で配布されていました >>91。無料で出回っていたフォントはそれから派生したもののようです >>37。

[129] 残念ながら OSS ではありません。

フォント名

[111] 3バイト全体のもの: CCCII.1989 >>30

[14] 2バイト面単位のもの: 「cccii.1989.21xxxx-0」など (21 が面番号 + 0x20) が使われています。

異体字関係

[117] >>73 異体字関係の表

[119] >>23 >>77 たまに異体字関係が書かれている

[118] >>116, >>124 #page=3 複数の繁体字が1つの簡体字に統合されていることに起因する重複符号化

Unicode との対応関係

[79] Unihan kCCCII : >>62 >>25
[80] Unihan kEACC : >>62
[78] 米国議会図書館 MARC : >>23 >>77 >>25 >>87
[89] CityU : >>51
[82] HKIUG : >>73 >>25 >>83
- >>78 から派生, >>89 の後継
[81] Koha Taiwan : >>72 >>25
- Encode::HanExtras が採用
[86] ecma35lib
- [115] 非漢字非ハングル : >>88
- [114] maxmat : >>84

[120] >>23 : Unicode PUA との対応関係

[93] >>38 : Big5 と CCCII の対応関係

>>89 CCCII と Big5 と Unicode の対応関係

[130] 表によって対応先が違っているハングル (どちらかが間違っている)

"뼁" vs "뜁"
"잏" vs "왕"
"퓌" vs "풔"

[136] CJK Code Conversion, 2025-06-30T04:30:04.000Z, 1997-01-05T19:36:28.066Z https://web.archive.org/web/19970105193439/http://stonehand.com:80/unicode/faq/cjk/conversion.html

Unihan

[62] Unihan には kCCCII と kEACC があります。

[113] どちらも URO にだけしか値が設定されてません。

[112] 一方だけしか値がない Unicode符号点も多いです。両方があって値が違う Unicode符号点もあります。

[22] Changes to EACC - 13031-eacc-changes.pdf, 2013-01-28T22:10:56.000Z, 2022-05-09T01:18:45.440Z http://www.unicode.org/L2/L2013/13031-eacc-changes.pdf

メモ

[35] 論文目錄, 2022-10-14T02:08:17.000Z, 2003-08-11T08:42:23.887Z https://web.archive.org/web/20030811083845/http://www.sinica.edu.tw/~cdp/paper/pcatalog.htm

[15] Notes on CJK Codes and Encodings http://ftp.cityu.edu.hk/pub/chinese/ifcss/info/cjk-codes/94x94x94.htm
- [108] 消滅確認 2022-10-22T14:37:20.200Z

[52] 認識全字庫 - 中文碼介紹 - CNS11643 中文全字庫, CMEX中文數位化推廣基金會, 2022-10-22T09:42:59.000Z https://www.cns11643.gov.tw/pageView.jsp?ID=9#encode6

[40] CCCII - DebianWiki, 2022-10-14T02:22:11.000Z, 2004-03-05T12:47:44.231Z https://web.archive.org/web/20040305124707/http://wiki.debian.org.tw/index.php?page=CCCII

[17] GBK による CCCII 文字表 http://www.nease.net/~stonec/hanzi/cccii/c32-gbk.txt
- [109] 消滅確認 2022-10-22T14:37:49.200Z

[24] 文字コードについて http://www.wul.waseda.ac.jp/PUBS/fumi/64/64-06.html
- [60] 消滅確認 2022-10-22T10:08:17.300Z
- [61] 文字コードについて, 2022-10-22T10:07:43.000Z, 2001-03-07T02:49:27.353Z https://web.archive.org/web/20010307024925/http://www.wul.waseda.ac.jp/PUBS/fumi/64/64-06.html

[110] >>61

WINEシステムのベースであるINNOPACシステムもCJKデータをEACCコードで保持するようになっており、香港科技大学(Hong KongUniversity of Science &Technology;)がアジアで最初のINNOPAC導入館であり、また、最初のINNOPACシステムによって中国語データを作成した最初の機関です。
本学に導入するに際してEACC に含まれていない70字ほどの漢字の追加を依頼しました。