中文資訊交換碼

CCCII

[3] CCCII (中文資訊交換碼, Chinese Character Code of Information Interchange) は、中華民国 (台湾) の符号化文字集合です。

符号構造

[11] CCCII における符号位置面区点で表されます。

[12] 全体として1つの ISO/IEC 2022943文字集合の形になっています。 面区点がそれぞれ94個ずつで1つの上位単位になっています。

[47] 6つのが1 (レイヤー) とされています。

[48] 合計15層 (+ 1) あり、 うち第1層から第12層は、 異体字関係にある文字同士が別の層の同じ符号位置に来るように設計されています。 該当する異体字がなければ割当なしとなっています。

[50] いわゆる枝番方式に近いもの言えます。現在の UnicodeIVS に近いですが、基底文字とそれに属するグリフ部分集合という非対称で文字列長が違う IVS と違って CCCII では異体字同士が平等で固定長です。

[90] 説明文では層/面・区点の番号で表したり、 GL の3バイト符号の16進数で表したりするようです。


[64] 上位の符号単位の用語には混乱が見られます。 現在の定訳の成立前に訳されたものなのか、何らかの誤りによるものなのか謎です。


[74] 1面3区は ISO/IEC 646の版のようなものが置かれていますが、 一部の実装は1面3区1点 (0x212321) の直前に当たる 0x212021スペースとして使っているようです。 >>25 これは ISO/IEC 2022 と整合しない拡張です。

[76] 一部の実装は1面1区の前に当たる 0x2120hh の領域に非漢字を割り当てているようです。 >>25 これは ISO/IEC 2022 と整合しない拡張です。

[75] 一部の実装は95面として 0x7Fhhhh の領域に UCS-2BE を割り当てているようです。 >>25 これは ISO/IEC 2022 と整合しない拡張です。

符号化文字集合

[13]

[49] 第1層以外 (第12層まで?) の最初のの1区~15区は外字領域

[127] 3バイト固定長で領域を自由に使えるはずだったのに、 1面1区から15区を非漢字に割り当てるという JIS X 0208 以来の東アジア漢字コードを踏襲しているのが面白いですね。 1面3区が ASCII というのも。

[128] 非漢字外字は6面に満たない16層に入れて、1層から12層は全ての区点を対応付けられるようにした方が設計は美しくなりそうですが、 そうしたくない理由があったのでしょうか。

CCCII

[4] 1980年 (民国69年) に行政院文化建設委員会が発表しました。 一説4808字、別説6139字。

[5] 1981年 (民国70年) に第二批が発表されました。

[6] 1982年 (民国71年) に第二冊第二版が発表されました。

[7] 1985年 (民国74年) 5月に第二冊第三版が発表されました。 21840 文字あり、うち常用字 4804文字、 備用字 17302 文字でした。

[9] 1985年 (民国74年) 5月に中文資訊交換碼異體字表(甲)第二冊第三版が発表されました。 異体字が11517字あり、そのうち簡体字が3625字ありました。

[8] 1987年 (民国76年) 2月に第三冊が発表されました。 これは罕用字集で、20583字あり、 そのうち教育部選定の罕用字が12924字、 次常用字が314字、その他康熙字典中文大辭典財?資料考核中心字電信傳輸碼字五大專題碼字其它資訊字から7345字が含まれていました。

[10] 1989年 (民国78年) 月に中文資訊交換碼異體字表第一次綜合修訂稿が発行されました。 ここまでに発行された符号化文字集合には異体字関係のミスなどが多く含まれており、 それを修訂したものとなっています。

EACC

[18] ANSI/NISO Z39.64-1989(R1995) (EACC) East Asian Character Code for Bibliographic Use, 1986年1月16日。ISBN 0-88738-947-3。

[19] REACC, EACC (REACC の R は RLIN (Research Libraries Information Network) より。)

[20] The Research Libraries Group (RLG) が US Library of Congress, Chinese Character Analysis Group とともに開発し、1983年から主に北米の図書館で利用されている。

[21] 符号化文字集合はおおむね CCCII と同じだが、

[26] MARC-8 で使われています。 私用終端バイト 3/1 が使われます。

[77] null, http://memory.loc.gov/diglib/codetables/eacc2uni.txt

REACC

[27] REACC: Research Libraries Group http://www.rlg.org/漢字コードらしい。

[56] CA663 - 中国語処理の機械化の動向 / 猶原清子 | カレントアウェアネス・ポータル, , https://current.ndl.go.jp/ca663

米国のREACC*1はCJKプロジェクトの一環として開発され(CA590),台湾のCCCII*2を基礎としている。容量面,コスト面でも問題ないとし3バイトの立体構造を持つ点が注目される(CA272参照)。これは種々の相関関係(例えば繁体字,簡体字等々)を組み込むことを可能にする。(Table 2)

[57] 40_KJ00002307699.pdf, https://www.jstage.jst.go.jp/article/jkg/40/11/40_KJ00002307699/_pdf

[58] REACC がほぼそのまま EACC となった >>57 #page=2

[59] 47_KJ00002307058.pdf, https://www.jstage.jst.go.jp/article/jkg/47/7/47_KJ00002307058/_pdf

指示シーケンス

[28] ISO-IR に登録されていませんが、 私用終端バイト指示シーケンスが使われています。 Fp

[39] null, , https://web.archive.org/web/20041208050841/http://cell.cs.uh.edu/computing/techroadmap.html

依據 [1] 的資料,CCCII 的起始碼是 ESC 0x24h 0x41h, 由 CCCII 回到 ASCII 的碼是 0x0fh. 這是跟 ISO 註冊的。 在 [1] 中提到表示 CCCII 的方法如下: 一丁(CCCII 值分別為 21 30 21, 21 30 22) ESC 24 41 21 30 21 21 30 22

[1] 資訊應用國字整理小組,「中文資訊交換碼(CCCII) 簡介」,民 82 年

[95] ESC 2/4 4/1GB 2312。 意図的なのか 3/1 の誤りなのか不明。

先導子バイト付きCCCII

[99] 3バイトの符号として使う方式の他に、 先導子バイト (leader byte) を前につけて4バイト符号として使う方式がありました。 >>100

[101] ただしその先導子バイトを使う方式でも先導子バイトを何にするかで流儀があったようです。 >>100

EUC-CCCII-FT

[96] Unix 環境向けソフトウェアの whtermEUC 化して使っていました。 CCCII-FT內碼 / EUC-CCCII-FT と呼ばれていました。 >>36

[97] 利用頻度の高い台湾の一般的な漢字が含まれている最初の3面の漢字領域を短くするため、 2バイトの CS1 と3バイトの CS3 に変則的に割り振られていました。

フォント

[92] 「CDDB」と呼ばれる CCCII による文字データベースが無料で配布されていました >>91。 無料で出回っていたフォントはそれから派生したもののようです >>37

[129] 残念ながら OSS ではありません。

フォント名

[111] 3バイト全体のもの: CCCII.1989 >>30

[14] 2バイト単位のもの: 「cccii.1989.21xxxx-0」など (21 が番号 + 0x20) が使われています。

異体字関係

[117] >>73 異体字関係の表

[119] >>23 >>77 たまに異体字関係が書かれている

[118] >>116, >>124 #page=3 複数の繁体字が1つの簡体字に統合されていることに起因する重複符号化

Unicode との対応関係

[120] >>23 : Unicode PUA との対応関係

[93] >>38 : Big5CCCII の対応関係

>>89 CCCIIBig5Unicode の対応関係

[130] 表によって対応先が違っているハングル (どちらかが間違っている)

Unihan

[62] Unihan には kCCCIIkEACC があります。

[113] どちらも URO にだけしか値が設定されてません。

[112] 一方だけしか値がない Unicode符号点も多いです。 両方があって値が違う Unicode符号点もあります。

[22] Changes to EACC - 13031-eacc-changes.pdf, , http://www.unicode.org/L2/L2013/13031-eacc-changes.pdf

関連

[55] GB 2901

メモ

[35] 論文目錄, , https://web.archive.org/web/20030811083845/http://www.sinica.edu.tw/~cdp/paper/pcatalog.htm

[52] 認識全字庫 - 中文碼介紹 - CNS11643 中文全字庫, CMEX中文數位化推廣基金會, https://www.cns11643.gov.tw/pageView.jsp?ID=9#encode6

[40] CCCII - DebianWiki, , https://web.archive.org/web/20040305124707/http://wiki.debian.org.tw/index.php?page=CCCII

[110] >>61

WINEシステムのベースであるINNOPACシステムもCJKデータをEACCコードで保持するようになっており、香港科技大学(Hong KongUniversity of Science &Technology;)がアジアで最初のINNOPAC導入館であり、また、最初のINNOPACシステムによって中国語データを作成した最初の機関です。

本学に導入するに際してEACC に含まれていない70字ほどの漢字の追加を依頼しました。

[29] 26_554.pdf, https://www.jstage.jst.go.jp/article/johokanri/26/7/26_554/_pdf#page=5

[45] On the Formalization of Glyph in the Chinese Language - hcc-research-44.pdf, , https://cdp.sinica.edu.tw/cchsieh/research/hcc-research-44.pdf

[46] CCCII - Wikipedia, , https://ja.wikipedia.org/wiki/CCCII

[65] Chinese Character Code for Information Interchange - Wikipedia, , https://en.wikipedia.org/wiki/Chinese_Character_Code_for_Information_Interchange

[104] 館訊第十八期 URICA圖書管理作業系統使用者聯合會, , https://www.lib.ncu.edu.tw/book/n18/arti1810.htm

[105] 館訊第十期 自動化新系統簡介, , https://www.lib.ncu.edu.tw/book/n10/10-2.htm

[121] Lib-Chinese Discussion List, , https://web.archive.org/web/20001203004200/http://library.ust.hk/scip98/lib-chinese.html

[122] LIB-CHINESE Discussion List (date), , https://web.archive.org/web/20000816223034/http://library.ust.hk/lib-chinese/

[123] Wayback Machine, https://web.archive.org/web/20030413234515/http://library.ust.hk/scip98/papers/chang_c.pdf

[124] Wayback Machine, https://web.archive.org/web/20030410211940/http://library.ust.hk/scip98/papers/an-ouyang.pdf

[131] Chinese character sets and codes, , https://web.archive.org/web/20080618090803/http://kanji.zinbun.kyoto-u.ac.jp/~wittern/mirrors/iriz/irizhtml/multling/codes.htm

[132] 繁体字フォントセミナー「台湾の文字、いろいろと。」に行ってきた。 - にせねこメモ, https://nixeneko.hatenablog.com/entry/2014/03/09/195640