[18] [DFN[[[Big5]]]] ([DFN[[[大五碼]]]]) は、[[台湾]]で標準的に使われていた[[文字コード]]です。

* 代替

[30] 現在は [[Unicode]] ([[UTF-8]]) を使うのが普通です。

* 仕様書

[REFS[

- [141] 
[CITE@ja[Nuance Communications, Inc. - n2774-BigFiveSpecification.pdf]], [TIME[2024-11-02T18:15:45.000Z]], [TIME[2024-11-05T04:26:25.178Z]] <https://www.unicode.org/irg/docs/n2774-BigFiveSpecification.pdf>
- [31] [CITE@en[Encoding Standard]] ([TIME[2017-04-10 23:53:26 +09:00]]) <https://encoding.spec.whatwg.org/#big5>
]REFS]

* 符号化方式

[74] 
いわゆる[[シフトJIS]]方式で1バイト [[ASCII]] と
2バイト[[漢字集合]]を組合せた可変長[[2バイト符号]]です。

;; [75] ただし[[シフトJIS]]とは違って既存集合を「シフト」したものではなく、
[[Big5]] がオリジナルです。

[76] 
2バイト符号の第1バイト: [ [N[0x81]], [N[0xFE]] ]

[77] 
2バイト符号の第2バイト: [ [N[0x40]], [N[0x7E]] ], [ [N[0xA1]], [N[0xFE]] ]

[79] 
[DFN[Big5-1984]] と呼ばれる変換表では文字が存在する2バイト符号の第1バイトの領域が
[ [N[0xA1]], [N[0xF9]] ]
となっています。しかし [[Big5]] のほぼすべてのバリエーションで何らかの文字
([[私用文字]]を含む。) をより広い領域に割り当てています。

[78] 
[[Big5]] の数多あるバリエーションのうち、

- [[Big5+]] 
- [[CNS 11643]] 公式サイトで配布されている変換表 CNS2FIN

は第2バイト [ [N[0x7F]], [N[0xA0]] ] の領域も使っています。
(この2つのバリエーションはまったく互換性がありません。)


[172] 
[CITE[BBB]] の [[Big5]] は第2バイト [ [N[0x7F]], [N[0xA0]] ] 
も2バイト[[文字]]の領域になっていて、第2バイトが [N[0xA1]] からの領域と同じ文字が重複しています。
おそらく意図的なものではなく、変換表を機械的に適用した結果そうなったのでしょう。


** Mule Big5

[119] [[Mule]] は [[ISO/IEC 2022]] ベースのシステムだったので、
[[Big5]] を2つの[[94[SUP[2]]集合]]としてサポートしていました。
正規の [[Big5]] の読み書きに対応していましたが、
内部的には[[94[SUP[2]]集合]]に変換され、
[[ISO/IEC 2022]] の他の[[文字]]と混在するときはその状態で[[私用エスケープシーケンス]]で[[指示]]されました。
[SEE[ [[Fp]] ]]

[120] [[ctext]] もその[[94[SUP[2]]集合]]に対応していました。

** HZ+ 

[SEE[ [[HZ+]] ]]

* 符号化文字集合

[80] 
[[Big5]] はオリジナル部分の他の拡張部分に数多のバリエーションがあります。

[24] 
,*[[Big5]],*[[UCS]],*領域,*拡張
,0x8140-0x84FE   ,                ,UDA3    ,HKSCS私用域
,0x8540-0x8DFE   ,                ,UDA3    ,HKSCS
,0x8840-0x88FE   ,U+F303-U+F39F   ,UDA3    ,HKSCS非漢字
,0x8940-0x8DFE   ,U+F3A0-U+F6B0   ,UDA3    ,HKSCS非漢字
,0x8E40-0xA0FE   ,U+E311-U+EEB7   ,UDA2    ,HKSCS漢字
,0xA140-0xA3FE   ,                ,非漢字  ,
,0xA440-0xC67E   ,                ,漢字1   ,
,0xC6A1-0xC7FE   ,U+F6B1-         ,VDA     ,"ETen,HKSCS"
,0xC840-0xC8FE   ,        -U+F845 ,VDA     ,HKSCS
,0xC940-0xF9D5   ,                ,漢字2   ,
,0xF9D6-0xF9FE   ,                ,VDA     ,"ETen,HKSCS,CP950"
,0xFA40-0xFEFE   ,U+E000-U+E310   ,UDA1    ,HKSCS漢字

** オリジナル

[81] オリジナルの[[非漢字]]、漢字その1、漢字その2はほぼすべてのバリエーションで共通して実装されています。

[82] ただし [[Unicode]] との対応関係は実装によって多少の違いがある(あった)ようです。

** 香港大学版

[20] [[ETen]] ([[奇天]]) と [DFN[HKU]] ([[香港大学]]) がながく2大方言とされてきたが、
[[HKU]] は[[フォント]]のミスで生じたもので、香港大学の正式なものではないという
[SRC[>>139]]。

- [139] [CITE@ja[Proposed HZ-like 7-bit rendition of Big-5 character set]], [TIME[2023-07-31T07:08:19.000Z]] <https://groups.google.com/g/alt.chinese.computing/c/-4VvAfZWqBg/m/ulsMNzYQU8sJ>


[71] 
[CITE[CJK Codes - Big-5 (Traditional Chinese)]], [TIME[2022-07-30T10:32:45.000Z]], [TIME[2022-10-19T09:50:55.349Z]] <http://shann.idv.tw/Chinese/big5eng.html>

>The font [CODE[HKU-Ch16]] (a.k.a. [CODE[chinese.16]]) uses a slight variant: the less frequent hanzi are moved down to occupy C6A1-F755. 

[83] 
[[Unix]] 系環境では [[HKU]] フォントが(も)流布されていて、
多くのソフトウェアで実装されていました。

[84] 
[[HKU]] 形式のデータも多く存在していたのか、
それとも[[フォント符号化]]として対応しているだけでデータは標準 [[Big5]]
が多かったのかはよくわかりません。

[85] 
現在では [[HKU]] で読み書きするソフトウェアはあまりないみたいです。


[163] 
誰も使っている実態がない[[幽霊文字コード]]というべきものなのか、
それとも[[香港大学]]でミスに気づかず使っていた時代は一応あったものなのか、
どちらなのでしょう。


[138] [CITE[THE ONLINE WORLD]], 
Version 2.1 - May 1995
(Version 1.0 released in Aug. 93),
[TIME[1999-05-25T09:32:30.000Z]], [TIME[2023-07-31T07:05:52.306Z]] <http://www-library.desy.de/online/online.txt>

>
[PRE[
Big5
----
Coding scheme developed in Taiwan for using Chinese on computers. There are  
different varieties of Big5 codes, the most common being ET Big5 (the code  
used by the Taiwanese program ETen, pronounced Yi3tian1) and HKU Big5 (the  
code used for programs developed at Hong Kong University).  

ET Big5 files must be read with the ETen operating system. Check out the  
Archie server at telnet archie.TWNIC.NET , login: archie ,to locate  
software and get more information.  
]PRE]


[137] [CITE[East Asian Character Sets Overview: Chinese]], [TIME[2023-07-30T02:27:43.000Z]], [TIME[2009-01-06T16:25:41.721Z]] <https://web.archive.org/web/20090106155444/http://www.massangeana.com/mas/charsets/cjk-c.htm>

>Big5 の最大の問題点は方言差があることです。 日本でもベンダーごとに独自の文字を定義している場合が多いのですが, Big5 の違いはその段ではありません。 大きく分けて ETen (倚天, ET とも書く)方式と HKU (香港大学)方式があります。 (両者を変換する et2hku というソフトウェアもある) とくに C6A1-C8FE には 平仮名・片仮名・キリル文字・丸付き数字などが定義されているのですが, ETen と HKU では配列がまるで違っています。 またおおむね ETen に従っている IBM でも少し違っている, という具合です。 Microsoft ではこの領域を扱いかねてユーザ定義文字領域にしてしまっています。
追記: ifcss の資料 によると, いわゆる「HKU」方式は香港大学の公式のシステムではなく, 単にフォントのミスが原因で生じたものに過ぎないので, サポートする必要はないそうだ。 


[140] 
[CITE[Mosaic-L10N: Changes]], [TIME[2017-09-14T23:06:30.000Z]], [TIME[2024-08-16T07:47:05.422Z]] <http://takadat.com/i/Mosaic-l10n/changes.html>

** ETen

[86] 
[[ETen]] の [[Big5]] 拡張は[[デファクト標準]]で、ほぼすべてのバリエーションが一部または全部を取り込んでいるか、
矛盾しない(併用できる)拡張となっています。

[88] 
知られている例外は、

-[87] 
[[Unicode Consortium]] が配布している (現在では廃止されている) [[Big5]]
変換表はこの領域がずれていました。
[[台湾]]国外で開発されたソフトウェアがそれを実装していることがしばしばあって[[台湾人]]が困っていたそうです。
- [89] 
[[CNS 11643]] 公式サイトで配布されている変換表によると [[ETen]]
でない拡張を実装しているシステムが1つはあります。

くらいで、他は [[UAO]]、[[HKSCS]] 等すべて [[ETen]] と互換性があります。


[21] [[CP950]] は F9D6~F9FE に文字を追加している。

[22] [[倚天擴充字集]] は [[CP950]] に C6A1~C7FE を追加している。

[23] 歴史的には、[[CP950]] が [[ETen]] の一部だけ取り込んだものらしい。

[25] 0xC255 は U+5F5E のはずですが、 CP950 では U+5F5D となっています。


[164] 
[[Unicode Consortium]] の配布している変換表の [[Big5]] は完全なる間違いの[[幽霊文字コード]]なのでしょうかね。
それともこの変換表の元となる間違った実装が一応は元々存在していたのでしょうか。

[173] 
[CITE[超漢字]]の[CITE[BBB]]の[[Big5]]は [[Unicode Consortium]] 版ではないかと思われます。
[SEE[ [[TRONコード]] ]]


** その他の領域

[90] 
その他の領域は[[外字]]領域という扱いになっていたらしく、
無数のバリエーションが知られています。

[91] 
[[CNS 11643]] 公式サイト配布の変換表には政府機関各システムの文字の対応関係が示されています。
そこに示された各システムは、いくつかのシステムが一部の領域で同じ文字集合を持っている他は、
尽く違う文字を割り当てているようです。1つだけ [[UAO]] と同じ文字集合を割り当てている領域を持つシステムがある他は、
民間の各拡張とも互換性がまったくありません。

;; [92] [[中華民国]]は政府系各システムの外字表を一般公開しているから酷く見えますが、
[[日本]]も中央政府や地方自治体の[[シフトJIS]]外字表はきっと同じように酷い状態なのでしょうね。
(今では[[Unicode]]の[[PUA]]もそうなってそうです。[[入管外字]]と[[住基ネット統一文字]]だけでもあれなので。)

[93] 
[[Big5+]], [[Big5E]] の拡張も、各システム・民間の拡張とほぼ別個のものです。
(そのまま採用したシステムはいちいち変換表を紹介していないだけかもしれませんが。)


[70] 
学術系の拡張として[[CDP外字]]が知られています。

[107] 
次に示す [[UAO]], [[HKSCS]] を含む各拡張は、
[[Unicode]] との対応関係が定まっていることが多いです。
[[Windows]] などは[[外字]]領域としていたので
[[Unicode]] の [[PUA]] との対応関係を定めています。
すると1つの拡張に対して

- [108] 符号位置から機械的に定まる対応関係
- [109] 割り当てられた文字から定まる対応関係

の2通りの対応関係が存在してしまっています。
ただし [[Unicode]] に存在しない文字も多い (多かった) ので、
1通りしか存在しない場合もありますし、
後から [[Unicode]] に追加されて1通りから2通りになる場合もあります。

[110] 
これが [[Big5]] のバリエーションの多さをますます増やす結果になっています。
[[HKSCS]] などは改版のたびに [[Unicode]] に対応する文字が増えていき、
徐々に [[PUA]] から正規の[[符号位置]]へと対応先が変更されていっています。

[111] 
[[PUA]] から正規の[[符号位置]]へと変換表を切り替えても、
互換性の問題がありますから、 [[PUA]] [[符号位置]]もそのまま対応し続けなければならず、
[[重複符号化]]状態となります。

[112] 
異なる [[Big5]] 拡張のデータは異なる使い方の [[Unicode]] [[PUA]] データになるので、
[[Big5]] の混乱が [[Unicode]] にも持ち越される結果となっています。

[113] 
逆に [[Unicode]] の [[PUA]] が [[Big5]] の表示に使われることもあるわけで、
たまたまシステムに入っていた[[フォント]]が [[PUA]]
に[[タイ文字]]を割り当てていたので [[Big5]] 拡張部分の文字が[[タイ文字]]に[[文字化け]]する、
という現象もあったそうです。

[127] [CITE[中文編碼網頁 → 香港某報章造字集]], [TIME[2022-09-27T04:30:27.000Z]], [TIME[2022-10-20T14:54:03.483Z]] <http://code.web.idv.hk/charset/oncode.php>

[129] [CITE[日和字集]], [TIME[2022-10-20T14:58:56.000Z]], [TIME[2008-06-03T02:50:44.875Z]] <http://web.archive.org/web/20080603024935/http://input.foruto.com/jptxt/>

[128] [CITE[中文編碼網頁 → 日和字集(造字部分)]], [TIME[2022-09-15T02:15:06.000Z]], [TIME[2022-10-20T14:58:33.777Z]] <http://code.web.idv.hk/charset/jpsakura.php>

[130] [CITE[日和字集]], [TIME[2022-10-20T15:00:16.000Z]], [TIME[2008-05-18T00:38:53.080Z]] <http://web.archive.org/web/20080518003830/http://input.foruto.com/jptxt/list.htm>

*** UAO

[94] 
20世紀の[[台湾]]の民間の[[デファクト標準]]的な拡張が[DFN[中國海字集]]でした。

[95] 
21世紀に入ってそれを拡張する形で 
[DFN[Unicode補完計畫]] ([DFN[UAO]])
拡張が開発されました。


[96] 
[[UAO]] 拡張は [[BBS]] での標準の地位を得ていたようです。

;; [97] [[日本]]の[[パソコン通信]]は21世紀に入るか入らないかで早々に衰退しましたが、
[[台湾]]ではそれ以降もしばらくコミュニティーが存続していたようです。

[98] 
[[Mozilla]] / [[Firefox]] が [[UAO]] を実装していました。
他の[[Webブラウザー]]はネイティブでは対応していませんでしたが、
[[Windows]] の[[外字]]として使われていたようです。

;; [99] 民間規格だったのと [[Firefox]] 以外が実装しなかった 
(けどフォントをインストールするだけで使えていた)
ことが、[[Webブラウザー事業者]]から十分に認知されずに
[[Web]] において [[HKSCS]] に負ける結果を招いてしまったようで。

[100] 
[[中國海字集]]は独自に発達していて現在の [[Unicode]] に入っていない文字も多いようです
(がほとんど情報がありません)。

[132] [[UAO]] と互換性のない部分もあるようです。 [SRC[>>131]]
[[UAO]] は[[中國海字集]]の[[漢字]]はほぼそのまま採用しているようですが、
[[非漢字]]で [[Unicode]] にないものは潰して他の[[漢字]]を並べているようです。


[101] 
[[UAO]] は [[Unicode]] という名前が付いているように、
[[Unicode]] との対応関係を定め、[[Big5]] にない[[Unicode文字]]を多数追加しています。
というと [[GBK]] 的な印象を受けますが、
[[日本]]文化に興味を持つ[[サブカルチャー]]層が[[日本]]の[[文字コード]]を変換して受容する
(& それを使って入出力する) という要求があって発展したものらしいです [SRC[>>59]]。
変則的ですが日本語文字コードの一種ともいえるのです。


-[133] 
[CITE[首頁 - Unicode補完計画]] <http://uao.cpatch.org/>
-- [135] 消滅確認 [TIME[2022-10-21T11:44:35.200Z]]
-- [136] 
[CITE@zh-tw[首頁 - Unicode補完計画]], [TIME[2022-10-21T11:44:12.000Z]], [TIME[2005-11-26T18:29:02.971Z]] <https://web.archive.org/web/20051126182852/http://uao.cpatch.org/>

[134] 
[CITE[Big5 Variants in Mozilla: Mozilla 系列與 Big5 中文字碼]] <http://moztw.org/docs/big5/>



[131] 
[CITE[中文編碼網頁 → 中國海字集(符號部分)]], [TIME[2021-04-24T15:50:22.000Z]], [TIME[2022-10-20T15:07:38.878Z]] <http://code.web.idv.hk/charset/csws2.php>

[125] 
[CITE[中文編碼網頁 → 中國海字集(漢字部分)]], [TIME[2022-10-11T06:06:44.000Z]], [TIME[2022-10-20T14:36:00.132Z]] <http://code.web.idv.hk/charset/csws1.php>

[59] [CITE@zh-TW[最初から語る Big5-UAO – but, or bug…]], [TIME[2022-10-19T07:55:52.000Z]] <https://but.tw/2014/03/the-story-of-big5-uao-ja/>

[60] [CITE@zh-TW[Big5-UAO 細說從頭 – but, or bug…]], [TIME[2022-10-19T07:56:08.000Z]] <https://but.tw/2014/03/the-story-of-big5-uao-zhtw/>

[65] [CITE@zh[Unicode補完計畫 - 维基百科,自由的百科全书]], [TIME[2022-10-16T13:28:15.000Z]], [TIME[2022-10-19T09:29:29.707Z]] <https://zh.wikipedia.org/wiki/Unicode%E8%A3%9C%E5%AE%8C%E8%A8%88%E7%95%AB>

[66] [CITE[Gentoo Taiwan 討論區 :: 觀看文章 - Unicode 補完計畫 ... for Linux (glibc 2.3.2) !!]], [TIME[2022-10-19T09:31:06.000Z]], [TIME[2007-09-27T22:50:22.621Z]] <https://web.archive.org/web/20070927224913/http://forums.gentoo.tw/viewtopic.php?t=41230>


[67] [CITE@zh[[[中國海字集]] - 维基百科,自由的百科全书]], [TIME[2022-10-16T13:28:15.000Z]], [TIME[2022-10-19T09:32:24.067Z]] <https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%9C%8B%E6%B5%B7%E5%AD%97%E9%9B%86>

[68] [CITE[Unicode Ã¯Â¿Â½?Ã¯Â¿Â½?Ã¯Â¿Â½?Ã¯Â¿Â½?Ã¯Â¿Â½ Ã¯Â¿Â½??Ã¯Â¿Â½??Ã§Â¶Â²Ã¯Â¿Â½?]], [TIME[2022-10-19T09:40:40.000Z]] <http://uao.no-ip.org/>

[69] [CITE@en[Screen + Unicode-At-On - electronic_blue]], [TIME[2022-10-19T09:42:41.000Z]] <http://electronic-blue.wikidot.com/doc:screen-uao>

[126] [CITE[中文編碼網頁 → Unicode補完計畫(符號部分)]], [TIME[2020-04-12T19:17:06.000Z]], [TIME[2022-10-20T14:52:00.983Z]] <http://code.web.idv.hk/uao/uao_00.php>

[142] 
[CITE@zh-cmn-hant[MozTW 討論區 • 檢視主題 - Unicode 補完計劃 2.30 alpha for Mozilla/Netscape win32]], [TIME[2025-05-16T02:33:22.000Z]] <https://forum.moztw.org/viewtopic.php?p=5529>

*** HKSCS

[102] 
[[中華人民共和国]][[香港特別行政区]]政府の政府システム用の[[外字]]集合
[[GCCS]]
を拡張させる形で制定された[[香港]]用の追加文字集合が [[HKSCS]]
です。

[103] 
[[Big5]] + [[ETen]] がベースになっていて、[[香港]]で必要とされる多数の[[漢字]]等が追加されています。
[[中華民国]]の各システム外字や [[UAO]] とは互換性がまったくありません。

[104] 
多くの [[OS]] や [[Webブラウザー]]がネイティブサポートしています。

[105] 
[CITE[Encoding Standard]] は [[Big5]] として [[HKSCS]] だけに対応しています。

;; [106] [[香港]]の人はそれでいいのでしょうが、[[台湾]]の人は既存データが使えなくなって困っているみたいです。
酷い話ですね。

[124] 
数年ごとに改訂されていたので、版によって細かな違いがたくさんあります。
[SEE[ [[HKSCS]] ]]

** HKUST End-User Defined Characters

[143] かつて <http://www.ust.hk/itsc/chinese/infra/eudc/>
に
[CITE[HKUST End-User Defined Characters]]
の紹介がありました ([[Internet Archive]] にも現存せず)。

>During the time that we rolled out ETen Chinese system on our network environment, there was no EUDC standard established in the region. As a result, ITSC selected the 3[SUP[rd]] segment in the EUDC area of BIG-5 encoding scheme and created our own set of Chinese characters. The following table lists the 152 HKUST EUDC and its encoding as at 11-5-1999.

>
[BOX(center)[
[B[Eten DOS System (倚天中文系統)
]BOX]
>
,Segment  	,Description  	,Code Range  	,Characters 
,1  	,Simplified Chinese characters copied from KuoChiau (國喬中文系統)  	,0xFA40 - 0xFEFE  	,785 
,2  	,Simplified Chinese characters copied from KuoChiau (國喬中文系統)  	,0x8E40 - 0x98C5  	,1670 
,3  	,HKUST End User Defined Characters  	,0x8D45 - 0x8DFE  	,152 
>
[BOX(center)[
[B[Chinese Windows 3.1]]
]BOX]
>
,Segment  	,Description , 	Code Range  	,Characters 
,1  ,	R&B EUDC Standard[SUP[1]]  	,0xFA40 - 0xFEFE  	,784 
,2  ,	Unused  	  	 ,,
,3  ,	HKUST End User Defined Characters[SUP[2]]  	,0x8D51 - 0x8DFE  	,140 
>
[BOX(center)[
[B[RichWin 4.2+/RichWin 97]]
]BOX]
,Segment  	,Description  	,Code Range  	Characters 
,1,  	GCCS Standard[SUP[3]]  	,0xFA40 - 0xFEFE  	,3049 
,2 , 	GCCS Standard  ,	0x8E40 - 0xA0FE ,
,3,  	Unused (Cannot Build EUDC)  	  	,,0 
>
[BOX(center)[
[B[Chinese Windows 95]]
]BOX]
,Segment  	,Description  	,Code Range  	,Characters 
,1  	,GCCS Standard  	,0xFA40 - 0xFEFE  	,3049
,2  	,GCCS Standard  	,0x8E40 - 0xA0FE ,
,3  	,HKUST End User Defined Characters  	,0x8D45 - 0x8DFE  	,152 
>
Note :
-    The EUDC character set developed by R&B company which is the richest BIG-5 EUDC character set available on the market at the time we implemented Chinese Windows 95.
-    This set of HKUST EUDC was created as at March 96. There was no further enhancement since then.
-    GCCS (Government Chinese Character Set) published by ITSD in 1995, it serves the standard for information exchange within government. The adoption of this character set in Hong Kong shows that it will become de-facto standard in the region.




* 実装戦略

[114] 
既存の [[Big5]] のデータの読み書きのために [[Big5]] を実装するなら、
[WEAK[([[中華民国]]の行政システム対応など特別な要件がある場合を除くと)]]
次のものを実装するのがよさそうです。

- [115] [CITE[Encoding Standard]] の [CODE[big5]] - [[Webプラットフォーム]]で必須。
[[HKSCS]] ([[香港]]用)。
- [116] moztw 配布の uao250 による Big5-UAO - [[台湾]]用。
- [117] [[Unicode Consortium]] 配布の [[Apple]] [CODE[CHINTRAD.TXT]] の [[Big5]] -
[[OpenType]] [[フォント]]にこの[[符号化方式]]のデータが入っていることがある。

[121] 
符号構造の[[復号]]は [CITE[Encoding Standard]] に厳密な規定があり
(他には無く)、すべてのバリエーションにおいてそれに従うのが妥当と考えられます。
その上で、
[[HKSCS]] 以外では [CITE[Encoding Standard]] の規定する変換表ではなく、
それぞれの変換表に差し替えて実装することになります。

[122] 
[[符号化]]は [CITE[Encoding Standard]] にも規定がなく、独自に実装するしかありません。
各バリエーション固有の [[Unicode]] 符号位置と 
[[PUA]] 符号位置の両方がある場合に、どちらが与えられても適切な
[[Big5]] 符号を出力するのが妥当でしょう。

[123] 
[[Big5]] の1文字が [[Unicode]] の複数文字に対応する場合があることには注意が必要です。


* CNS 11643

[72] 
[[CNS 11643]] の第1字面と第2字面は [[Big5]] と兄弟関係にあり、ほぼ同じ内容です。
しかし文字の配置は違っていて、簡単に計算で変換できる関係ではありません。
[[Big5]] の[[漢字]]の重複2組は [[CNS 11643]] にはありません。

;; [73] 
なお [[CNS 11643]] の第1字面はその後の改訂で新しい文字が追加されています。

[52] 
[[CNS 11643]] 公式サイトの配布ファイルに対照表が入っています。

CNS2BIG5.txt
CNS2BIG5_Big5E.txt
CNS2BIG5_七個倚天外字.txt
CNS2BIG5_符號.txt

この他にもシステムごとの対照表が入っていて、多数あるうちの2つを除いて、
[[Big5]] の[[外字]]です。

[118] 
[[Big5:2003]] については [[CNS 11643]] も参照。

* MIME

[37] [[MIME charset]] [DFN[[CODE[CN-Big5]]]] [SRC[[[RFC 1922]]]]


* 実装


[146] [[Python]] の実装が世間の実態と乖離していることに起因する不具合があちこちで発生しているようです。

- [144] [CITE@en[Cannot decode using CP950 (and possibly others) due to the Python implementation differing from the Microsoft implementation · Issue #373 · TeamMsgExtractor/msg-extractor]], [TIME[2025-10-26T04:58:08.000Z]] <https://github.com/TeamMsgExtractor/msg-extractor/issues/373>
- [145] [CITE@en[Problem with the CP950 codec · Issue #19 · seamustuohy/RTFDE]], [TIME[2025-10-26T04:58:30.000Z]] <https://github.com/seamustuohy/RTFDE/issues/19>

[165] [CITE@en[310299 - Big5 Unicode Mapping Table Update]], [TIME[2025-11-16T05:35:02.000Z]] <https://bugzilla.mozilla.org/show_bug.cgi?id=310299>


* 実利用例


[147] [CITE@zh-tw[Father]], [TIME[2025-10-27T03:38:56.000Z]] <https://members.tripod.com/tomcat_f14/side.htm>

[148] [CITE[June News]], [TIME[2025-10-27T03:42:47.000Z]] <https://members.tripod.com/~anti_ms/2003_news/news03jn.htm>

[149] >>148 [[Firefox]] だと一瞬 [[Windows-1252]] で表示された直後に
[[Big5]] で表示し直される。

[150] 
[CITE[Our Newspaper]], [TIME[2025-10-27T03:50:53.000Z]] <https://members.tripod.com/~Roy_Blondie/newspaper.htm>

[151] [CITE[星洲互動www.sinchew-i.com]], [TIME[2025-11-09T13:37:45.000Z]], [TIME[2001-05-17T04:35:27.215Z]] <https://web.archive.org/web/20010517043504/http://www.sinchew.com.my/>

[152] 
[CITE[e.sinchew-i.com]], [TIME[2025-11-09T13:42:33.000Z]], [TIME[2001-04-18T17:27:10.131Z]] <https://web.archive.org/web/20010418172251/http://e.sinchew-i.com/>

[153] 
[CITE[星洲互動:醫療保健]], [TIME[2025-11-09T13:43:25.000Z]], [TIME[2001-04-18T18:35:16.261Z]] <https://web.archive.org/web/20010418183002/http://health.sinchew-i.com/>

[154] 
[CITE[星洲互動:E卡]], [TIME[2025-11-09T13:43:56.000Z]], [TIME[2001-01-24T10:09:06.152Z]] <https://web.archive.org/web/20010124100900/http://www.sinchew-i.com/ecard/>

[155] [CITE[SinChew Interactive - Home Page]], [TIME[2025-11-09T13:46:35.000Z]], [TIME[1998-12-06T01:40:03.579Z]] <https://web.archive.org/web/19981206013903/http://www.rhmedia.com/sinchew/>

[156] >>155 [CITE[Firefox]] は [[ISO-8859-2]] と誤認
(ソース表示では [[Windows-1252]] と誤認)。
[CITE[Chrome]] は [[Big5]] と正しく認識。


[157] [CITE[CEIT Home Page]], [TIME[2025-11-09T13:52:50.000Z]], [TIME[1996-12-29T06:00:40.275Z]] <https://web.archive.org/web/19961229055943/http://www.richwin.com/>

[158] >>157 [[Big5]] だが、 [[Latin1]] [[文字参照]]を一部利用。
[CITE[Chrome]] は [[Big5]] と認識するが[[文字参照]]部分は[[文字化け]]。
[CITE[Firefox]] は [[Windows-1252]] と誤認。

[159] 
[CITE[明報HI-TECH WEEKLY]], [TIME[2025-11-09T14:10:11.000Z]], [TIME[1999-02-08T02:17:12.023Z]] <https://web.archive.org/web/19990208021637/http://www1.mingpao.com/>

- [160] 
[CITE[Bintang Sin Chew Firstpage]], [TIME[2025-11-09T14:14:43.000Z]], [TIME[1999-01-28T06:25:50.111Z]] <https://web.archive.org/web/19990128062032/http://www.rhmedia.com/bintang/>
-- [161] 
[CITE[Bintang Sin Chew]], [TIME[2025-11-09T14:14:52.000Z]], [TIME[1999-10-09T23:47:10.953Z]] <https://web.archive.org/web/19991009234508/http://www.rhmedia.com/bintang/b5/bintang.htm>
-- [162] [CITE[Bintang Sin Chew]], [TIME[2025-11-09T14:14:59.000Z]], [TIME[1999-10-13T14:10:27.902Z]] <https://web.archive.org/web/19991013140849/http://rhmedia.com/bintang/gb/bintang.htm>

[167] 
[CITE[歡迎光臨 Netscape]], [TIME[2025-11-25T15:08:40.000Z]], [TIME[1999-09-12T01:41:52.634Z]] <https://web.archive.org/web/19990912014018/http://home.fr.netscape.com/zh/tw/index.html?cp=ifrhstw>


[166] 
[CITE@zh-tw[Microsoft Taiwan Corporation 台灣微軟]], [TIME[2025-11-25T14:45:15.000Z]], [TIME[2001-06-10T11:39:40.242Z]] <https://web.archive.org/web/20010610113812/http://www.microsoft.com/taiwan/>


- [168] 
[CITE[阿蓉的日記]], [TIME[2025-12-23T02:59:59.000Z]], [TIME[2001-01-24T16:53:18.382Z]] <https://web.archive.org/web/20010124164800/http://aaron.kwok.net/diary_c.html>
- [170] [CITE[犬節]], [TIME[2025-12-23T03:07:24.000Z]], [TIME[2001-01-17T07:41:00.469Z]] <https://web.archive.org/web/20010117073600/http://aaron.kwok.net/snow_big5/inukko.html>
- [171] 
[CITE[AKITA-Kamakura]], [TIME[2025-12-23T03:08:06.000Z]], [TIME[2001-01-17T07:45:03.442Z]] <https://web.archive.org/web/20010117074500/http://aaron.kwok.net/snow_big5/kamakura.html>


[169] >>168 [N[0x8140]] が使われていますが、現在の [CITE[Firefox]] と [CITE[Chrome]]
と [CITE[Encoding Standard]] では[[文字化け]]してしまいます。

元々[[外字]]の領域なので、何を意図していたのかは不明です。




- [175] 
[CITE@zh-tw[紀要案内]], [TIME[2026-02-05T14:49:55.000Z]], [TIME[2007-11-18T10:41:01.275Z]] <https://web.archive.org/web/20071118104052/http://www.geocities.jp/taiwan_nichigo/Kiyou-annai.htm>
- [174] [CITE@zh-tw[求人広告]], [TIME[2026-02-05T14:49:44.000Z]], [TIME[2007-11-16T15:10:02.568Z]] <https://web.archive.org/web/20071116150616/http://www.geocities.jp/taiwan_nichigo/Oshirase.htm>


[176] >>175 のサイトは [[Big5]] ですが、異なる方法での編集を繰り返した結果なのか、
[[文字参照]]や[[文字化け]]らしき [CH[?]] が混入しています。それに加えて、

- [177] >>175 の [CODE[News.htm]] へのリンクの画像の [CODE[alt]] [[属性値]]は
[[Unicode]] 系 [[Big5]] であり、例えば [N[0xC763]] が[[片仮名]]を表しています。
- [178] >>174 の項目見出し記号らしき位置に何個か出現する [N[0x8449]]
は、何らかの[[外字]]でそのような割当があると思われますが、不明です。

* 歴史

[REFS[
- [19] 技術通報 C-26, [CITE@zh[電腦用中文字型與字碼對照表]], 1984年5月, [[財團法人資訊工業策進會]]編印。
]REFS]


- [2] <http://m2000.idv.tw/informer/big5/big5.html>
- [3] ''Index of /informer/big5'' <http://m2000.idv.tw/informer/big5/>

[5]
[CITE[Bug 310299 - Big5 Unicode Mapping Table Update]] <https://bugzilla.mozilla.org/show_bug.cgi?id=310299>

[6]
[CITE[BIG-5碼介紹]] <http://www.cns11643.gov.tw/web/big5/>

[7]
[CITE[Big5 Variants in Mozilla: Mozilla 系列與 Big5 中文字碼]] <http://moztw.org/docs/big5/>


[1] [CITE@zh-tw[檢視主題 - Unicode 補完計劃 2.30 alpha for Mozilla/Netscape win32 • Mozilla Taiwan 討論區]]
([TIME[2010-04-18 19:23:35 +09:00]] 版)
<http://forum.moztw.org/viewtopic.php?p=5529>

[8] [CITE[make the charset as big5-hkscs permanent - Google Chrome Help]]
( ([TIME[2011-12-20 23:52:58 +09:00]] 版))
<http://www.google.com/support/forum/p/Chrome/thread?tid=466c210af3fb6d08&hl=en>

[9] [CITE[Bug 310299 – Big5 Unicode Mapping Table Update]]
( ([TIME[2011-12-20 23:54:41 +09:00]] 版))
<https://bugzilla.mozilla.org/show_bug.cgi?id=310299>

[10] [CITE[IRC logs: freenode / #whatwg / 20120328]]
( ([TIME[2012-04-09 21:56:14 +09:00]] 版))
<http://krijnhoetmer.nl/irc-logs/whatwg/20120328>

[11] [CITE[IRC logs: freenode / #whatwg / 20120406]]
( ([TIME[2012-04-14 23:26:06 +09:00]] 版))
<http://krijnhoetmer.nl/irc-logs/whatwg/20120406>

[12] [CITE@en[中 Traditional Chinese — coq.no]]
( ([TIME[2012-04-15 09:39:38 +09:00]] 版))
<http://coq.no/character-tables/chinese-traditional/en>

[13] [CITE[IRC logs: freenode / #whatwg / 20120412]]
( ([TIME[2012-04-18 00:05:27 +09:00]] 版))
<http://krijnhoetmer.nl/irc-logs/whatwg/20120412>

[14] [CITE@zh[Unicode補完計畫 - 维基百科,自由的百科全书]]
( ([TIME[2012-01-11 12:29:53 +09:00]] 版))
<http://zh.wikipedia.org/wiki/Unicode%E8%A3%9C%E5%AE%8C%E8%A8%88%E7%95%AB>

[15] [CITE[IRC logs: freenode / #whatwg / 20120414]]
( ([TIME[2012-04-21 20:45:41 +09:00]] 版))
<http://krijnhoetmer.nl/irc-logs/whatwg/20120414#l-294>

[16] [CITE[IRC logs: freenode / #whatwg / 20120416]]
( ([TIME[2012-04-22 18:08:19 +09:00]] 版))
<http://krijnhoetmer.nl/irc-logs/whatwg/20120416>

[17] [CITE[Encodings: status update and big5 — Anne’s Blog]]
( ([TIME[2012-04-23 08:52:25 +09:00]] 版))
<http://annevankesteren.nl/2012/04/big5>

[4] [CITE@zh-tw[Big5 Variants in Mozilla: Mozilla 系列與 Big5 中文字碼]]
([TIME[2015-02-22 19:53:09 +09:00]] 版)
<http://moztw.org/docs/big5/>

[FIG(quote)[
[FIGCAPTION[
[26] [CITE@en[./ in whatwg/big5 (4a591808c055107d5a4a84d6c480db8b800ba40a) - Gitorious]]
([TIME[2015-02-22 19:55:48 +09:00]] 版)
<https://gitorious.org/whatwg/big5/source/4a591808c055107d5a4a84d6c480db8b800ba40a:>
]FIGCAPTION]

> Research of Big5 and Big5-HKSCS on the Web for http://dvcs.w3.org/hg/encoding/raw-file/tip/Overview.html#legacy-multi-byte-chinese-(traditional)-encodings

]FIG]


[27] [CITE@en[Add big5 encoder quirk. Fixes https://www.w3.org/Bugs/Public/show_bug… · whatwg/encoding@7f9dda7]]
([TIME[2015-08-20 13:36:29 +09:00]] 版)
<https://github.com/whatwg/encoding/commit/7f9dda73cc3e62eac1d2000d12c7f7044abd848f>

[28] 
[PRE(code)[
charset=BIG5-CP950
]PRE]

[29] [CITE@en[Confusion between Big5 and Big5-HKSCS encodings · Issue #75 · whatwg/encoding]]
([TIME[2016-12-20 20:13:00 +09:00]])
<https://github.com/whatwg/encoding/issues/75>

[32] [CITE@en[Fix #9: exclude pointers for the big5 encoder to avoid doing the wron… · whatwg/encoding@531648f]]
([TIME[2015-09-08 15:01:15 +09:00]] 版)
<https://github.com/whatwg/encoding/commit/531648fb9d1282af046ee52fffd97f943706770c>

[33] [CITE@en[912470 – Merge big5-hkscs and big5 as per the Encoding Standard]]
([TIME[2015-09-12 14:14:14 +09:00]] 版)
<https://bugzilla.mozilla.org/show_bug.cgi?id=912470>


[34] [CITE[Big5-2003]]
([TIME[2004-10-04T18:09:40.000Z]], [TIME[2020-10-14T05:59:02.046Z]])
<https://www.csie.ntu.edu.tw/~r92030/project/big5/>

[35] [CITE[w3m おぼえがき(2001年10月)]]
([TIME[2001-10-31T14:32:44.000Z]], [TIME[2020-10-24T23:51:22.598Z]])
<http://www2u.biglobe.ne.jp/~hsaka/w3mnote.cgi?month=200110>

[36] [CITE[BIG5 charmap problems]]
([TIME[2000-09-26T16:22:17.000Z]], [TIME[2020-10-25T00:30:40.657Z]])
<https://sourceware.org/legacy-ml/libc-alpha/2000-09/msg00437.html>

- [38] [CITE[sbig5(5)]], [TIME[1998-10-14T23:27:11.000Z]], [TIME[2022-05-03T03:40:52.391Z]] <http://www2.phys.canterbury.ac.nz/dept/docs/manuals/unix/DEC_4.0e_Docs/HTML/MAN/MAN5/0316____.HTM>
- [39] [CITE[Microsoft Word - Chinawrd.doc - CHINPRN.PDF]], [TIME[1999-06-21T12:00:00.000Z]], [TIME[2022-05-03T06:55:10.367Z]] <http://www2.phys.canterbury.ac.nz/dept/docs/manuals/unix/DEC_5.0a_Docs/ACRO_SUP/CHINPRN.PDF#page=33>

[40] 第2バイトの範囲が違うバリエーション。


- [41] [CITE@ja[未来情報産業ブログ 台湾の符号]], [[miraicorp]], [TIME[2022-05-05T14:05:15.000Z]], [TIME[2022-05-05T14:05:24.078Z]] <https://miraicorp.blog.fc2.com/blog-entry-287.html>
-- [45] [CITE@ja[未来情報産業ブログ コードページ20001]], [[miraicorp]], [TIME[2022-05-05T14:06:42.000Z]], [TIME[2022-05-05T14:06:54.529Z]] <https://miraicorp.blog.fc2.com/blog-entry-281.html>
-- [44] [CITE@ja[未来情報産業ブログ コードページ20002]], [[miraicorp]], [TIME[2022-05-05T14:06:23.000Z]], [TIME[2022-05-05T14:06:37.153Z]] <https://miraicorp.blog.fc2.com/blog-entry-282.html>
-- [43] [CITE@ja[未来情報産業ブログ コードページ20003]], [[miraicorp]], [TIME[2022-05-05T14:05:54.000Z]], [TIME[2022-05-05T14:06:10.841Z]] <https://miraicorp.blog.fc2.com/blog-entry-285.html>
-- [42] [CITE@ja[未来情報産業ブログ コードページ20005]], [[miraicorp]], [TIME[2022-05-05T14:05:04.000Z]], [TIME[2022-05-05T14:05:51.785Z]] <https://miraicorp.blog.fc2.com/blog-entry-286.html>


[46] [CITE@ja[Big5]], [TIME[2011-09-24T09:05:30.000Z]], [TIME[2022-10-10T11:40:16.784Z]] <https://kanji-database.sourceforge.net/charcode/big5.html>

[47] [CITE[中文編碼網頁 → 中國海字集(漢字部分)]], [TIME[2022-10-11T06:06:44.000Z]], [TIME[2022-10-11T06:15:29.741Z]] <http://code.web.idv.hk/charset/csws1.php>

[48] [CITE[中文編碼網頁 → 中國海字集(符號部分)]], [TIME[2021-04-24T15:50:22.000Z]], [TIME[2022-10-11T06:15:41.491Z]] <http://code.web.idv.hk/charset/csws2.php>

[49] [CITE[中文編碼網頁 → Unicode補完計畫(漢字部分)]], [TIME[2020-04-12T21:42:10.000Z]], [TIME[2022-10-11T06:16:08.020Z]] <http://code.web.idv.hk/uao/uao.php>

[50] [CITE[中文編碼網頁 → Unicode補完計畫(符號部分)]], [TIME[2020-04-12T19:17:06.000Z]], [TIME[2022-10-11T06:16:24.728Z]] <http://code.web.idv.hk/uao/uao_00.php>

[51] [CITE[Big5Variants - DebianWiki]], [TIME[2022-10-14T02:31:08.000Z]], [TIME[2004-01-18T09:23:29.451Z]] <https://web.archive.org/web/20040118091439/http://wiki.debian.org.tw/index.php?page=Big5Variants>

[53] [CITE@EN-US[Microsoft Hong Kong Supplementary Character Set (HKSCS)]], [TIME[2022-10-18T14:53:30.000Z]], [TIME[2001-01-24T06:28:12.319Z]] <https://web.archive.org/web/20010124062500/http://www.microsoft.com/hk/hkscs/>

[54] >>35

>xcin.linux.org.tw の BIG5HKSCS.gz を使用。
>http://www.info.gov.hk/digital21/eng/hkscs/ のものと同じことを確認。
>http://www.microsoft.com/hk/hkscs/ のものとは一文字(0x8BC2)を除き同じことを確認。 

>>53 によると [[MS]] は
[CODE[U+5C22]]

[55] [CITE[葉平的 Big5 網頁]], [TIME[2022-10-18T15:08:27.000Z]], [TIME[2004-02-19T21:02:29.108Z]] <https://web.archive.org/web/20040219205156/http://pingyeh.net/big5/>

[56] [CITE@en[277868 - Update Big5 / Big5-HKSCS mapping table to be more compatible with HTML5 spec and Firefox - chromium]], [TIME[2022-10-19T07:27:22.000Z]] <https://bugs.chromium.org/p/chromium/issues/detail?id=277868>

[57] [CITE@en[310299 - Big5 Unicode Mapping Table Update]], [TIME[2022-10-19T07:27:44.000Z]] <https://bugzilla.mozilla.org/show_bug.cgi?id=310299>

[58] [CITE@en[912470 - Merge big5-hkscs and big5 as per the Encoding Standard]], [TIME[2022-10-19T07:28:07.000Z]] <https://bugzilla.mozilla.org/show_bug.cgi?id=912470>


[61] 
[CITE@en[845743 - Firefox 19.0 does not support BIG5-HKSCS encoding. Version 18.0 does]], [TIME[2022-10-19T07:58:05.000Z]] <https://bugzilla.mozilla.org/show_bug.cgi?id=845743>

[62] [CITE@en[21146 – Separate big5-hkscs from big5]], [TIME[2019-04-02T04:48:11.000Z]], [TIME[2022-10-19T07:58:43.371Z]] <https://www.w3.org/Bugs/Public/show_bug.cgi?id=21146>



[63] 
[CITE[Wayback Machine]], [TIME[2022-10-19T08:58:32.000Z]] <https://web.archive.org/web/20040817015523/http://m2000.idv.tw/informer/big5/BIG5-2003.TXT>

[64] [CITE[Big5 中的問題字]], [TIME[2022-10-19T09:24:50.000Z]], [TIME[2004-01-20T03:21:14.370Z]] <https://web.archive.org/web/20040119085441/http://xcin.phys.ntu.edu.tw/thhsieh/openi18n-big5/big5-variants/>

