x-EUC-TW

EUC-TW

[1] EUC-TW は、 台湾で使われた EUC の一種でした。

符号化文字集合

[3] EUC の規則に基づき ASCIICNS 11643 を使用します。

[4] CNS 11643 が第1字面から第16字面までだった時代、 SS2 の次のバイトは 0xA2 - 0xB0 が第2字面から第16字面を表していました。 >>6, >>2, >>7

[5] SS2 の次のバイト 0xB1 - 0xF0 は、 CNS 11643:2004 で新設された第17字面から第80字面を表します。 >>2

[11] 未来情報産業ブログ EUC-TW, miraicorp, , https://miraicorp.blog.fc2.com/blog-entry-66.html

果たして、この10/1と指定された場合は、どういう動作をするべきなのだろうか。

Operaの場合、当たり前のように第一字面の文字が出てきました。

Firefox 3の場合、SS2 0xa1 という符号列をエラーとするようです。このため、その後の余った2バイトは、コードポイントからG1となり、G1の文字が表示される。

こちらの実装は、現在は、4バイトは認識しつつ、10/1は不正だろうと判断し、1文字のエラー文字として出力しています。

変種

[10] tWnneuc-twnn と呼ばれる独自の変種を使っていました。 >>8, >>9

エスケープシーケンス

ANSIエスケープシーケンス

DOCS

関連

943集合

メモ