943

複数バイト集合

[14] 94n文字集合96n文字集合 (n > 1) を合わせて複数バイト集合と呼びます JIS X 0202:1998 4.3.1

[15] 複数バイト集合は 02/0007/15 または 10/0015/15 の位置にある7ビットまたは 8ビットビット組合せの列で図形文字表現します。 (ただし 94n文字集合ではビット組合せ 02/0007/15 は使いません。) 8ビットの複数バイト表現では最上位ビット0 または 1 のいずれかです。 JIS X 0202:1998 4.3.1

指示シーケンス

[19] 4F 型エスケープシーケンスで指示できます。

[16] 指示シーケンスバイト数 n によって終端バイトが変わります。

指示シーケンス

94n文字集合

[2] ISO/IEC 2022 でもっともよく使われる複数バイト符号化図形文字集合の大きさが、 942 です。 (というか公式に ISO-IR に登録されている複数バイト符号は全て 942 集合です。) それを含めて、94符合位置×n バイトで1文字を表現する (ISO/IEC 2022 の) 図形文字集合のことを、 94n 集合などと呼びます。

[3] なぜ 94 符号位置なのかというと、 ASCII図形文字が (SP を除くと) 94文字だからです。制御文字の領域を避けた結果 94n という大きさになりました。

94n 文字集合

[5] ISO/IEC 2022 の環境で使える94n文字集合は、 ISO-IR に登録されているもの、いないもの、バリエーション含めかなりたくさんあります。

isoir
ISO-IR #
F
終端バイト F
IRR
IRR F
desc
文字集合
IRG
IRG source
size
サイズ
note
参考
F
04/00 (@)
desc
JIS X 0208-1978
size
942
isoir
42
F
04/00 (@)
desc
JIS X 0208:1997 RFC 1468符号化表現 漢字集合入れ替えあり
size
942
F
04/02 (B)
desc
JIS X 0208-1983
size
942
isoir
87
desc
JIS X 9051 本体
size
942
desc
JIS X 9051 本体 + 参考
size
942
desc
JIS X 9052
size
942
F
04/02 (B)
desc
JIS X 0208:1997 RFC 1468符号化表現 漢字集合
size
942
F
04/02 (B)
desc
JIS X 0213:2000 ISO-2022-JP-3 漢字集合削除あり
size
942
F
04/02 (B)
desc
JIS X 0213:2004 ISO-2022-JP-2004 漢字集合削除あり
size
942
F
4/2
desc
iso-2022-jp-3-compatible ESC 2/4 4/2
size
942
F
4/2
desc
iso-2022-jp-2004-compatible ESC 2/4 4/2
size
942
F
4/2
desc
Videotex 漢字集合
size
942
F
4/2
desc
ARIB STD-B5 漢字集合
size
942
F
4/2
desc
ARIB STD-B24 漢字集合
size
942
F
4/2
desc
CP932 漢字集合
size
942
F
4/2
desc
MacJapanese 漢字集合
size
942
F
04/02 (B)
IRR
4/0 (@)
desc
JIS X 0208-1990
size
942
isoir
168
IRG
J0
note
平成明朝 JA
F
04/02 (B)
IRR
4/0 (@)
desc
JIS X 0208:1997
size
942
F
04/02 (B)
IRR
4/0 (@)
desc
JIS X 0208:1997 ISO/IEC 646 IRV 併用時
size
942
F
04/02 (B)
IRR
4/0 (@)
desc
JIS X 0208:1997 ISO/IEC 646 IRV 併用時代替名称
size
942
F
04/02 (B)
IRR
4/0 (@)
desc
JIS X 0208:1997 JIS X 0201 ラテン文字用図形文字集合 併用時代替名称
size
942
F
Fp
desc
JIS X 0208:1997 + 外字
size
942
F
04/15 (O)
desc
JIS X 0213:2000 第1面
size
942
isoir
228
IRG
J3
note
平成明朝 JC
F
04/15 (O)
desc
JIS X 0213:2000 第1面 ISO/IEC 646 IRV 併用時
size
942
F
04/15 (O)
desc
JIS X 0213:2000 第1面 ISO/IEC 646 IRV 併用時代替名称
size
942
F
04/15 (O)
desc
JIS X 0213:2000 第1面 JIS X 0201 ラテン文字用図形文字集合 併用時
size
942
F
04/15 (O)
desc
JIS X 0213:2000 第1面 JIS X 0201 ラテン文字用図形文字集合 併用時代替名称
size
942
F
04/15 (O)
desc
JIS X 0213:2004 第1面 削除あり
size
942
F
05/01 (Q)
desc
JIS X 0213:2004 第1面
size
942
isoir
233
IRG
J3, J3A, J13, J13A, JA3
F
05/01 (Q)
desc
JIS X 0213:2004 第1面 ISO/IEC 646 IRV 併用時
size
942
F
05/01 (Q)
desc
JIS X 0213:2004 第1面 ISO/IEC 646 IRV 併用時代替名称
size
942
F
05/01 (Q)
desc
JIS X 0213:2004 第1面 JIS X 0201 ラテン文字用図形文字集合 併用時
size
942
F
05/01 (Q)
desc
JIS X 0213:2004 第1面 JIS X 0201 ラテン文字用図形文字集合 併用時代替名称
size
942
desc
平成明朝 JE
desc
平成明朝 JF
F
3/9
desc
ARIB STD-B24 JIS互換漢字1面
size
942
F
3/11
desc
ARIB STD-B24 追加文字
size
942
IRG
JARIB
desc
eucJP-open CS1
size
942
F
04/01 (A)
desc
GB 2312-80
size
942
isoir
58
IRG
G0
desc
GB 5007.1-85
size
942
desc
GB 6345.1-86
size
942
desc
GB 6345.2-86
size
942
desc
GB 5199.1-85
size
942
desc
GB 5199-2001
size
942
desc
GB 6345-2001
size
942
desc
GB 5199-2010
size
942
desc
GB 6345.1-2010
size
942
desc
GB 8565.2-88
size
942
IRG
G8
desc
GB 8565-89
size
942
IRG
G8
desc
SJ/T 11239-2001
size
942
F
04/05 (E)
desc
ISO-IR-165:1992
size
942
isoir
165
desc
GB 2312 + GB/T 15564-1995
size
942
desc
GB 12345-90
size
942
IRG
G1
F
(未定)
desc
GB 12345-90 と追加文字
size
942
IRG
G1
desc
GB 12345 + GB/T 15564-1995
size
942
desc
GB 5007.2-2001
size
942
F
3/1
desc
KS X 1001-1987
size
942
F
4/3
desc
KS X 1001-1987, KS C 5601-1989, KS C 5601-1992
size
942
isoir
149
IRG
K0
F
4/3
desc
KS X 1001:1998
size
942
F
4/3
desc
KS X 1001:2002, KS X 1001:2004
size
942
IRG
K0
F
04/04 (D)
desc
JIS X 0212-1990
size
942
isoir
159
IRG
J1
note
平成明朝 JB
desc
eucJP-open CS2
size
942
F
05/00 (P)
desc
JIS X 0213:2000 第2面
size
942
isoir
229
IRG
J4
note
平成明朝 JD
desc
JIS X 0212-1990 + JIS X 0213:2000 第2面
size
942
F
05/00 (P)
desc
JIS X 0213:2004 第2面
size
942
IRG
J4, J14, JA4
F
3/10
desc
ARIB STD-B24 JIS互換漢字2面
size
942
F
3/15
desc
ISO-2022-JP-MS EUDC
size
942
desc
CP932 0xF040 - 0xFCFC
size
942
desc
sjis-docomo 0xF040 - 0xFCFC
size
942
F
04/06 (F)
desc
Blissymbol
size
942
isoir
169
F
04/07 (G)
desc
CNS 11643-1987 第1字面
size
942
isoir
171
F
04/07 (G)
desc
CNS 11643-1992 第1字面
size
942
IRG
T1
desc
CNS 11643 第1字面と追加文字
IRG
T1
size
942
F
3/0 (0)
desc
CNS 11643 第1字面
size
942
F
04/08 (H)
desc
CNS 11643-1987 第2字面
size
942
isoir
172
F
04/08 (H)
desc
CNS 11643-1992 第2字面
size
942
IRG
T2
F
3/1 (1)
desc
CNS 11643 第2字面
size
942
F
3/13
desc
CNS 11643 第14字面 (旧)
size
942
desc
CNS 11643 第14字面と追加文字
IRG
TE
size
942
F
04/09 (I)
desc
CNS 11643-1992 第3字面
size
942
isoir
183
size
942
desc
TCA-CNS 11643-1992 3rd plane with some additional characters
IRG
T3
F
3/2 (2)
desc
CNS 11643 第3字面
size
942
F
04/10 (J)
desc
CNS 11643-1992 第4字面
size
942
isoir
184
IRG
T4
F
3/3 (3)
desc
CNS 11643 第4字面
size
942
F
04/11 (K)
desc
CNS 11643-1992 第5字面
size
942
isoir
185
IRG
T5
F
3/4 (4)
desc
CNS 11643 第5字面
size
942
F
04/12 (L)
desc
CNS 11643-1992 第6字面
size
942
isoir
186
IRG
T6
F
3/5 (5)
desc
CNS 11643 第6字面
size
942
F
04/13 (M)
desc
CNS 11643-1992 第7字面
size
942
isoir
187
IRG
T7
F
3/6 (6)
desc
CNS 11643 第7字面
size
942
F
3/7 (7)
desc
CNS 11643-1992 第8字面
size
942
F
3/7 (7)
desc
CNS 11643-2004 第8字面
size
942
F
3/8 (8)
desc
CNS 11643-1992 第9字面
size
942
F
3/8 (8)
desc
CNS 11643-2004 第9字面
size
942
F
3/9 (9)
desc
CNS 11643-1992 第10字面
size
942
F
3/9 (9)
desc
CNS 11643-2004 第10字面
size
942
IRG
TA
F
3/10 (:) 〜 3/14
desc
CNS 11643-1992 第11字面 〜 第15字面
size
942
F
3/10 (:) 〜 3/14
desc
CNS 11643-2004 第11字面 〜 第15字面
size
942
F
3/10 (:) 〜 3/14
desc
CNS 11643-2007 第11字面 〜 第15字面
size
942
IRG
TBTF
F
3/15 (?)
desc
CNS 11643-1992 第16字面
size
942
F
3/15 (?)
desc
CNS 11643-2004 第16字面
size
942
F
2/1 3/0
desc
CNS 11643 第17字面
size
942
IRG
T11
F
2/1 3/1
desc
CNS 11643 第18字面
size
942
F
2/1 3/2
desc
CNS 11643 第19字面
size
942
IRG
T13
F
2/1 3/32/5 3/15
desc
CNS 11643 第20字面 〜 第80字面
size
942
desc
EUC-CCCII-FT CS1
size
942
desc
EUC-CCCII-FT CS3
size
942
desc
EUC-TW CS2 (CNS 11643 第2字面 〜 第16字面)
size
943
desc
EUC-TW CS2 (CNS 11643 第2字面 〜 第80字面)
size
943
F
3/0
desc
Mule Big5-1
size
942
note
Fp
F
3/1
desc
Mule Big5-2
size
942
note
Fp
F
04/14 (N)
desc
KPS 9577-97 (ISO-IR 202)
size
942
isoir
202
IRG
KP0
desc
KPS 9577-2000
size
942
desc
KPS 9577-2003
size
942
desc
KPS 9577-2012
size
942
desc
GB 7589
size
942
F
(未定)
desc
GB 13131
size
942
IRG
G3
desc
GB 7590
size
942
F
(未定)
desc
GB 13132
size
942
IRG
G5
desc
GB 12052
size
942
IRG
GK
F
(未定)
desc
GB 13134
size
942
F
(未定)
desc
General Purpose Hanzi List for Modern Chinese Language, and General List of Simplified Hanzi
size
942
IRG
G7
desc
GB/T 16500-1998
size
942
IRG
GE
F
(未定)
desc
Singapore Characters
size
942
IRG
GS
desc
平成明朝 FT
desc
Unified Japanese IT Vendors Contemporary Ideographs, 1993
size
942
IRG
JA
note
平成明朝 IA
desc
平成明朝 IB
desc
平成明朝 HG
desc
KS X 1002:1991 第1拡張集合
size
942
IRG
K1
F
4/5
desc
KS X 1002:2001 第1拡張集合
size
942
IRG
K1
F
4/5
desc
KS X 1002 第2拡張集合
F
4/6
size
942
desc
PKS C 5700-1 1994
size
942
IRG
K2
desc
KS X 1027-1:2011
size
942
IRG
K2
desc
PKS C 5700-2 1994
size
942
IRG
K3
desc
KS X 1027-2:2011
size
942
IRG
K3
desc
TCVN 5773:1993, TCVN 6056:1995
size
942
IRG
V0, V1
desc
VHN 02:1998, V4
size
942
IRG
V3, V4
desc
CCCII
size
943
desc
EACC
size
943
F
3/1
F
3/1
desc
DEC漢字 1978年版
size
942
F
3/3
desc
DEC漢字 1983年版
size
942
F
3/10
desc
Mule mojikyo-2022-1
size
943
note
Fp
F
3/2
desc
Mule lc-ethio
note
Fp
size
942
F
3/3
desc
Mule ethiopic
size
942
note
Fp
F
3/5
desc
Mule indian-2-column
size
942
note
Fp
F
3/6
desc
Mule indian-1-column
size
942
note
Fp
F
3/7
desc
Mule tibetan
size
942
note
Fp
F
3/8
desc
Mule tibetan-1-column
note
Fp
size
942
F
3/15
desc
Mule thai-xtis
size
942
note
Fp
desc
GB 12050-89 附録A
size
942
F
05/1205/15 (R〜_)
size
942
desc
(ISO-IR 未登録)
F
06/0006/15 (`〜o)
size
943
desc
(ISO-IR 未登録)
F
07/0007/13 (p〜})
size
94n (n4)
desc
(ISO-IR 未登録)
F
2/1 (!) 4/0 (@) 〜 2/3 (#) 5/15 (O)
desc
(ISO-IR 未登録 2周目 〜 4周目)
size
942
F
2/1 (!) 6/0 (`) 〜 2/3 (#) 6/15 (o)
desc
(ISO-IR 未登録 2周目 〜 4周目)
size
943
F
2/1 (!) 7/0 (p) 〜 2/3 (#) 7/14 (~)
desc
(ISO-IR 未登録 2周目 〜 4周目)
size
94n (n4)
F
2/0 (SP) 4/0 (@) 〜 2/0 (SP) 5/15 (O)
desc
ISO/IEC 2022 DRCS
size
942
F
2/0 (SP) 6/0 (`) 〜 2/0 (SP) 6/15 (o)
desc
ISO/IEC 2022 DRCS
size
943
F
2/0 (SP) 7/0 (p) 〜 2/0 (SP) 7/14 (~)
desc
ISO/IEC 2022 DRCS
size
94n (n4)
F
2/0 4/0
desc
ARIB STD-B24 DRCS
size
942
F
2/0 4/0
desc
Videotex DRCS II set
size
942
F
07/14 (~)
desc
空集合
size
94n (n ≧ 4?)
F
03/0003/15 (0〜?)
size
94n (n2)
desc
私用図形文字集合
F
2/1 (!) 3/0 (0) 〜 2/3 (#) 3/15 (?)
desc
私用図形文字集合
size
94n (n ≧ 2)
F
2/0 (SP) 3/0 (0) 〜 2/0 (SP) 3/15 (?)
desc
ISO/IEC 2022 DRCS 私用終端バイト
size
94n (n ≧ 2)
F
3/0
desc
DEC漢字 UDC
size
942
F
00/0002/15 (NUL〜/)
desc
(使用しない)
F
07/1515/15 (DEL〜y")
desc
(使用しない)
desc
KanjiBase &CX
size
942
desc
KanjiBase &CY
size
942

指示シーケンス, 私用終端バイト, IRR

[12] 4バイト以上の符号化文字集合は知られていません。

94文字集合との文字の配置の互換性

[6] 2002-09-30 (Mon) 16:41:21 名無しさん : JISX0208:1997 の解説図3には、古い JISX0202 の解説図が引用されている。

94文字集合との字種の互換性

[7] 942文字集合は当然94集合よりずっと多くの文字が入る。 だから、 ISO/IEC646 で unify されてた文字, 例えば 02/02 (") = 左二重引用符 / 右二重引用符 / ウムラウトとか、 (-) = ハイフン / 負符号とかが JISX0208 とかでは分離された。

これは正しい判断だった。当時としては。だけど、今は違う。 内部符号としての Unicode が生まれて、それと同時に名前による同定という規則が ISO/IEC で確立されてから、そういう一対多対応あるいは多対多対応は受け入れられなくなってしまった。 (もっとも実際それ以前でも、変換の時は一般には機械で自動的に意味で分離するのは無理だから、どれか選んで (あるいは選ばないで) 一対一対応に無理矢理してたんだけど。) だからもはや <"> は「“」とも「”」とも「¨」とも違う文字だ。

このちょっとおかしな事態は、たとえば JISX0213 の登場で誰の目にも明らかになった。 (ぼろ雑巾とまで言われた UCS は、まあ気にしないでおこう。) JIS X 0213 には ISO/IEC 646 との互換のために、 <"> (QUOTATION MARK) が追加された。もう既に「“」も「”」もあるのにだよ!

[8] ここに来てまた、あの一言が頭をよぎる。 JIS X 0208-1978 は、 ISO/IEC 646 の符号位置を変えてはいけなかった!

[9] 78JIS が間違っていたのか、それとも JIS X 0213:2000 が間違っていたのか。たぶん、どちらも間違ってはいなかった。 けれども間違った結果になってしまった。 時代の先を見通すことは難しい。

[10] >>9 では JIS X 0208-1978 が仮に <"> を収録していて、 「“」や「”」がなかったら、どうなっていただろう。 MicrosoftWindowsCodePage 125x でこれらを追加しているから、きっと同じ様に JIS 外字として 932 に入っていただろう。

JIS X 0213:2000 に <"> が入ってなかったら・・・ 別になにも変わらなかったかもしれんがね。 (その辺は歴史の深さの違いだ。)

96n文字集合

[13] 96n文字集合は、 96複数符号空間を持つ符号化文字集合です。

[17] ISO/IEC 2022 で利用できる符号化文字集合の種類の一つでした。

[20] こちらは私用文字集合としてしか (まだ) 使われていません。

[22] Emacs私用図形文字集合として962集合を使っています。 私用図形文字集合

[18] 国家標準符号化文字集合でこれに該当するものは知られていません。 ISO-IR にもこの種別の符号化文字集合は1つも登録されていません。

[11] Videotex では sound-tone set として962集合が使われました。 音声について指定する96集合を2つ組合せた2バイト符号でした。

isoir
ISO-IR #
F
終端バイト F
IRR
IRR F
desc
文字集合
IRG
IRG source
size
サイズ
note
参考
desc
Mule bitmap
size
962
F
3/0
note
Fp
F
3/1
desc
mule-unicode-0100-24ff
size
962
note
Fp
F
3/2
desc
mule-unicode-2500-33ff
size
962
note
Fp
F
3/3
desc
mule-unicode-e000-ffff
size
962
note
Fp
desc
Mule indian-glyph
note
Fp
size
962
F
3/4
desc
Mule lc-arb3
note
Fp
F
3/3
size
962
desc
Mule lc-arb4
note
Fp
F
3/4
size
962
desc
Mule cgreek
F
3/4
note
Fp
size
962
desc
mule-ucs-unicode-multichar
size
962
F
3/14
note
Fp
desc
Videotex sound-tone set
size
962
F
4/005/15 (@〜_)
size
962
desc
(ISO-IR 未登録)
F
06/0006/15 (`〜o)
size
963
desc
(ISO-IR 未登録)
F
07/0007/13 (p〜})
size
96n (n4)
desc
(ISO-IR 未登録)
F
2/1 (!) 4/0 (@) 〜 2/3 (#) 5/15 (O)
desc
(ISO-IR 未登録 2周目 〜 4周目)
size
962
F
2/1 (!) 6/0 (`) 〜 2/3 (#) 6/15 (o)
desc
(ISO-IR 未登録 2周目 〜 4周目)
size
963
F
2/1 (!) 7/0 (p) 〜 2/3 (#) 7/14 (~)
desc
(ISO-IR 未登録 2周目 〜 4周目)
size
96n (n4)
F
2/0 (SP) 4/0 (@) 〜 2/0 (SP) 5/15 (O)
desc
ISO/IEC 2022 DRCS
size
962
F
2/0 (SP) 6/0 (`) 〜 2/0 (SP) 6/15 (o)
desc
ISO/IEC 2022 DRCS
size
963
F
2/0 (SP) 7/0 (p) 〜 2/0 (SP) 7/14 (~)
desc
ISO/IEC 2022 DRCS
size
96n (n4)
F
07/14 (~)
desc
空集合
size
96n (n ≧ 4?)
F
03/0003/15 (0〜?)
size
96n (n2)
desc
私用図形文字集合
F
2/1 (!) 3/0 (0) 〜 2/3 (#) 3/15 (?)
desc
私用図形文字集合
size
96n (n ≧ 2)
F
2/0 (SP) 3/0 (0) 〜 2/0 (SP) 3/15 (?)
desc
ISO/IEC 2022 DRCS 私用終端バイト
size
96n (n ≧ 2)
F
00/0002/15 (NUL〜/)
desc
(使用しない)
F
07/1515/15 (DEL〜y")
desc
(使用しない)

関連

94文字集合

メモ

[21] ISO-IR は最初の頃から登録簿に G0, G1, 多バイト集合のエスケープシーケンス欄があって、 当初から 942集合の登録は想定されていたようです。 しかし実際登録されたのは G0, G1, G2, G3 欄に改められた (ISO 2022 の改訂があった) 後からのようです。