[14] 94n文字集合と 96n文字集合
(n > 1
) を合わせて複数バイト集合と呼びます
JIS X 0202:1998 4.3.1。
[15] 複数バイト集合は 02/00
〜07/15
または 10/00
〜15/15
の位置にある7ビットまたは
8ビットのビット組合せの列で図形文字を表現します。
(ただし 94n文字集合ではビット組合せ
02/00
と 07/15
は使いません。)
8ビットの複数バイト表現では最上位ビットの値は
0
または 1
のいずれかです。
JIS X 0202:1998 4.3.1
本項は歴史的事項を説明しています。本項の内容の一部または全部は、現在の状況とは異なるかもしれません。
(なお本項の内容の一部または全部は、互換性または歴史的連続性のために現在も有効な場合もあります。しかし新たに利用することは避けるべきです。)
[2] ISO/IEC 2022 でもっともよく使われる複数バイト符号化図形文字集合の大きさが、
942 です。 (というか公式に ISO-IR に登録されている複数バイト符号は全て
942 集合です。) それを含めて、94符合位置×n バイトで1文字を表現する
(ISO/IEC 2022 の) 図形文字集合のことを、 94n 集合などと呼びます。
[3] なぜ 94 符号位置なのかというと、 ASCII の図形文字が (SP
を除くと) 94文字だからです。制御文字の領域を避けた結果 94n
という大きさになりました。
[5] ISO/IEC 2022 の環境で使える94n文字集合は、
ISO-IR に登録されているもの、いないもの、バリエーション含めかなりたくさんあります。
ISO-IR # | 終端バイト F | IRR F | 文字集合 | IRG source | サイズ | 参考 |
---|
42 | 04/00 (@) | | JIS X 0208-1978 | | 942 | |
| 04/00 (@) | | JIS X 0208:1997 RFC 1468符号化表現 漢字集合入れ替えあり | | 942 | |
87 | 04/02 (B) | | JIS X 0208-1983 | | 942 | |
| | | JIS X 9051 本体 | | 942 | |
| | | JIS X 9051 本体 + 参考 | | 942 | |
| | | JIS X 9052 | | 942 | |
| 04/02 (B) | | JIS X 0208:1997 RFC 1468符号化表現 漢字集合 | | 942 | |
| 04/02 (B) | | JIS X 0213:2000 ISO-2022-JP-3 漢字集合削除あり | | 942 | |
| 04/02 (B) | | JIS X 0213:2004 ISO-2022-JP-2004 漢字集合削除あり | | 942 | |
| 4/2 | | iso-2022-jp-3-compatible ESC 2/4 4/2 | | 942 | |
| 4/2 | | iso-2022-jp-2004-compatible ESC 2/4 4/2 | | 942 | |
| 4/2 | | Videotex 漢字集合 | | 942 | |
| 4/2 | | ARIB STD-B5 漢字集合 | | 942 | |
| 4/2 | | ARIB STD-B24 漢字集合 | | 942 | |
| 4/2 | | CP932 漢字集合 | | 942 | |
| 4/2 | | MacJapanese 漢字集合 | | 942 | |
168 | 04/02 (B) | 4/0 (@) | JIS X 0208-1990 | J0 | 942 |
平成明朝 JA |
| 04/02 (B) | 4/0 (@) | JIS X 0208:1997 | | 942 | |
| 04/02 (B) | 4/0 (@) | JIS X 0208:1997 ISO/IEC 646 IRV 併用時 | | 942 | |
| 04/02 (B) | 4/0 (@) | JIS X 0208:1997 ISO/IEC 646 IRV 併用時代替名称 | | 942 | |
| 04/02 (B) | 4/0 (@) | JIS X 0208:1997 JIS X 0201 ラテン文字用図形文字集合 併用時代替名称 | | 942 | |
| Fp | | JIS X 0208:1997 + 外字 | | 942 | |
228 | 04/15 (O) | | JIS X 0213:2000 第1面 | 旧 J3 | 942 |
平成明朝 JC |
| 04/15 (O) | | JIS X 0213:2000 第1面 ISO/IEC 646 IRV 併用時 | | 942 | |
| 04/15 (O) | | JIS X 0213:2000 第1面 ISO/IEC 646 IRV 併用時代替名称 | | 942 | |
| 04/15 (O) | | JIS X 0213:2000 第1面 JIS X 0201 ラテン文字用図形文字集合 併用時 | | 942 | |
| 04/15 (O) | | JIS X 0213:2000 第1面 JIS X 0201 ラテン文字用図形文字集合 併用時代替名称 | | 942 | |
| 04/15 (O) | | JIS X 0213:2004 第1面 削除あり | | 942 | |
233 | 05/01 (Q) | | JIS X 0213:2004 第1面 | J3, J3A, J13, J13A, JA3 | 942 | |
| 05/01 (Q) | | JIS X 0213:2004 第1面 ISO/IEC 646 IRV 併用時 | | 942 | |
| 05/01 (Q) | | JIS X 0213:2004 第1面 ISO/IEC 646 IRV 併用時代替名称 | | 942 | |
| 05/01 (Q) | | JIS X 0213:2004 第1面 JIS X 0201 ラテン文字用図形文字集合 併用時 | | 942 | |
| 05/01 (Q) | | JIS X 0213:2004 第1面 JIS X 0201 ラテン文字用図形文字集合 併用時代替名称 | | 942 | |
| | |
平成明朝 JE | | | |
| | |
平成明朝 JF | | | |
| 3/9 | | ARIB STD-B24 JIS互換漢字1面 | | 942 | |
| 3/11 | | ARIB STD-B24 追加文字 | JARIB | 942 | |
| | | eucJP-open CS1 | | 942 | |
58 | 04/01 (A) | | GB 2312-80 | G0 | 942 | |
| | | GB 5007.1-85 | | 942 | |
| | | GB 6345.1-86 | | 942 | |
| | | GB 6345.2-86 | | 942 | |
| | | GB 5199.1-85 | | 942 | |
| | | GB 5199-2001 | | 942 | |
| | | GB 6345-2001 | | 942 | |
| | | GB 5199-2010 | | 942 | |
| | | GB 6345.1-2010 | | 942 | |
| | | GB 8565.2-88 | G8 | 942 | |
| | | GB 8565-89 | 旧 G8 | 942 | |
| | | SJ/T 11239-2001 | | 942 | |
165 | 04/05 (E) | | ISO-IR-165:1992 | | 942 | |
| | | GB 2312 + GB/T 15564-1995 | | 942 | |
| (未定) | | GB 12345-90 | G1 | 942 | |
| | | GB 12345-90 と追加文字 | 旧 G1 | 942 | |
| | | GB 12345 + GB/T 15564-1995 | | 942 | |
| | | GB 5007.2-2001 | | 942 | |
| 3/1 | | KS X 1001-1987 | | 942 | |
149 | 4/3 | | KS X 1001-1987, KS C 5601-1989, KS C 5601-1992 | 旧 K0 | 942 | |
| 4/3 | | KS X 1001:1998 | | 942 | |
| 4/3 | | KS X 1001:2002, KS X 1001:2004 | K0 | 942 | |
159 | 04/04 (D) | | JIS X 0212-1990 | J1 | 942 |
平成明朝 JB |
| | | eucJP-open CS2 | | 942 | |
229 | 05/00 (P) | | JIS X 0213:2000 第2面 | 旧 J4 | 942 |
平成明朝 JD |
| | | JIS X 0212-1990 + JIS X 0213:2000 第2面 | | 942 | |
| 05/00 (P) | | JIS X 0213:2004 第2面 | J4, J14, JA4 | 942 | |
| 3/10 | | ARIB STD-B24 JIS互換漢字2面 | | 942 | |
| 3/15 | | ISO-2022-JP-MS EUDC | | 942 | |
| | | CP932 0xF040 - 0xFCFC | | 942 | |
| | | sjis-docomo 0xF040 - 0xFCFC | | 942 | |
169 | 04/06 (F) | | Blissymbol | | 942 | |
171 | 04/07 (G) | | CNS 11643-1987 第1字面 | | 942 | |
| 04/07 (G) | | CNS 11643-1992 第1字面 | T1 | 942 | |
| | | CNS 11643 第1字面と追加文字 | 旧 T1 | 942 | |
| 3/0 (0) | | CNS 11643 第1字面 | | 942 | |
172 | 04/08 (H) | | CNS 11643-1987 第2字面 | | 942 | |
| 04/08 (H) | | CNS 11643-1992 第2字面 | T2 | 942 | |
| 3/1 (1) | | CNS 11643 第2字面 | | 942 | |
| 3/13 | | CNS 11643 第14字面 (旧) | | 942 | |
| | | CNS 11643 第14字面と追加文字 | 旧 TE | 942 | |
183 | 04/09 (I) | | CNS 11643-1992 第3字面 | | 942 | |
| | | TCA-CNS 11643-1992 3rd plane with some additional characters | T3 | 942 | |
| 3/2 (2) | | CNS 11643 第3字面 | | 942 | |
184 | 04/10 (J) | | CNS 11643-1992 第4字面 | T4 | 942 | |
| 3/3 (3) | | CNS 11643 第4字面 | | 942 | |
185 | 04/11 (K) | | CNS 11643-1992 第5字面 | T5 | 942 | |
| 3/4 (4) | | CNS 11643 第5字面 | | 942 | |
186 | 04/12 (L) | | CNS 11643-1992 第6字面 | T6 | 942 | |
| 3/5 (5) | | CNS 11643 第6字面 | | 942 | |
187 | 04/13 (M) | | CNS 11643-1992 第7字面 | T7 | 942 | |
| 3/6 (6) | | CNS 11643 第7字面 | | 942 | |
| 3/7 (7) | | CNS 11643-1992 第8字面 | | 942 | |
| 3/7 (7) | | CNS 11643-2004 第8字面 | | 942 | |
| 3/8 (8) | | CNS 11643-1992 第9字面 | | 942 | |
| 3/8 (8) | | CNS 11643-2004 第9字面 | | 942 | |
| 3/9 (9) | | CNS 11643-1992 第10字面 | | 942 | |
| 3/9 (9) | | CNS 11643-2004 第10字面 | TA | 942 | |
| 3/10 (:) 〜 3/14 | | CNS 11643-1992 第11字面 〜 第15字面 | | 942 | |
| 3/10 (:) 〜 3/14 | | CNS 11643-2004 第11字面 〜 第15字面 | | 942 | |
| 3/10 (:) 〜 3/14 | | CNS 11643-2007 第11字面 〜 第15字面 | TB 〜 TF | 942 | |
| 3/15 (?) | | CNS 11643-1992 第16字面 | | 942 | |
| 3/15 (?) | | CNS 11643-2004 第16字面 | | 942 | |
| 2/1 3/0 | | CNS 11643 第17字面 | T11 | 942 | |
| 2/1 3/1 | | CNS 11643 第18字面 | | 942 | |
| 2/1 3/2 | | CNS 11643 第19字面 | T13 | 942 | |
| 2/1 3/3 〜 2/5 3/15 | | CNS 11643 第20字面 〜 第80字面 | | 942 | |
| | | EUC-CCCII-FT CS1 | | 942 | |
| | | EUC-CCCII-FT CS3 | | 942 | |
| | | EUC-TW CS2 (CNS 11643 第2字面 〜 第16字面) | | 943 | |
| | | EUC-TW CS2 (CNS 11643 第2字面 〜 第80字面) | | 943 | |
| 3/0 | | Mule Big5-1 | | 942 | Fp |
| 3/1 | | Mule Big5-2 | | 942 | Fp |
202 | 04/14 (N) | | KPS 9577-97 (ISO-IR 202) | KP0 | 942 | |
| | | KPS 9577-2000 | | 942 | |
| | | KPS 9577-2003 | | 942 | |
| | | KPS 9577-2012 | | 942 | |
| (未定) | | GB 7589 | | 942 | |
| | | GB 13131 | G3 | 942 | |
| (未定) | | GB 7590 | | 942 | |
| | | GB 13132 | G5 | 942 | |
| (未定) | | GB 12052 | GK | 942 | |
| (未定) | | GB 13134 | | 942 | |
| | | General Purpose Hanzi List for Modern Chinese Language, and General List of Simplified Hanzi | G7 | 942 | |
| (未定) | | GB/T 16500-1998 | GE | 942 | |
| | | Singapore Characters | GS | 942 | |
| | |
平成明朝 FT | | | |
| | | Unified Japanese IT Vendors Contemporary Ideographs, 1993 | JA | 942 |
平成明朝 IA |
| | |
平成明朝 IB | | | |
| | |
平成明朝 HG | | | |
| 4/5 | | KS X 1002:1991 第1拡張集合 | 旧 K1 | 942 | |
| 4/5 | | KS X 1002:2001 第1拡張集合 | K1 | 942 | |
| 4/6 | | KS X 1002 第2拡張集合 | | 942 | |
| | | PKS C 5700-1 1994 | 旧 K2 | 942 | |
| | | KS X 1027-1:2011 | K2 | 942 | |
| | | PKS C 5700-2 1994 | 旧 K3 | 942 | |
| | | KS X 1027-2:2011 | K3 | 942 | |
| | | TCVN 5773:1993, TCVN 6056:1995 | V0, V1 | 942 | |
| | | VHN 02:1998, V4 | V3, V4 | 942 | |
| | | CCCII | | 943 | |
| 3/1 | | EACC | | 943 | |
| 3/1 | | DEC漢字 1978年版 | | 942 | |
| 3/3 | | DEC漢字 1983年版 | | 942 | |
| 3/10 | | Mule mojikyo-2022-1 | | 943 | Fp |
| 3/2 | | Mule lc-ethio | | 942 | Fp |
| 3/3 | | Mule ethiopic | | 942 | Fp |
| 3/5 | | Mule indian-2-column | | 942 | Fp |
| 3/6 | | Mule indian-1-column | | 942 | Fp |
| 3/7 | | Mule tibetan | | 942 | Fp |
| 3/8 | | Mule tibetan-1-column | | 942 | Fp |
| 3/15 | | Mule thai-xtis | | 942 | Fp |
| | | GB 12050-89 附録A | | 942 | |
| 05/12 〜 05/15 (R〜_) | | (ISO-IR 未登録) | | 942 | |
| 06/00 〜 06/15 (`〜o) | | (ISO-IR 未登録) | | 943 | |
| 07/00 〜 07/13 (p〜}) | | (ISO-IR 未登録) | | 94n (n ≧ 4) | |
|
2/1 (!) 4/0 (@) 〜
2/3 (#) 5/15 (O) | | (ISO-IR 未登録 2周目 〜 4周目) | | 942 | |
|
2/1 (!) 6/0 (`) 〜
2/3 (#) 6/15 (o) | | (ISO-IR 未登録 2周目 〜 4周目) | | 943 | |
|
2/1 (!) 7/0 (p) 〜
2/3 (#) 7/14 (~) | | (ISO-IR 未登録 2周目 〜 4周目) | | 94n (n ≧ 4) | |
|
2/0 (SP ) 4/0 (@) 〜
2/0 (SP ) 5/15 (O) | | ISO/IEC 2022 DRCS | | 942 | |
|
2/0 (SP ) 6/0 (`) 〜
2/0 (SP ) 6/15 (o) | | ISO/IEC 2022 DRCS | | 943 | |
|
2/0 (SP ) 7/0 (p) 〜
2/0 (SP ) 7/14 (~) | | ISO/IEC 2022 DRCS | | 94n (n ≧ 4) | |
| 2/0 4/0 | | ARIB STD-B24 DRCS | | 942 | |
| 2/0 4/0 | | Videotex DRCS II set | | 942 | |
| 07/14 (~) | | 空集合 | | 94n (n ≧ 4?) | |
| 03/00 〜 03/15 (0〜?) | | 私用図形文字集合 | | 94n (n ≧ 2) | |
|
2/1 (!) 3/0 (0) 〜
2/3 (#) 3/15 (?) | | 私用図形文字集合 | | 94n (n ≧ 2) | |
|
2/0 (SP ) 3/0 (0) 〜
2/0 (SP ) 3/15 (?) | | ISO/IEC 2022 DRCS 私用終端バイト | | 94n (n ≧ 2) | |
| 3/0 | | DEC漢字 UDC | | 942 | |
| 00/00 〜 02/15 (NUL〜/) | | (使用しない) | | | |
| 07/15 〜 15/15 (DEL〜y") | | (使用しない) | | | |
| | | KanjiBase &CX | | 942 | |
| | | KanjiBase &CY | | 942 | |
指示シーケンス, 私用終端バイト, IRR
[12] 4バイト以上の符号化文字集合は知られていません。
[6] 2002-09-30 (Mon) 16:41:21 名無しさん : JISX0208:1997 の解説図3には、古い JISX0202 の解説図が引用されている。
- 2002-09-30 (Mon) 16:42:59 名無しさん : その図は94^n図形文字集合の説明で、現在の言葉で言うと1区にラテン文字, 2区に片仮名, 3区に平仮名, 4区以降に漢字という(架空の)文字集合が図示してある。
- 2002-09-30 (Mon) 16:43:45 名無しさん : いまそれをみて、いろんなことを思う人がいよう。
- 2002-09-30 (Mon) 16:44:45 名無しさん : まずなんといっても、片仮名の代わりに(当時はなかった) ISO/IEC8859-1 右半面を持ってこれば、それこそ ISO/IEC10646 である。
- 2002-09-30 (Mon) 16:45:32 名無しさん : ああ、やっぱり Unicode の起源は日本にあったのか、と思わずにはいられない。
- 2002-09-30 (Mon) 16:46:57 名無しさん : JIS X 0208:1997 の解説は、 JIS C 6226-1978 の配列は間違いだった、 ISO/IEC646 が1区にそのままこないといけなかった、と批判する。
- 2002-09-30 (Mon) 16:47:32 名無しさん : ほんとのところは当時の資料を漁るなり、当事者(故人を含む。)に聞いてみないとわからない。けど、
- 2002-09-30 (Mon) 16:49:41 名無しさん : 「ISO/IEC 646 の版」を8ビットに拡大した ISO/IEC 8859 と同様に、 ISO/IEC 646 の版を7/8ビット2バイトに拡大したものを計画していたのではと思う。
- 2002-09-30 (Mon) 16:51:25 名無しさん : それに対して、 ISO/IEC 646 や JISX0201 の拡張ではなく、これを機に整理した符号化文字集合を作ろうという意見があったんじゃないか。
- 2002-09-30 (Mon) 16:52:36 名無しさん : 結局その意見が勝った。この仮説が正しいとすると、まさに15年後の前哨戦じゃないか。
[7] 942文字集合は当然94集合よりずっと多くの文字が入る。
だから、 ISO/IEC646 で unify されてた文字, 例えば
02/02 (") = 左二重引用符 / 右二重引用符 / ウムラウトとか、
(-) = ハイフン / 負符号とかが
JISX0208 とかでは分離された。
これは正しい判断だった。当時としては。だけど、今は違う。
内部符号としての Unicode が生まれて、それと同時に名前による同定という規則が
ISO/IEC で確立されてから、そういう一対多対応あるいは多対多対応は受け入れられなくなってしまった。
(もっとも実際それ以前でも、変換の時は一般には機械で自動的に意味で分離するのは無理だから、どれか選んで (あるいは選ばないで)
一対一対応に無理矢理してたんだけど。)
だからもはや <"> は「“」とも「”」とも「¨」とも違う文字だ。
このちょっとおかしな事態は、たとえば JISX0213
の登場で誰の目にも明らかになった。 (ぼろ雑巾とまで言われた
UCS は、まあ気にしないでおこう。) JIS X 0213
には ISO/IEC 646 との互換のために、 <"> (QUOTATION MARK)
が追加された。もう既に「“」も「”」もあるのにだよ!
[8] ここに来てまた、あの一言が頭をよぎる。 JIS X 0208-1978
は、 ISO/IEC 646 の符号位置を変えてはいけなかった!
[9] 78JIS が間違っていたのか、それとも JIS X 0213:2000
が間違っていたのか。たぶん、どちらも間違ってはいなかった。
けれども間違った結果になってしまった。
時代の先を見通すことは難しい。
[10] >>9 では JIS X 0208-1978 が仮に <"> を収録していて、
「“」や「”」がなかったら、どうなっていただろう。
Microsoft は WindowsCodePage 125x
でこれらを追加しているから、きっと同じ様に JIS
外字として 932 に入っていただろう。
JIS X 0213:2000 に <"> が入ってなかったら・・・
別になにも変わらなかったかもしれんがね。
(その辺は歴史の深さの違いだ。)