[14] 94n文字集合と 96n文字集合
(n > 1
) を合わせて複数バイト集合と呼びます
JIS X 0202:1998 4.3.1。
[15] 複数バイト集合は 02/00
〜07/15
または 10/00
〜15/15
の位置にある7ビットまたは
8ビットのビット組合せの列で図形文字を表現します。
(ただし 94n文字集合ではビット組合せ
02/00
と 07/15
は使いません。)
8ビットの複数バイト表現では最上位ビットの値は
0
または 1
のいずれかです。
JIS X 0202:1998 4.3.1
[2] ISO/IEC 2022 でもっともよく使われる複数バイト符号化図形文字集合の大きさが、
942 です。 (というか公式に ISO-IR に登録されている複数バイト符号は全て
942 集合です。) それを含めて、94符合位置×n バイトで1文字を表現する
(ISO/IEC 2022 の) 図形文字集合のことを、 94n 集合などと呼びます。
[3] なぜ 94 符号位置なのかというと、 ASCII の図形文字が (SP
を除くと) 94文字だからです。制御文字の領域を避けた結果 94n
という大きさになりました。
[5] ISO/IEC 2022 の環境で使える94n文字集合は、
ISO-IR に登録されているもの、いないもの、バリエーション含めかなりたくさんあります。
指示シーケンス, 私用終端バイト, IRR
[12] 4バイト以上の符号化文字集合は知られていません。
[6] 2002-09-30 (Mon) 16:41:21 名無しさん : JISX0208:1997 の解説図3には、古い JISX0202 の解説図が引用されている。
- 2002-09-30 (Mon) 16:42:59 名無しさん : その図は94^n図形文字集合の説明で、現在の言葉で言うと1区にラテン文字, 2区に片仮名, 3区に平仮名, 4区以降に漢字という(架空の)文字集合が図示してある。
- 2002-09-30 (Mon) 16:43:45 名無しさん : いまそれをみて、いろんなことを思う人がいよう。
- 2002-09-30 (Mon) 16:44:45 名無しさん : まずなんといっても、片仮名の代わりに(当時はなかった) ISO/IEC8859-1 右半面を持ってこれば、それこそ ISO/IEC10646 である。
- 2002-09-30 (Mon) 16:45:32 名無しさん : ああ、やっぱり Unicode の起源は日本にあったのか、と思わずにはいられない。
- 2002-09-30 (Mon) 16:46:57 名無しさん : JIS X 0208:1997 の解説は、 JIS C 6226-1978 の配列は間違いだった、 ISO/IEC646 が1区にそのままこないといけなかった、と批判する。
- 2002-09-30 (Mon) 16:47:32 名無しさん : ほんとのところは当時の資料を漁るなり、当事者(故人を含む。)に聞いてみないとわからない。けど、
- 2002-09-30 (Mon) 16:49:41 名無しさん : 「ISO/IEC 646 の版」を8ビットに拡大した ISO/IEC 8859 と同様に、 ISO/IEC 646 の版を7/8ビット2バイトに拡大したものを計画していたのではと思う。
- 2002-09-30 (Mon) 16:51:25 名無しさん : それに対して、 ISO/IEC 646 や JISX0201 の拡張ではなく、これを機に整理した符号化文字集合を作ろうという意見があったんじゃないか。
- 2002-09-30 (Mon) 16:52:36 名無しさん : 結局その意見が勝った。この仮説が正しいとすると、まさに15年後の前哨戦じゃないか。
[7] 942文字集合は当然94集合よりずっと多くの文字が入る。
だから、 ISO/IEC646 で unify されてた文字, 例えば
02/02 (") = 左二重引用符 / 右二重引用符 / ウムラウトとか、
(-) = ハイフン / 負符号とかが
JISX0208 とかでは分離された。
これは正しい判断だった。当時としては。だけど、今は違う。
内部符号としての Unicode が生まれて、それと同時に名前による同定という規則が
ISO/IEC で確立されてから、そういう一対多対応あるいは多対多対応は受け入れられなくなってしまった。
(もっとも実際それ以前でも、変換の時は一般には機械で自動的に意味で分離するのは無理だから、どれか選んで (あるいは選ばないで)
一対一対応に無理矢理してたんだけど。)
だからもはや <"> は「“」とも「”」とも「¨」とも違う文字だ。
このちょっとおかしな事態は、たとえば JISX0213
の登場で誰の目にも明らかになった。 (ぼろ雑巾とまで言われた
UCS は、まあ気にしないでおこう。) JIS X 0213
には ISO/IEC 646 との互換のために、 <"> (QUOTATION MARK)
が追加された。もう既に「“」も「”」もあるのにだよ!
[8] ここに来てまた、あの一言が頭をよぎる。 JIS X 0208-1978
は、 ISO/IEC 646 の符号位置を変えてはいけなかった!
[9] 78JIS が間違っていたのか、それとも JIS X 0213:2000
が間違っていたのか。たぶん、どちらも間違ってはいなかった。
けれども間違った結果になってしまった。
時代の先を見通すことは難しい。
[10] >>9 では JIS X 0208-1978 が仮に <"> を収録していて、
「“」や「”」がなかったら、どうなっていただろう。
Microsoft は WindowsCodePage 125x
でこれらを追加しているから、きっと同じ様に JIS
外字として 932 に入っていただろう。
JIS X 0213:2000 に <"> が入ってなかったら・・・
別になにも変わらなかったかもしれんがね。
(その辺は歴史の深さの違いだ。)