DIS10646

DIS 10646

[2] DIS 10646 は、 ISO/IEC 10646JTC1 で投票される段階にある原案 (DIS) を指す用語です。

[1] 有名な割に具体的な情報はほとんどない。矛盾した情報もある。 正式な規格になる以前の段階だから、委員会関係者しか詳しい資料を持っていないのか?

呼称

[8] ISO/IEC 10646DIS はすべて DIS 10646 と呼ばれますが、 ISO/IEC の委員会以外で敢えて「DIS 10646」と呼ぶ時は、 Unicode 化される前の、否決された当初の DIS 10646 を指すことが多いようです。

[9] RFC 1345ISO-10646-1DIS とも書いています。 (がそれ以外では使われていない呼び名です。)


[10] なお、 DIS 10646 否決後の Unicode 化された DISDIS 10646-1.2:1992 と呼ばれます。

符号構造

[3] ISO/IEC 2022CLCR を避けて、 4つの四分区 (クォードラント) (quadrant) に分けられる。 四分区はそれぞれ96×96。

	0x20 0x7E 0xA0 0xFF
	+-------------+
	| +----+ +----+
	| |A-00| |A-01|
	| +----+ +----+
	| |I-00| |I-01|
	| +----+ +----+
	| +----+ +----+
	| |A-10| |A-11|
	| +----+ +----+
	| |I-10| |I-11|
	+-+----+-+----+

[7] 面が191個で群、 UCS 全体で群が191個。

符号化表現

[4] 4オクテット固定長の正規形と、各種の符号短縮法がある。

[5] 符号短縮法を使っていても SGCI によって短縮されていない符号化文字を利用可能。

文字集合

四分区ごとの割当。重複等は、版の違いによるのか、 情報源のどれかが間違っているのか・・・ 情報源の情報源である版がどれか分かっていれば添えておいた。

BMP の I 領域は各国の面から符号短縮形で呼び出したものだとか。

関連

ISO/IEC 646, ISO/IEC 2022, DECの文字コード, TRONコード

[11] DIS 10646-1.2 は仕切り直した新規格 (今の Unicode) です。

メモ

[6] http://www.y12.doe.gov/sgml/wg8/document/91kyoto/n1298.asc によれば、 DIS 10646 はほとんどの文字が手書き字形。

X の wchar は一時 DIS 10646 の subset だったとか。

http://archive.adaic.com/pol-hist/history/9x-history/reports/charset-Oct89.txt

proposed rfc on SMTP and 10646 http://www.imc.org/ietf-smtp/old-archive/msg00210.html

[12] 日本語情報処理のためのプログラミング環境の開発, 並木美太郎, , , https://dl.ndl.go.jp/pid/3063055/1/70 (要登録)

[13] >>12 「ISO 10646 フル4バイトコード系」で 「ISO 10646 基本多言語面の基本日本語面(群32, 面64)」 を使った実装事例

[14] >>13 ASCII もこれに写像したとのことで、 JIS X 0208 相当部分に変換したということかと。 それも含めた変換プログラムがC言語で50行とのこと。

[15] 標準化ジャーナル 22(10)(344), 日本規格協会, , , https://dl.ndl.go.jp/pid/2797134/1/15 (要登録)

[16] null, , https://www.unicode.org/L2/Historical/Unicode-Pre1.0-Draft-Sept27-1990.txt

[17] >>16Unicode の初期案であるが、ここで 2nd DP ISO 10646 として引かれているのがその当時の ISO 10646 仕様案。