GB 12054

ISO-IR

[647] INTERNATIONAL REGISTER OF CODED CHARACTER SETS TO BE USED WITH ESCAPE SEQUENCES (ISO-IRエスケープ・シーケンスと共に用いられる符号化文字集合の国際登録簿) は、 ISO/IEC 2022 によって規定されるエスケープ・シーケンスによって利用できる符号化文字集合符号化制御機能の国際登録簿です。

[650] ISO/IEC 2375 で規定される登録手続きに基づき IPSJ/ITSCJ によって管理されていますが、 2004年以後登録がなく、実質的に凍結されている状態です。

[651] 登録業務についての文書 (>>649) は2007年に更新されています。

仕様書

[18] ITSCJURL 変えすぎだろ・・・まじめにやれ >>30

呼称

[1] ECMA が管理してきたので ECMA Registry とも呼ばれていたが、 現在は IPSJ/ITSCJ が管理している。

[2] IANAREG などに対して ISOREG とも呼ばれる。

登録番号

[23] ISO-IR に登録されている符号化文字集合等にはそれぞれ登録番号として固有の非負整数が割り当てられています。

[53] ISO-IR 登録簿では最短表記の他に、0埋めの3桁表記も使われています。 現時点で4桁の登録番号はありません。

[54] 例外的に8番、9番は 8-1, 8-2, 9-1, 9-2 の枝番が使われています。 主集合と補助集合の組合せに使われています。 それ以後は対になる集合でも単独の番号が割り振られるように変化したようです。

[55] 枝番は登録簿だけのもので、用法に制限はありません。

[24] ISO/IEC 2022文字列には登録番号は使われません.

[25] ISO/IEC 2022 abstract character syntaxISO/IEC 2022 character transfer syntaxオブジェクト識別子には登録番号が使われます。 (「なし」を表すために 0 が使えます。)

[29] ただしなぜか IRR のかわりには改訂番号が使われます。

[16] DICOMISO-IR の登録番号を識別に使っている. >>15, >>103

[26] 公開文種別 CHARSET公式公開識別子には登録番号が使われることがあります。 (そうでない場合もあります。)

[27] MIME charset 名には ISO-IR 登録番号が使われることがあります。 (命名に使われることがあるというだけで、必ずではありません。)

[28] ISO-IR 165 など登録番号が符号化文字集合の通称と化したものもあります。

登録されているのは何か

[19] ISO-IR が登録したものは何か、について、

... の少なくても3つの解釈があり得ます。 3つのうち符号化文字集合については、 その同定について異なる解釈をし得ます。 ISO/IEC 2022, ISO/IEC 2375, ISO-IR, その他関連仕様の文言の解釈次第でどうとでも取りようがあります。 どれが本来の正しい解釈なのかはよくわかりません。 (spec lawyer 以外には興味ないのかもしれませんが。)

指示シーケンス, 公開テキスト指示シーケンス, IRR

予約終端バイト

指示シーケンス

登録手続き

[33] 各国代表機関等から申請があると、 SC2 の審議があり、 通過すれば RA が登録簿に追加します。

[34] 詳しくは ISO/IEC 2375 が定めています。 事務手続きは RA が定めています >>10


[652] ISO/IEC国家間の標準化団体であり、ISO-IR への登録も政治的な利害の影響下にあります。

[35] ISO/IEC 2022 の元で利用可能な符号化文字集合が規定されたとしても当該国の代表部が ISO-IR への登録手続きを行うとは限りませんし、参加資格がなく手続きを行えないかもしれません。

[653] 実際、中華人民共和国GB 2312ISO-IR-165 以外にも多数の942符号化文字集合を定義する国家規格を有しているにも関わらず、 ISO-IR に登録していません。

[654] 台湾CNS 11643第1字面から第7字面までが登録されていますが、 政治的な問題から容易ではありませんでした。 後に追加された第8字面から第80字面は登録されていません。 CCCII も登録されていません。

[655] 大韓民国は1992年以後数度にわたって KS X 1001文字を追加していますが、 ISO-IR に改訂版を登録していません。

[11] 国内でどれだけ用いられていても、それが国家規格化されるなどして当該国が登録申請しない限り、 ISO-IR に登録されることはありません。逆に全く使われていないとしても、 当該国が正当な手続きを踏めば登録されています。

[36] ただし JTC1/SC2 は既に ISO/IEC 2022 への関心を失っているため、 この先たとえ国内規格で ISO/IEC 2022 の元で利用可能な符号化文字集合を策定しても、 ISO-IR に登録するのは困難そうです。

登録内容の変更

[57] 既存の登録はそのままに改訂版を追加登録し、 追加のエスケープシーケンスを使う IRR があります。 IRR

登録簿の書き換え

[58] 00000001.PDF - 054.pdf, , https://itscj.ipsj.or.jp/ir/054.pdf

[59] >>58 登録1年後に書き換えたと注記があります。 書き換えた前の記述の一部がうっすら見えています。 4/155/15 の入れ替えがあったようです。 (誤記の訂正? だとしても非互換変更ですが。。。)

[60] 00000001.PDF - 070.pdf, , https://itscj.ipsj.or.jp/ir/070.pdf

[61] >>60 原規格の改訂により1文字追加され、登録番号と終端バイトは変更せずに登録簿も変更されたと書かれています。 一応番号欄に「70 Rev.」と書かれてはいますが。

[68] 00000001.PDF - 085.pdf, , https://itscj.ipsj.or.jp/ir/085.pdf

[69] 修正痕があります。何も書かれていないので事情は不明。

[74] 00000001.PDF - 126.pdf, , https://itscj.ipsj.or.jp/ir/126.pdf

[75] >>74 新しい文字集合の登録へのリンクが追加されています。

[76] 00000001.PDF - 165.pdf, , https://itscj.ipsj.or.jp/ir/165.pdf

[77] 訂正されたと書かれています。

[79] 訂正されたと書かれています。

登録の取り下げ

[50] withdraw された登録が数個あります。 withdrawn の登録はその旨が記載されるだけで、削除や終端バイトの再利用はされません。

[67] 取り下げを示すページが追加されているもの:

[63] >>62 一覧表では取り下げと記載されリンクもされていないのですが、 登録自体はあって取り下げの旨は書かれていません。

[72] >>71 がそれを置き換えた新しい方。終端バイトはそのままで文字集合が変更されています。

[64] 00000001.PDF - 088.pdf, , https://itscj.ipsj.or.jp/ir/088.pdf

[65] >>64 訂正されたとあります (変更点不明)。その後?取り下げを示すページが追加されています。

ISO/IEC 2375

[37] ISO/IEC 2375:2003 (制定)

[38] KS X 1023:2003 : MOD ISO/IEC 2375:2003

[41] なぜ MODIDT でないのか書いてないし読んでもわからない。

[39] KS は何を思って登録手続きを国内規格化してるのかわからない。 登録機関に関係していないし、積極的に登録してもいないし。

[40] 逆に ITSCJRA を受託してるくせに JISCJIS 版を制定していない。

GB/T 12054-1989

[43] GB 12054-89 数据处理 转义序列的登记规程 は、 GB 2311 (ISO 2022) 用エスケープシーケンスの登録に関する中華人民共和国GB です。

[44] NEQ ISO 2375 という扱いになってますが、 エスケープシーケンスの登録という点以外まったく内容が違ってます。 NEQ ってこういうときに使うのですね。

[45] ISO 2375 が国際登録簿 ISO-IR を定めるのに対し、 GB 12054中華人民共和国の国家登记表 C-R を定めています。

[46] すなわち、 中華人民共和国の国内から申請があった時、 標準的なものは ISO-IR へも登録、 特定応用向けのものは国内登記表のみに登録と振り分ける手続きになっています。

[47] 国内のみのものには私用終端バイトを割り当てることになっています。 私用終端バイト

[48] 国家登记表の内容は不明です。 登記所は中国电子技术标准化研究所と書かれていて、 現在中国电子技术标准化研究院と呼ばれている組織と思われますが、 登記についての情報は見つけられません。

[49] GB 12345 など ISO-IR に登録されていない符号化文字集合はここに登録する構想だったのでしょうか? あるいは既に登録されているのでしょうか?

Unicode との関係

[73] 末期に登録された文字集合には ISO/IEC 10646 との対応関係が明示されているものもあります。

[82] >>5 テキストファイルの変換表が提供されている例、このような事例はこれ1つだけ

[83] 末期に登録された文字集合には ISO/IEC 10646 式の文字の名前が与えられているものもあります。

[84] しかしそうしたものは例外的で、ほとんどは Unicode との関係が ISO-IR だけ見てもわからないものです。 Unicode にない文字も多いです。 (制御文字Unicode が意図的に不採用にしたらしく、基本的にないです。)

[85] ISO-IR になくても原規格または原規格の最新版を見れば ISO/IEC 10646 との関係または ISO/IEC 10646 式の文字の名前が得られる物もいくつかはあります。

[86] ISO/IEC 646の版など、源規格の定義から他の規格の文字との同定が可能で、 間接的に Unicode との関係を確定できるものもままあります。

[87] なお、対応関係が決められるとしても、 Unicode と文字の意味 (semantics) が等しいことは意味しません。 例えば ISO/IEC 646 の「"」は「¨」を兼ねていますし、 「`」は「‘」を兼ねています。

[81] RFC 1345

[88] ecma35lib

メモ

[56] 初期はタイプライターぽい文字のようですが、ところどころ手書きっぽい。

[3] 新しく

227Right-hand part of Latin/Greek alphabet6/92003-07

が追加されてました。 JTC1/SC2ELOT がスポンサーだそうです。

[4] 10日付けで 232 Turkmen character set for 8-bit codes が登録されました。トルクメニスタンGR 用の 94 文字集合です。旧ソ連 (露西亜を除く。) からの登録は初めてじゃないですか?

[5] 登録簿 http://www.itscj.ipsj.or.jp/ISO-IR/232.pdf, UCS 変換表 http://www.itscj.ipsj.or.jp/ISO-IR/232mapping.txt

[12] >>5 移転 https://www.itscj.ipsj.or.jp/iso-ir/232mapping.txt

[30] >>5 >>12 また鯖移転、 PDF 内にリンクがあるのに古い URL のままでリンク切れしていて写像表を開けなくなってる。仕事雑すぎだろ。 もう誰も使ってない見てないからいいのかもしれんけど、 仕事請けてるのだから真面目にやれよ。

[6] TDS 616‐2003 という8ビット符号の規格で定義されているそうです。11列〜14列に、ラテン文字 (発音区別符つきを含む。) と NUMERO SIGN が並んでます。 646 との互換性はありません。左側には IRV を使うことを想定しているんですかね? そうだとすると左は英語、右はトルクメニスタン語?の表記専用で別の文字として使うとか? だったら怖いなあ。。。

[7] >>4 実は同じトルクメニスタンの TDS 565 が #230 で先に登録されているのね。で、こっちは ISO/IEC 646の版。これを左、 #232 を右に使うんだろうか?

[8] いまさらながら

233Japanese Graphic Character Set for Information Interchange, Plane 1 (Update of ISO-IR 228)MJISC2004-04-13

キター。

[13] Update と言ってるけど更新番号ではなく新しい終端バイト

[14] CNS 11643 第8字面〜第15字面もそのうち登録されるでしょうか?

[32] 234番が最後か。

[51] 単体PDFのURLが死んでるんだが。。。 URL 変えすぎて管理できなくなってるだろ?

[52] これが日本を代表する情報処理学会の仕事なんだぞ、しびれるよな

[89] SC 2 専門委員会 (符号化文字集合) | IPSJ/ITSCJ 情報処理学会 情報規格調査会, https://itscj.ipsj.or.jp/committee-activities/report/SC2-2021.html

その後,本委員会において検討を行った結果,既存のISO/IEC 2375規格の記述の中で,既に登録・実装されている符号化文字集合を参照する場合のため登録情報などについての記述部分を中心とした技術報告書の開発を提案することとなった.

[90] n403.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n403.pdf

[91] n417.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n417.pdf

[92] n484.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n484.pdf

[93] http://www.indigo.ie/egt/standa - n479.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n479.pdf

[94] n493.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n493.pdf

[95] n490.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n490.pdf

[96] n489.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n489.pdf

[97] n488.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n488.pdf

[98] n496.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n496.pdf

[99] n497.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n497.pdf

[100] n498.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n498.pdf

[101] n499.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n499.pdf

[102] n511.pdf, , http://std.dkuug.dk/jtc1/sc2/wg3/docs/n511.pdf

[104] Character Set Registrations, https://www.unicode.org/L2/reg-hist.html

[106] SC 2 専門委員会 (符号化文字集合) | 情報規格調査会, https://itscj.ipsj.or.jp/committee-activities/report/SC2-2022.html

[105] SC 2 専門委員会 (符号化文字集合) | 情報規格調査会, https://itscj.ipsj.or.jp/committee-activities/report/SC2-2023.html

エディタ引き受け状況:鈴木俊哉(広島大学),TR2375 (*1)のコエディタ

(*1)TR2375(Information technology - Registered escape sequences and coded character).過去に登録されたエスケープシーケンスの記録を残すための文書.