hducs2cid.txt

汎用電子情報交換環境整備プログラム

内容

[8] >>2

そこで,国立国語研究所は,情報処理学会と日本規格協会と3機関で連合体を組み,経済産業省の委託研究として,「電子政府」で必要とされる漢字の調査研究を進めてきました。平成14年度から17年度までの4年間で,法務省の「戸籍統一文字」約55,000字と総務省の「住民基本台帳ネットワーク統一文字」約20,000字を検討し,漢字情報データベースとして蓄積しました。平成18年度から20年度には,登記事務に用いる「登記統一文字」を検討しました。

[10] 文字とその典拠の一覧は >>2 のリンク先から PDF で閲覧できます。

[11] しかし機械可読ファイルやフォントは提供されていない。。。

[16] 平成明朝が使われています。

[12] >>2 には「漢字情報データベースの検索結果」という挿絵 (スクショ) が載っていますけど、 その肝心のWebサイトは公開されていないようで。

[33] 文字一覧は平成明朝体と、出典となる各外字集合の字形が並び、 読みや辞書等の情報と共に示されています。

[34] 文字一覧の先頭から終盤までは平成明朝の字形が作られていますが、 最後の方の登記統一文字のみを出典とするものは、 平成明朝がなく登記統一文字だけが示されています。 変体仮名草書体と思われる字形が並んでいます。

[35] 平成明朝の字形は独特の識別子で区別されます。 >>13 にその説明があります。

[53] >>13 にいくつか字形の不具合の情報があります。

[71] 文字関係
key
cjkvi:hd2ucs
desc
hd2ucs.txtUCS 符号位置 (無印)。
[72] 文字関係
key
cjkvi:hd2ucs:U
desc
hd2ucs.txtUCS 符号位置 ([U] 印)。
[75] 文字関係
key
cjkvi:hd2ucs:ivs
desc
hd2ucs.txtUCS 符号位置 (異体字選択子付き)。
[70] 文字関係
key
cjkvi:hd2ucs:=
desc
hd2ucs.txt の別グリフの参照 (= 印)。
[78] 文字関係
key
cjkvi:hd2ucs:~
desc
hd2ucs.txt の別グリフの参照 (~ 印)。
[74] 文字関係
key
cjkvi:hducs2juki
desc
hducs2juki.txt住基ネット統一文字
[79] 文字関係
key
cjkvi:hducs2juki:*
desc
hducs2juki.txt住基ネット統一文字 (* 印)。
[79] 文字関係
key
cjkvi:hducs2juki:#
desc
hducs2juki.txt住基ネット統一文字 (# 印)。
[73] 文字関係
key
cjkvi:hducs2koseki
desc
hducs2koseki.txt戸籍統一文字
[80] 文字関係
key
cjkvi:hducs2koseki:*
desc
hducs2koseki.txt戸籍統一文字 (* 印)。
[81] 文字関係
key
cjkvi:hducs2koseki:#
desc
hducs2koseki.txt戸籍統一文字 (# 印)。
[82] 文字関係
key
cjkvi:hducs2koseki:()
desc
hducs2koseki.txt戸籍統一文字 (括弧付き)。
[76] 文字関係
key
cjkvi:hd2cid
desc
hducs2cid.txtAdobe-Japan1 CID
[77] 文字関係
key
cjkvi:hd2cid:subtle
desc
hducs2cid.txtAdobe-Japan1 CID (注釈「subtle」)。
[77] 文字関係
key
cjkvi:hd2cid:related
desc
hducs2cid.txt注釈Adobe-Japan1 CID
[83] 文字関係
key
cjkvi:hducs2ivs
desc
hanyo-ids.txtIDS

[85] S がつくものは元の字形と少し違いがあるものですが、 いつどのような理由で作られたのか (対応する規格との関係はどうなっているのか) 謎です。

[86] 例えば JIS X 0212 31区84点に相当する

というグリフだと、 JB3184 が JIS X 0212 に対応するようです。 文字情報基盤では MJ012408 にだけ「X0201」値があります。 そして今も昔 (JIS X 0213:2004 反映前) も CJK統合漢字の U+6353 のJ欄 J1-3F74 は JB3184 です。

[87] JIS X 0208 80区83点に相当する

というグリフだと、 文字情報基盤ではどちらも「X0213」値があります。 今も昔も CJK統合漢字の U+980C のJ欄 J0-7073 は JA8083 です。

[88] しかしこれらのように S つきと S なしの両方が Hanyo-Denshi IVC に含まれるものばかりかというと、そうでないものの方が多いようです。

[89] Hanyo-Denshi IVC には S なしのものが登録されていて、 文字情報基盤が対応することになっているのは S 付きのもの、 というパターンもいくつかあります。

[90] 漢字データベースプロジェクトのデータファイルでは S つきと S なしが = で結ばれているものもいくつかあります。

[95] hd2ucs.txt には当時の CJK統合漢字J欄字形として使われたグリフが書かれています。 それに従うと JA, JB, JC, JD はすべて S がつかないものが J欄に使われています。 つまり JIS X 0208-1990, JIS X 0212-1990, JIS X 0213:2000 当時のグリフはすべて S がつかないものなのでしょう。

[96] hd2ucs.txt で S または SS がつくグリフが J欄字形になっているものは、 56字あります。

[120] DAM2:2023 では出典 JK のうち文字情報基盤にあるものがIPAmj明朝に差し替えられているように見えます。 >>109 の変更が元の字形に近いものに戻されたものもあります。

[116] N1617 には U+2B724 の差替もあります。見た目では違いがわかりません。 KS548420 に対応することになっていて、 S が付いていません。
[101] N1617 には U+20B9F のJ字形も変更予定とありますが、こちらは S と対応せず不明です。 U+20B9F の J字形は IRGN1748 () から現在まで J3A-4F54 で、字形も同じに見えます。
[102] IRGN1712 (西暦2010年) では拡張Aの新符号表案の U+4148 A-2540 と U+4165 A-2546 を修正しています。これも S とは対応せず。 U+4148 は修正により UCS2003 J字形に近いものに戻されていますが (Unicode 5.2 が旧字形)、 U+4165 は修正で第3の字形に変更されています。比較表の形で示されているので、 意図的な変更であることがわかります。
[117] ISO/IEC 10646-1:2000, ISO/IEC 10646:2003Unicode 5.2 の間で U+342E JA-2129 が変更されています。 JIS X 0213:2000 と微妙に違っていたのが JIS X 0213:2000 と同字形になっています。 平成明朝には IA0109 と JD0119S があって、 hd2ucs.txt 当時の字形は IA0109 だとされています。 どういうことなのでしょう?
[118] >>117 のタイミングで U+3815 JA-2251, U+4264 JA-255A も変更されています。
[119] >>117 のタイミングで U+4AB5 JA-276D も変更されています。 変更後は IA0777 で、他に IVS に IA0777S もありますが、 変更前はそのどちらとも違います。

[93] グループ:ziyang_sandbox - GlyphWiki, https://glyphwiki.org/wiki/Group:ziyang_sandbox@20

汎用電子情報交換環境整備プログラムでグリフ統合された(違う汎用電子整理番号に同じ平明明朝体グリフが割り当てられた)文字を,文字情報基盤のIVSの実装を加えて整理したものです。平成明朝でデザイン統一されたものをIPAmj明朝がどう作り分けているのかを見ることができます。

[94] グループ:ziyang_sandbox - GlyphWiki, https://glyphwiki.org/wiki/Group:ziyang_sandbox@21

[125] >>124 JC8437FT2836 が報告書の一覧と CSV で逆になっています。

[126] >>125 戸籍統一文字 115690 と登記統一文字 00115690 で字形が微妙に違う (JC8437 に近い 115690 と FT2836 に近い 00115690) ような。そして報告書掲載 115690 と現在ウェブサイトにある https://houmukyoku.moj.go.jp/KOSEKIMOJIDB/kanji-big/115690.png?ver=20230817 (00115690 に近い) とも微妙に違うような。


[121] 同定基準【原案】, 2004.10.21

IVC

[3] Hanyo-Denshi

[9] 版で新規追加、 版で追加。

[17] 平成明朝が使われています。

[18] >>13

汎用電子コレクションは、UCS規格書との整合性を高めるために、JA, JB, IA の規格書記載グリフなどを優先的に利用しているため、グリフ名やグリフ形状が、実際の汎用電子とは異なるものがあります。

[19] >>18 ちょっと何言ってるかわかんない()

[68] 汎用電子が設定した字形の基準に既存の平成明朝グリフが合わないので汎用電子で新規に作った (または代表として選出した) 新しい方の平成明朝グリフが汎用電子としての字形に選ばれているところで、 UCS 側の出典J字形が古い方の平成明朝グリフになっているときに、 新しい汎用電子平成明朝グリフを使わずに古い (汎用電子として選ばなかったはずの) 平成明朝グリフが使われることがあって、 にも関わらずそれも含めて Hanyo-Denshi と呼ばれている、 ということだと理解した。難しい。

[4] IVD 登録については IVC 参照。

[5] Moji_Joho が実質的な後継になっています。 関係は Moji_Joho 参照。

[6] 花園明朝が実装しています。

[1] Ideographic Variation Database - PRI 167 ( 版) http://www.unicode.org/ivd/pri/pri167/

[31] Hanyo-Denshi Collection and Its Variation Sequences, , https://web.archive.org/web/20131017230015/http://www.itscj.ipsj.or.jp/domestic/sc02/hanyo-denshi/20100331/

[32] >>31 リンク先現存しないファイルが多い...

[7] Wayback Machine, https://web.archive.org/web/20120306104455/http://www.itscj.ipsj.or.jp/domestic/sc02/hanyo-denshi/20100331/IVS-0322.pdf

[29] Wayback Machine, https://web.archive.org/web/20131018001225/http://www.itscj.ipsj.or.jp/domestic/sc02/hanyo-denshi/20100331/IVS-110705.pdf

[21] 汎用電子グリフすべてが登録されているわけでもないらしい?

[69] >>56平成明朝グリフ識別子IVS の対応表。 Unicode 側で登録されて公表されているものと、対応表としては同等? 要検証

[30] Wayback Machine, https://web.archive.org/web/20150104014541/http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg37/IRGN1813_Attachment.pdf

[23] Proposal to add 36 ideographs for Japanese place names to UAX #45 (Tsukada Masaki) - 23130-uax45-japan-place-names.pdf, , https://www.unicode.org/L2/L2023/23130-uax45-japan-place-names.pdf#page=4

However, many of the characters used in the Touki System were questionable in terms of frequency of use, actual usage, and their glyph. Therefore, Hanyo-Denshi had targeted only the characters used by more than one of the registry offices.

[107] 文字関係
key
ivd:Hanyo-Denshi
desc
IVD に登録された IVS から平成明朝グリフへ。

文字情報基盤との関係

[20] 文字情報基盤が事実上の後継プロジェクトらしいです。 文字情報基盤

Unicode との関係

[100] 汎用電子を出典に Unicode に追加された文字Unihan出典JJH となっています。

[91] Unicode 6.0.0 で出典Jが JH- から始まるもの: 107

[92] ほとんどは平成明朝グリフ名。そうでないもの:

これらは先頭に KS が省略されている。その他は IBJT で始まる。 S で終わるものが1つ。

Adobe-Japan1 との対応関係

[66] GitHub - hakatashi/IVS.js: This module supplies mutual IVS conversion between Adobe-Japan and Hanyo-denshi(Moji_Joho), https://github.com/hakatashi/IVS.js/

Hanyo-denshi(Moji_Joho)

と書いてあって文字情報基盤追加部分に対応しているのかいないのかよくわからない。

This package includes database for mutual conversion of IVS, which is generated from GlyphWiki's aliasing information.

メモ

[24] グループ:kamiyo_TK0100 - GlyphWiki, https://glyphwiki.org/wiki/Group:kamiyo_TK0100

[26] グループ:関連字-検証 - GlyphWiki, https://glyphwiki.org/wiki/Group:%e9%96%a2%e9%80%a3%e5%ad%97-%e6%a4%9c%e8%a8%bc#i0

MJ文字情報一覧表Ver.004.01の「対応するUCS」がない文字について,漢字データベースプロジェクトにある汎用電子情報交換環境整備プログラムの対応するUCSとGlyphWikiの関連字を照合したところ,以下の字については字形から見てより適当と思われる符号位置にGlyphWikiの関連字を設定しています。今後の精査が必要と考えられます。 --2014年11月21日(金) 18:53

[25] https://ipsj.ixsq.nii.ac.jp/ej/index.php?action=pages_view_main&active_action=repository_action_common_download&item_id=82411&item_no=1&attribute_id=1&file_no=1&page_id=13&block_id=8 #page=6

CHISE

素性名内容
=hanyo-denshi/ja JA (JIS X0208)
=hanyo-denshi/jb JB (JIS X0212)
=hanyo-denshi/jc JC (JIS X0213:2000 Plane 1)
=hanyo-denshi/jd JD (JIS X0213:2000 Plane 1)
=hanyo-denshi/ft FT (FDPC 追加)
=hanyo-denshi/ia IA
=hanyo-denshi/ib IB
=hanyo-denshi/hg HG(表外漢字表)
=hanyo-denshi/ip IP (for IPA)
=hanyo-denshi/jt JT(住基統一文字)
=hanyo-denshi/ks KS(戸籍統一文字)

[27] 利用者:golconda - GlyphWiki, https://glyphwiki.org/wiki/User:golconda

  • UCSと、汎用電子平成明朝体と、UCS J欄に使われた平成明朝体と、戸籍統一文字(登記固有文字)と、住基文字との対応表を整備する予定。
  • UCS J欄に使われた平成明朝体の情報は、汎用電子成果報告書(2010年度)に記載されている。

平成明朝体グリフ名とGlyphWikiの対応案

[28] グループ:汎用電子 - GlyphWiki, https://glyphwiki.org/wiki/Group:%E6%B1%8E%E7%94%A8%E9%9B%BB%E5%AD%90

[122] 研究室から:行政情報処理と漢字 - 国語研の窓 - ことば研究館, , https://kotobaken.jp/mado/30/30-02/