VHN 01

TCVN 5773

TCVN 5773

[1] TCVN 5773:1993 Information technology. Nom 16-bit standard coded set for information interchange

[8] TCVN 5773:1993 (NSCII - Nom Standard Code for Information Interchange >>11) は、2357文字の字喃を含む符号化文字集合

[9] ハノイの国立社会科学センター字喃研究所が中心となって制定されたらしい。 UCS CJK統合漢字V 欄の 0 はこの規格の符号とされている。

[15] Unicode ConsortiumウェブサイトTCVN-NSCII Stack 1.0 という HyperCard スタック (カード型データベース) のファイルが配布されています。 >>3

[16] これが TCVN 5773 の文字データベースらしいのです >>11 が、 果たして今 HyperCard データベースを表示する方法があるのかどうか。 同じと思われるファイルが Internet Archive にも所蔵されています >>4 が、 こちらもファイル変換されていないオリジナルで、内容は確認のしようがありません。

[17] NSCII は16ビットの符号化文字集合>>11

[18] HyperCard には2357カードあって、 それが NSCII 字喃と対応しているとのことです。 >>11

[12] ISO/IEC 10646‐1:1993 の BMP を基にして、 1775文字の字喃を (V+A000〜V+A6EE) 追加しています。 >>1, >>11 その差分が BMP の既存の文字 (CJK統合漢字のみ?) と思われます。

[13] 字喃の典拠は Nguyen Quang Xy and Vu Van Kinh の Tu dien chu Nom (字喃辞典, Nom Dictionary; 1971年) だそうだ >>1, >>11

[30] Nôm Proper Code Table (NPCT) がまとめられました。 >>33

[34] NPCTISO/IEC 10646Unicode に対する追加要求として字喃を列挙したものでした。 N0001 から N2403 まで十進数が振られていました。 字形は手書き、その他も手書きの修正が入って、 N2401 と N2402 は手書きで追加されたものでした。 >>33

[35] このときの Unicode 向け説明資料に既に結合文字「个」の説明がある >>33 #page=4 のに注意したいです。これが Unicode に追加されるまで、 なぜかそれから二十年程要しました。 Vietnamese reading mark

[38] に TCVN/TC1 Subcommittee for Standardization of Nôm Codes によって NPCT 2.0 が Nôm Standard Codes for Information Interchange の Draft 1.0 (TCVN-NSCII-Draft-1.0) として採択されました。 >>37

[39] 2.0 は未発見でウェブ上にあるか不明。 内外の専門家37人に配布されたとのこと >>37

[31] に改訂されて NPCT 2.1 となりました。 >>37 そして NPCT V2.1 が TCVN 5773:1993 となりました。 >>26

[87] TCVN 5773-1993 のごく一部のページが >>86 にあります。 英語で書かれているようですが、 原文なのでしょうか。それとも英訳版なのでしょうか。

[88] NPCT 2.1 と同じように U+ / V+例示字形越南語国語表記が並んでいます。

[41] NPCT 2.1 は当時の CJK統合漢字にあるものは U+hhhh符号位置、 ないものは V+hhhh を割り振っていました。 表の掲載順に、 CJK統合漢字を除いて連番になっていました。 文字は低品質のビットマップフォントのようですが、 一応デジタルデータになっていました。 >>26

[42] 个など2文字が結合マークと明記されている >>26 #page=1 ことがやはり注目されます。 Vietnamese reading mark

[43] 2.0 と比べると符号やグリフの変更があったとする一覧があります。 >>26

[40] NPCT 2.1PDF >>26 は文字画像以外はテキストデータ。 おそらくワープロか何かの元データを後年になって PDF 化したものでしょう。 どの程度原形を保っているのか不明。

[19] HyperCard カードには、 グリフ, Quoc ngu 表記 (TCVN-5712:1993 表現), 文字符号が表示されています。 >>11

[20] 文字符号は、 UnicodeU+hhhh または独自の V+hhhh です。 他の CJKV 規格にあれば、それも示されています。 >>11

[59] この V+ 符号は、 UnicodeU+ と一応区別はされていますが、 当時 Unicode の未割当領域だった [ U+A000, U+A6EE ] に割り振って提案したものでした。 実際にはその後別の Unicode 符号点に割り振られ、 V+ が使っていた領域は漢字ではないものが割り当てられています。 >>26

[60] 他の事例はUnicode非互換割当参照

[14] に誤りが見つかって修正要求が出された >>2

[21] HyperCard データベースにその誤りが関係しているのか不明ですが、 ファイルのタイムスタンプなので、 影響があれば修正後でしょうか。

[23] TCVN 5773:1993TCVN 8271-2:2009 によって置き換えられたとされます。 TCVN 8271-2:2009

[24] TCVN 5773:1993 にあった CJK統合漢字の出典としての情報が TCVN 8271-2:2009 に含まれているのかは不明.

[58] その後の調査によると NPCT 2.1CJK統合漢字V0字形が異なるもの、出典 V0 として掲載されていないもの、 CJK統合漢字から漏れているものが多数あるようです。 >>26


[61] CJK統合漢字の出典 V0 TCVN 5773:1993942集合の形式になっていますが、 NPCT 2.1 には U+ / V+Unicode 符号位置しか掲載されていません。 TCVN 5773:1993 も同様らしいです。 >>26

[62] NPCT 2.1 の一覧表の掲載位置から V0 へは計算式で変換できます。 >>26 つまり V0NPCT 2.1 の一覧表の順番で 942文字集合の 16区から41区に配置したもののようです。

[89] Unicode 3.0UnihanV0 はおかしなことになっていました。 V1TCVN 6056:1995 が当時は942集合の1区から並べられていた (>>74) のと同じように、 CJK統合漢字 URO に対応する V0 は1区から並べられていたようです >>69。 しかしCJK統合漢字拡張Aに対応する V1 は16区から並べられていたようです >>69。 その後のもの >>78 と比較すると、 拡張A部分はほぼ同じで、現在の Unihan ともほぼ同じなのですが、 URO 部分は16区分変更されています。

[158] なお当時の Unihan の注釈では V0V1 のことを V1V2 と書いていました。

[90] 1区始まりの領域と16区始まりの領域は重なるので、 Unicode 3.0Unihan には

U+34ED  kIRG_VSource    0-304E

U+7A6D  kIRG_VSource    0-304E

のような重複が出てきます。 >>69

[66] Unicode 式 (の V+), ISO/IEC 2022V0 とも、 符号表以外に文字符号としての実利用例があるかは不明。

TCVN 6056

[44] TCVN 6056:1995 Information technology. Nom 16-bit standard code for information interchange. Han Nom character

[64] CJK統合漢字の出典 V1

[49] 942文字集合の42区1点〜77区21点に字漢 (漢字) が3311文字らしい。

[63] つまり V0 とは重ならないように続きに配置されています。

[56] いくつか誤りがあって1998年に修正要求がなされたらしい。

[72] の時点で、 IRG の写像と TCVN 側の写像で違いがあって、 IRG のものには、ずれや欠落があると指摘されていました。 >>71

[73] それには誤りとは別に符号化についても言及があります。 TCVN 6056:1995 は、文字を [ 1, 3349 ] の十進数で識別しているようです。 >>71

[74] そして IRG は 1-2121 から始まる 942集合の1区から配置した符号を使っていますが、 42区からの配置に変更することが提案されていました。 どちらも十進数をそのまま順に割り振ったもののようです。 >>71 (対照表あり)

[75] Unicode 3.0UnihanIRG 出典Vは、 1-2121 などこの旧 IRG 符号らしきものが示されています。 >>69

[76] 現在の UnihanIRG 出典Vは、 V1-4A21 などこの提案による変更後の符号が示されています。 >>46 もそれと同じです。

[77] これらからすると TCVN 6056:1995 には出典 V に使われているような ISO/IEC 2022 式の符号は書かれていないように読めます。

[67] いずれの方式も文字符号としての実利用例があるかは不明。

[160] Unicode 3.0 Unihan の V1 は補正してもいくつか現行文字集合とずれています。 数か所に挿入、削除があるようです。

CJK統合漢字の出典V

[81] 現在の Unihan は、出典 V

と説明しています。 >>80

[68] UnihanUnicode 3.0 で初めて出典 V を掲載するようになりました。 そのファイルには

#                       V1      TCVN 5773:1993
#                       V2      TCVN 6056:1995

とありましたが、ファイルの中身はこれと合っておらず、 0- と 1- が使われていました。 >>69

[79] それより新しい Unihan には

#			V0	TCVN 5773:1993
#			V1	VHN 01:1998
#			V2	VHN 02:1998
#			V3	TCVN 6056:1995

と書かれているものもあります。 ところがファイルの中身を見ると V1 は TCVN 6056 のようです。 >>78


[25] V 典拠

というものは実在するのか? 例によって嘘規格? (Vietnamese Han & Nom かなにかの略だと藁える)

[82] V2V1 の続きで V2-6Ehh から始まりますが、 V2-91hh まで、 942集合を超えて続いています。

[83] V3 は続きではなく V3-30hh から始まって V3-39hh まで続いています。

[84] V4 は少し離れて V4-40hh から V4-58hh まで続いています。

[85] なぜ V2 だけ942集合から逸脱しているのか謎です。

[134] 文字関係
key
unihan:kIRG_VSource
desc
Unihan kIRG_VSource (V0, VN)。
[142] 文字関係
key
unihan:kIRG_VSource:1
desc
Unihan kIRG_VSource (V1)。
[143] 文字関係
key
unihan:kIRG_VSource:2
desc
Unihan kIRG_VSource (V2)。
[144] 文字関係
key
unihan:kIRG_VSource:3
desc
Unihan kIRG_VSource (V3)。
[145] 文字関係
key
unihan:kIRG_VSource:4
desc
Unihan kIRG_VSource (V4)。
[161] 文字関係
key
unihan15:kIRG_VSource
desc
Unicode 15.0 Unihan kIRG_VSource (V0, VN)。
[162] 文字関係
key
unihan15:kIRG_VSource:1
desc
Unicode 15.0 Unihan kIRG_VSource (V1)。
[163] 文字関係
key
unihan15:kIRG_VSource:2
desc
Unicode 15.0 Unihan kIRG_VSource (V2)。
[164] 文字関係
key
unihan15:kIRG_VSource:3
desc
Unicode 15.0 Unihan kIRG_VSource (V3)。
[165] 文字関係
key
unihan15:kIRG_VSource:4
desc
Unicode 15.0 Unihan kIRG_VSource (V4)。
[157] 文字関係
key
unihan3.0:kIRG_VSource:0
desc
Unicode 3.0 Unihan kIRG_VSource 0。
datanote
現行文字集合 (>>89) への補正後。

出典VやV字形の変更

[154] L2/22-247 (CJK & Unihan Group Recommendations for UTC #173 Meeting) - 22247-cjk-unihan-group-utc173.pdf, , https://www.unicode.org/L2/L2022/22247-cjk-unihan-group-utc173.pdf#page=43

[155] >>154 U+237C3 の変更 (Unicode 15.0 → 15.1)

Unicode 5.2 とも微妙に違う。

[156] >>154 U+5098 の変更 (Unicode 15.0 → 15.1)

[166] >>156 この U+5098 / U+20302 の件、 V1-4B79 は ISO/IEC 10646-1:2000 から 2003 までの V字形T字形ど完全同一字形で、 その後 Unicode 5.2 との間に独自字形に差し替えられたときに現 U+20302 V字形に変わり、 Unicode 15.0 まではそのままだったところ、 Unicode 15.1 はそのV字形と V1-4B79 は U+20302 に移封され、 新しく U+5098 に VN-05098 と新字形が入った、という経緯。

[151] IRGN2556RVSourceGlyphAndCodeUpdates.pages - 22259-irgn2556-vsource-updates.pdf, , https://www.unicode.org/L2/L2022/22259-irgn2556-vsource-updates.pdf

[150] ノート:u27350 - GlyphWiki, https://glyphwiki.org/wiki/Talk:u27350

[152] Unicode 5.1 と現行字形が違う例: U+20059

[153] IRGN2197.pdf, , https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg48/IRGN2197.pdf

[159] IRGN2651 - 23242-irgn2651-glyph-chg-21128.pdf, , https://www.unicode.org/L2/L2023/23242-irgn2651-glyph-chg-21128.pdf

U+21128

[167] U+2BF45 の V は Unicode 15.0 とそれ以後で字形変更、 新字形は Unicode 5.2 の U+22B31 の V字形。

[168] 目前並不會特地增收喃字 · Issue #58 · ichitenfont/I.Ming · GitHub, https://github.com/ichitenfont/I.Ming/issues/58

[169] >>168 Vの出典とV字形の字形差

[172] U+235F1

>>173UCS2003 字形が誤字形だとするが、 UCS2003 字形などという概念はこの版ではもう廃止されていて存在しない。 UCS2003字形として示されたものは Unicode 13 のV字形と同じ。 V字形として示されたものは Unicode 5.2 の V字形と同じ。 Unicode 13, 15, >>173 のV字形は UCS2003 字形と骨組みとして同じ。 >>173 の画像は古い符号表のスクショだろうが、 旧V字形とUCS2003字形が共存していた版があったということか。 Unicode 5.2 と Unicode 13 の間のどれかか。

[174] U+28599

>>173 #page=3297 はV字形を誤統合とするが、そのV字形は Unicode 13, 15 とも違う。 13 より前のどれかの版では誤統合だったのを V字形側を変更することで解決したということか。

Kho Chữ Hán Nôm Mã HoáNôm Na Tống フォント

[6] 出典Vで使われている Nôm Na Tống フォントMITライセンスで公開されています。 >>5

[92] Vietnamese Nôm Preservation Foundation (VNPF) が設立された後に開発されてきた Kho Chữ Hán Nôm Mã Hoá (Hán-Nôm Coded Character Repertoire) およびフォント Nôm Na Tống Light は、 Kho Chữ Hán Nôm Mã Hoá の出版で一旦完成したのだそうです。 >>7

[93] そしてそれ以後もフォント開発を継続しつつ IRG とも協調して CJK統合漢字越南典拠を拡張しているようです。 >>7 Unicode符号表がいつからこのフォントになったのか不明ですが、 以後なのでしょうか。

[94] Unihan は典拠 V4Kho Chữ Hán Nôm Mã Hoá だとしています。 >>80

[98] >>97Hán-Nôm Coded Character Repertoire のごく一部が引用されていますが、 字形に対して当時の Unicode にあるものは U+hhhh、 ないものは V+6hhhhV04-hhhh の符号が示されているようです。

[99] Kho chữ Hán Nôm Mã hoá 掲載の文字と越南語国語表記の対照表が 漢字データベースプロジェクト で公開されています。 このデータファイルでは Unicode にない文字は IDS で表現され、 V+ または V04- の符号が示されています。 >>96

[101] IDS の一部は私用域CDP外字?

[102] >>98 ではすべての非Unicode文字V+V04- が割り振られていますが、 >>99 では両方があるのはごく一部だけで、ほとんどはどちらか一方だけです。 原書ではどうなっているのでしょう?

[103] ISO/IEC 10646:2003/Amd.5 の V4Kho chữ Hán Nôm Mã hoáV04- は 8文字が一致しないそうです。 >>96

[105] >>104 で文字を検索して情報を見ることができます。 例えば

UnicodeU+2cc8a
TCVN CodeV4-5735
Kho chữ Hán NômV+632BF

のように表示されます。

[106] ここで TCVN CodeCJK統合漢字の典拠Vと同じもののようです。 V0 から V4 までのほか VN も確認できます。 典拠Vがないとこの欄は出てきません。

[107] Kho chữ Hán NômKho chữ Hán Nôm Mã hoáV+ があれば表示されるようです。 TCVN CodeV4 のものもあれば、 TCVN Code が表示されないものもあります。

[109] >>99 に示された符号を検索してみると、 V04- で示されたものには V4-V+ もあり、 V+ で示されたものには V+ しかありません。 >>99 の対照表では原典に V04- が記載されていればそちらを優先して書いているのでしょうか。

[108] なお、 TCVN 5773V+ 符号は検索しても何も見つかりませんし、 対応する正式な Unicode で表示しても表に V+ 符号はありません。 V+U+ に置き換えても何も見つかりません。 TCVN 5773V+ はもうまったく使われていないのでしょうか。

[110] 中には

UnicodeU+f063d*
Kho chữ Hán NômV+60691

のように Unicode が U+Fhhhh私用文字のものもあります。 * 印は将来の Unicode 候補だと注釈があります。

[111] Nôm Na Tống越南語国語表記用のラテン文字等の非漢字と、 CJK統合漢字CJK互換漢字の一部を実装しています。

[112] 加えて、 私用文字 [ U+F0000, U+F2388 ] が定義されています。

[113] 私用文字ウェブサイトで検索できるものと同じようです。

[114] TCVN CodeVN になるものもありますが、

UnicodeU+f0000*
TCVN CodeVN-F0000
Kho chữ Hán NômV+60000

のようになっています。 Unicode では VN水平拡張を表すことになっていて (>>81)、私用文字水平拡張では意味が通じず、 こちらの VN がどういう符号なのか不明です。

[135] UnihanIRG 出典の VNCJK統合漢字とこの PUA 分が混じっています。

[128] >>114 see >>127

[115] TCVN Code 欄も Kho chữ Hán Nôm 欄も表示されない

UnicodeU+f2388*

のような例もあります。

[117] フォントU+F1DABUnicodeU+200C9 であると発見された報告があります。 報告を受けて U+200C9U+F1DAB と同じグリフデータが設定されたようです。 >>116 (フォント内に別グリフとして同字形が重複して入っています。)

[118] 報告内の URL画面写真によると、変更前は http://nomfoundation.org/common/nom_details.php?codepoint=f1dab

UnicodeU+f1dab*
Kho chữ Hán NômV+6EF98

と表示されていたようです。 >>116 しかし現在そのページは表示できません。 U+200C9 で検索すると、

UnicodeU+200c9

だけが表示されます。 U+F1DABV+6EF98 の情報は表示されなくなっています。

[119] では U+F1DAB の情報がデータベースから消されたのかというと、そうでもないらしく、 符号「F1DAB」で検索すると U+200C9 のページが表示されます。旧符号を知っていれば新符号を知ることはできるようです。 ただし V+6EF98 では検索もできません。

[123] フォント側は、このような変更はあっても、履歴をぱっと見た感じ、 私用文字の削除や移動のような非互換変更は行われていないようです。

[120] フォント中の私用文字のいくつかは、 CJK統合漢字 + Vietnamese alternate reading markccmp でもアクセスできます。 Vietnamese alternate reading mark

[122] フォント中の私用文字のいくつかは、 IVS でもアクセスできます。 >>121 多数の IVS が定義されていますが、しかし現時点では IVC に登録されていません。 今後登録する予定があるのかは不明です。

[125] >>124私用文字ローマ字入力辞書データが配布されています (ライセンス不明)。 私用文字 [ U+F0000, U+F2388 ] の範囲 (9097符号位置) ですが、 6262個分のデータが入っています。

[146] 文字関係
key
cjkvi:ids:V4
desc
漢字データベースプロジェクト cjkvi-data/nom_qn.txt より注釈の V04 符号からIDSへ。
[147] 文字関係
key
cjkvi:nom_qn:#
desc
漢字データベースプロジェクト cjkvi-data/nom_qn.txt文字より注釈の符号 (V+) へ。
[148] 文字関係
key
cjkvi:nom_qn:#:V4
desc
漢字データベースプロジェクト cjkvi-data/nom_qn.txt文字より注釈の符号 (V04) へ。

[126] V+ 符号は、現在見つかっているものはすべて V+6hhhh の形式です。これは Unicode の未使用の領域 (私用域ではない) を表しているのでしょうか? 書籍やデータベース以外で利用されることがあるのかは不明です。 機械可読な変換表も見当たらず、 配布されているフォントもこの符号は使っていません。

[133] この V+ は、旧フォントで [ U+60000, U+63FFF ] に割り当てられていたものなのだそうです。 >>129, >>130, >>131, >>132

[136] Version 5.06, fixed issues 20, 21, 22, 23, 24. Added glyphs from QMTĐ…, lcollinsnflx, , https://github.com/nomfoundation/font/commit/10c78eaadc898794687213cf1127c73f86a1c5a4

[137] >>136 この変更で IVS が登録済みの他の IVC のものを流用するように変更されているようだけど (従来のファイル内容との互換性も気にせずずらしているらしい)、合っているのだろうか???

[141] >>138 >>139 間はただの追加

[149] ところで漢喃復活委員会フォントは新旧どちらともまた違ったIVSを使っています。

[170] IRGN2631-Vietnam - IRGN2631-Vietnam.pdf, , https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg61/IRGN2631-Vietnam.pdf

メモ

[36] Microsoft Word - PhmemNom-u+.rtf - PhanMemChuNom.pdf, , https://cs.nyu.edu/~nhan/PhanMemChuNom.pdf

[22] Microsoft PowerPoint - Computing in Vietnamese 0.99IMUGweb.ppt - VietComputing.pdf, , http://www.imug.org/presentations/VietComputing.pdf#page=20

[32] VietNhan_day_chu_Nom.pdf, , http://nomfoundation.org/Conf2006/VietNhan_day_chu_Nom.pdf

[127] IRG N2490 - IRGN2490VSourceChanges.pdf, , https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg56/IRGN2490VSourceChanges.pdf