[1] TCVN 5773:1993 Information technology. Nom 16-bit standard coded set for information interchange。
[8] TCVN 5773:1993 (NSCII - Nom Standard Code for Information Interchange >>11) は、2357文字の字喃を含む符号化文字集合。
[9]
ハノイの国立社会科学センター字喃研究所が中心となって制定されたらしい。
UCS CJK統合漢字の V 欄の 0
はこの規格の符号とされている。
[15] Unicode Consortium のウェブサイトで TCVN-NSCII Stack 1.0 という HyperCard スタック (カード型データベース) のファイルが配布されています。 >>3
[16] これが TCVN 5773 の文字データベースらしいのです >>11 が、 果たして今 HyperCard データベースを表示する方法があるのかどうか。 同じと思われるファイルが Internet Archive にも所蔵されています >>4 が、 こちらもファイル変換されていないオリジナルで、内容は確認のしようがありません。
[17] NSCII は16ビットの符号化文字集合。 >>11
[18] HyperCard には2357カードあって、 それが NSCII 字喃と対応しているとのことです。 >>11
[12] ISO/IEC 10646‐1:1993 の BMP を基にして、 1775文字の字喃を (V+A000〜V+A6EE) 追加しています。 >>1, >>11 その差分が BMP の既存の文字 (CJK統合漢字のみ?) と思われます。
[13] 字喃の典拠は Nguyen Quang Xy and Vu Van Kinh の Tu dien chu Nom (字喃辞典, Nom Dictionary; 1971年) だそうだ >>1, >>11。
[30] に Nôm Proper Code Table (NPCT) がまとめられました。 >>33
[34] NPCT は ISO/IEC 10646 と Unicode に対する追加要求として字喃を列挙したものでした。 N0001 から N2403 まで十進数が振られていました。 字形は手書き、その他も手書きの修正が入って、 N2401 と N2402 は手書きで追加されたものでした。 >>33
[35]
このときの Unicode 向け説明資料に既に結合文字「个」の説明がある
>>33 #page=4
のに注意したいです。これが Unicode に追加されるまで、
なぜかそれから二十年程要しました。
[38] に TCVN/TC1 Subcommittee for Standardization of Nôm Codes によって NPCT 2.0 が Nôm Standard Codes for Information Interchange の Draft 1.0 (TCVN-NSCII-Draft-1.0) として採択されました。 >>37
[31] に改訂されて NPCT 2.1 となりました。 >>37 そして NPCT V2.1 が TCVN 5773:1993 となりました。 >>26
[87] TCVN 5773-1993 のごく一部のページが >>86 にあります。 英語で書かれているようですが、 原文なのでしょうか。それとも英訳版なのでしょうか。
[88] NPCT 2.1 と同じように U+
/ V+
と例示字形、
越南語国語表記が並んでいます。
[41]
NPCT 2.1
は当時の
CJK統合漢字にあるものは U+hhhh
の符号位置、
ないものは
V+hhhh
を割り振っていました。
表の掲載順に、 CJK統合漢字を除いて連番になっていました。
文字は低品質のビットマップフォントのようですが、
一応デジタルデータになっていました。
>>26
[42]
个など2文字が結合マークと明記されている
>>26 #page=1 ことがやはり注目されます。
[43] 2.0 と比べると符号やグリフの変更があったとする一覧があります。 >>26
[19] HyperCard カードには、 グリフ, Quoc ngu 表記 (TCVN-5712:1993 表現), 文字符号が表示されています。 >>11
[20]
文字符号は、
Unicode の U+hhhh
または独自の
V+hhhh
です。
他の
[59]
この V+ 符号は、 Unicode の U+
と一応区別はされていますが、
当時 Unicode の未割当領域だった
[ U+A000
, U+A6EE
]
に割り振って提案したものでした。
実際にはその後別の Unicode 符号点に割り振られ、
V+
が使っていた領域は漢字ではないものが割り当てられています。
>>26
[21] HyperCard データベースにその誤りが関係しているのか不明ですが、 ファイルのタイムスタンプはなので、 影響があれば修正後でしょうか。
[23]
TCVN 5773:1993
は
TCVN 8271-2:2009
によって置き換えられたとされます。
[58] その後の調査によると NPCT 2.1 と CJK統合漢字の V0 で字形が異なるもの、出典 V0 として掲載されていないもの、 CJK統合漢字から漏れているものが多数あるようです。 >>26
[61]
CJK統合漢字の出典 V0 TCVN 5773:1993
は 942集合の形式になっていますが、
NPCT 2.1 には
U+
/ V+
の Unicode 符号位置しか掲載されていません。
TCVN 5773:1993
も同様らしいです。
>>26
[62] NPCT 2.1 の一覧表の掲載位置から V0 へは計算式で変換できます。 >>26 つまり V0 は NPCT 2.1 の一覧表の順番で 942文字集合の 16区から41区に配置したもののようです。
[89] Unicode 3.0 の Unihan の V0 はおかしなことになっていました。 V1 の TCVN 6056:1995 が当時は942集合の1区から並べられていた (>>74) のと同じように、 CJK統合漢字 URO に対応する V0 は1区から並べられていたようです >>69。 しかしCJK統合漢字拡張Aに対応する V1 は16区から並べられていたようです >>69。 その後のもの >>78 と比較すると、 拡張A部分はほぼ同じで、現在の Unihan ともほぼ同じなのですが、 URO 部分は16区分変更されています。
[90] 1区始まりの領域と16区始まりの領域は重なるので、 Unicode 3.0 の Unihan には
U+34ED kIRG_VSource 0-304EU+7A6D kIRG_VSource 0-304E
のような重複が出てきます。 >>69
[66]
Unicode 式 (の V+
),
ISO/IEC 2022 式 V0
とも、
符号表以外に文字符号としての実利用例があるかは不明。
[44] TCVN 6056:1995 Information technology. Nom 16-bit standard code for information interchange. Han Nom character
[49] 942文字集合の42区1点〜77区21点に字漢 (漢字) が3311文字らしい。
[56] いくつか誤りがあって1998年に修正要求がなされたらしい。
[72] の時点で、 IRG の写像と TCVN 側の写像で違いがあって、 IRG のものには、ずれや欠落があると指摘されていました。 >>71
[73] それには誤りとは別に符号化についても言及があります。 TCVN 6056:1995 は、文字を [ 1, 3349 ] の十進数で識別しているようです。 >>71
[74] そして IRG は 1-2121 から始まる 942集合の1区から配置した符号を使っていますが、 42区からの配置に変更することが提案されていました。 どちらも十進数をそのまま順に割り振ったもののようです。 >>71 (対照表あり)
[75] Unicode 3.0 の Unihan の IRG 出典Vは、 1-2121 などこの旧 IRG 符号らしきものが示されています。 >>69
[76] 現在の Unihan の IRG 出典Vは、 V1-4A21 などこの提案による変更後の符号が示されています。 >>46 もそれと同じです。
[77] これらからすると TCVN 6056:1995 には出典 V に使われているような ISO/IEC 2022 式の符号は書かれていないように読めます。
[67] いずれの方式も文字符号としての実利用例があるかは不明。
[160] Unicode 3.0 Unihan の V1 は補正してもいくつか現行文字集合とずれています。 数か所に挿入、削除があるようです。
と説明しています。 >>80
[68] Unihan は Unicode 3.0 で初めて出典 V を掲載するようになりました。 そのファイルには
# V1 TCVN 5773:1993 # V2 TCVN 6056:1995
とありましたが、ファイルの中身はこれと合っておらず、 0- と 1- が使われていました。 >>69
# V0 TCVN 5773:1993 # V1 VHN 01:1998 # V2 VHN 02:1998 # V3 TCVN 6056:1995
と書かれているものもあります。 ところがファイルの中身を見ると V1 は TCVN 6056 のようです。 >>78
[25] V 典拠
というものは実在するのか? 例によって嘘規格? (Vietnamese Han & Nom かなにかの略だと藁える)
[82] V2 は V1 の続きで V2-6Ehh から始まりますが、 V2-91hh まで、 942集合を超えて続いています。
[83] V3 は続きではなく V3-30hh から始まって V3-39hh まで続いています。
[84] V4 は少し離れて V4-40hh から V4-58hh まで続いています。
[85] なぜ V2 だけ942集合から逸脱しているのか謎です。
[154] L2/22-247 (CJK & Unihan Group Recommendations for UTC #173 Meeting) - 22247-cjk-unihan-group-utc173.pdf, , https://www.unicode.org/L2/L2022/22247-cjk-unihan-group-utc173.pdf#page=43
[155] >>154 U+237C3 の変更 (Unicode 15.0 → 15.1)
Unicode 5.2 とも微妙に違う。
[156] >>154 U+5098 の変更 (Unicode 15.0 → 15.1)
[166] >>156 この U+5098 / U+20302 の件、 V1-4B79 は ISO/IEC 10646-1:2000 から 2003 までの V字形は T字形ど完全同一字形で、 その後 Unicode 5.2 との間に独自字形に差し替えられたときに現 U+20302 V字形に変わり、 Unicode 15.0 まではそのままだったところ、 Unicode 15.1 はそのV字形と V1-4B79 は U+20302 に移封され、 新しく U+5098 に VN-05098 と新字形が入った、という経緯。
[151] IRGN2556RVSourceGlyphAndCodeUpdates.pages - 22259-irgn2556-vsource-updates.pdf, , https://www.unicode.org/L2/L2022/22259-irgn2556-vsource-updates.pdf
[150] ノート:u27350 - GlyphWiki, https://glyphwiki.org/wiki/Talk:u27350
[152] Unicode 5.1 と現行字形が違う例: U+20059
[153] IRGN2197.pdf, , https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg48/IRGN2197.pdf
[159] IRGN2651 - 23242-irgn2651-glyph-chg-21128.pdf, , https://www.unicode.org/L2/L2023/23242-irgn2651-glyph-chg-21128.pdf
U+21128
[167] U+2BF45 の V は Unicode 15.0 とそれ以後で字形変更、 新字形は Unicode 5.2 の U+22B31 の V字形。
[168] 目前並不會特地增收喃字 · Issue #58 · ichitenfont/I.Ming · GitHub, https://github.com/ichitenfont/I.Ming/issues/58
>>173 は UCS2003 字形が誤字形だとするが、 UCS2003 字形などという概念はこの版ではもう廃止されていて存在しない。 UCS2003字形として示されたものは Unicode 13 のV字形と同じ。 V字形として示されたものは Unicode 5.2 の V字形と同じ。 Unicode 13, 15, >>173 のV字形は UCS2003 字形と骨組みとして同じ。 >>173 の画像は古い符号表のスクショだろうが、 旧V字形とUCS2003字形が共存していた版があったということか。 Unicode 5.2 と Unicode 13 の間のどれかか。
>>173 #page=3297 はV字形を誤統合とするが、そのV字形は Unicode 13, 15 とも違う。 13 より前のどれかの版では誤統合だったのを V字形側を変更することで解決したということか。
[6] 出典Vで使われている Nôm Na Tống フォントは MITライセンスで公開されています。 >>5
[92] に Vietnamese Nôm Preservation Foundation (VNPF) が設立された後に開発されてきた Kho Chữ Hán Nôm Mã Hoá (Hán-Nôm Coded Character Repertoire) およびフォント Nôm Na Tống Light は、 の Kho Chữ Hán Nôm Mã Hoá の出版で一旦完成したのだそうです。 >>7
[93] そしてそれ以後もフォント開発を継続しつつ IRG とも協調して CJK統合漢字の越南典拠を拡張しているようです。 >>7 Unicode の符号表がいつからこのフォントになったのか不明ですが、 以後なのでしょうか。
[94] Unihan は典拠 V4 をの Kho Chữ Hán Nôm Mã Hoá だとしています。 >>80
[98]
>>97 に
Hán-Nôm Coded Character Repertoire
のごく一部が引用されていますが、
字形に対して当時の Unicode にあるものは U+hhhh
、
ないものは
V+6hhhh
と
V04-hhhh
の符号が示されているようです。
[99]
の
Kho chữ Hán Nôm Mã hoá
掲載の文字と越南語国語表記の対照表が
漢字データベースプロジェクト
で公開されています。
このデータファイルでは Unicode にない文字は
IDS
で表現され、
V+
または V04-
の符号が示されています。
>>96
[102]
>>98 ではすべての非Unicode文字に V+
と V04-
が割り振られていますが、
>>99 では両方があるのはごく一部だけで、ほとんどはどちらか一方だけです。
原書ではどうなっているのでしょう?
[103]
ISO/IEC 10646:2003/Amd.5 の V4
と
Kho chữ Hán Nôm Mã hoá
の V04-
は
8文字が一致しないそうです。
>>96
[105] >>104 で文字を検索して情報を見ることができます。 例えば
Unicode U+2cc8a TCVN Code V4-5735 Kho chữ Hán Nôm V+632BF
のように表示されます。
[106] ここで TCVN Code が CJK統合漢字の典拠Vと同じもののようです。 V0 から V4 までのほか VN も確認できます。 典拠Vがないとこの欄は出てきません。
[107]
Kho chữ Hán Nôm は
Kho chữ Hán Nôm Mã hoá
の V+
があれば表示されるようです。
TCVN Code が V4 のものもあれば、
TCVN Code が表示されないものもあります。
[109]
>>99
に示された符号を検索してみると、 V04-
で示されたものには
V4-
も V+
もあり、
V+
で示されたものには V+
しかありません。
>>99 の対照表では原典に V04-
が記載されていればそちらを優先して書いているのでしょうか。
[108]
なお、
TCVN 5773
の
V+
符号は検索しても何も見つかりませんし、
対応する正式な Unicode
で表示しても表に V+
符号はありません。
V+
を U+
に置き換えても何も見つかりません。
TCVN 5773
の
V+
はもうまったく使われていないのでしょうか。
[110] 中には
Unicode U+f063d* Kho chữ Hán Nôm V+60691
のように Unicode が U+Fhhhh の私用文字のものもあります。
*
印は将来の Unicode 候補だと注釈があります。
[111] Nôm Na Tống は越南語国語表記用のラテン文字等の非漢字と、 CJK統合漢字やCJK互換漢字の一部を実装しています。
[112] 加えて、
私用文字
[ U+F0000
, U+F2388
]
が定義されています。
[113] 私用文字はウェブサイトで検索できるものと同じようです。
[114] TCVN Code が VN になるものもありますが、
Unicode U+f0000* TCVN Code VN-F0000 Kho chữ Hán Nôm V+60000
のようになっています。 Unicode では VN は水平拡張を表すことになっていて (>>81)、私用文字の水平拡張では意味が通じず、 こちらの VN がどういう符号なのか不明です。
[135] Unihan の IRG 出典の VN も CJK統合漢字とこの PUA 分が混じっています。
[115] TCVN Code 欄も Kho chữ Hán Nôm 欄も表示されない
Unicode U+f2388*
のような例もあります。
[117]
フォントの
U+F1DAB
が
Unicode の
U+200C9
であると発見された報告があります。
報告を受けて
U+200C9
に
U+F1DAB
と同じグリフデータが設定されたようです。
>>116
(フォント内に別グリフとして同字形が重複して入っています。)
[118] 報告内の URL と画面写真によると、変更前は http://nomfoundation.org/common/nom_details.php?codepoint=f1dab で
Unicode U+f1dab* Kho chữ Hán Nôm V+6EF98
と表示されていたようです。 >>116
しかし現在そのページは表示できません。
U+200C9
で検索すると、
Unicode U+200c9
だけが表示されます。
U+F1DAB
や
V+6EF98
の情報は表示されなくなっています。
[119]
では
U+F1DAB
の情報がデータベースから消されたのかというと、そうでもないらしく、
符号「F1DAB」で検索すると
U+200C9
のページが表示されます。旧符号を知っていれば新符号を知ることはできるようです。
ただし V+6EF98
では検索もできません。
[123] フォント側は、このような変更はあっても、履歴をぱっと見た感じ、 私用文字の削除や移動のような非互換変更は行われていないようです。
[120]
フォント中の私用文字のいくつかは、
CJK統合漢字 + Vietnamese alternate reading mark
の
ccmp
でもアクセスできます。
[122] フォント中の私用文字のいくつかは、 IVS でもアクセスできます。 >>121 多数の IVS が定義されていますが、しかし現時点では IVC に登録されていません。 今後登録する予定があるのかは不明です。
[125]
>>124 で私用文字のローマ字入力用辞書データが配布されています
(ライセンス不明)。
私用文字
[ U+F0000
, U+F2388
]
の範囲 (9097符号位置) ですが、
6262個分のデータが入っています。
[126]
V+
符号は、現在見つかっているものはすべて V+6hhhh
の形式です。これは Unicode の未使用の領域 (私用域ではない)
を表しているのでしょうか?
書籍やデータベース以外で利用されることがあるのかは不明です。
機械可読な変換表も見当たらず、
配布されているフォントもこの符号は使っていません。
[133]
この V+
は、旧フォントで [ U+60000
, U+63FFF
]
に割り当てられていたものなのだそうです。
>>129, >>130, >>131, >>132
[136] Version 5.06, fixed issues 20, 21, 22, 23, 24. Added glyphs from QMTĐ…, lcollinsnflx, , https://github.com/nomfoundation/font/commit/10c78eaadc898794687213cf1127c73f86a1c5a4
[137] >>136 この変更で IVS が登録済みの他の IVC のものを流用するように変更されているようだけど (従来のファイル内容との互換性も気にせずずらしているらしい)、合っているのだろうか???
[149] ところで漢喃復活委員会フォントは新旧どちらともまた違ったIVSを使っています。
[170] IRGN2631-Vietnam - IRGN2631-Vietnam.pdf, , https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg61/IRGN2631-Vietnam.pdf
[36] Microsoft Word - PhmemNom-u+.rtf - PhanMemChuNom.pdf, , https://cs.nyu.edu/~nhan/PhanMemChuNom.pdf
[22] Microsoft PowerPoint - Computing in Vietnamese 0.99IMUGweb.ppt - VietComputing.pdf, , http://www.imug.org/presentations/VietComputing.pdf#page=20
[32] VietNhan_day_chu_Nom.pdf, , http://nomfoundation.org/Conf2006/VietNhan_day_chu_Nom.pdf
[127] IRG N2490 - IRGN2490VSourceChanges.pdf, , https://appsrv.cse.cuhk.edu.hk/~irg/irg/irg56/IRGN2490VSourceChanges.pdf