文字の同定

包摂規準

[27] ある文字とある文字が同じ文字かどうかは、簡単なようでいてとても難しい問題です。

[28] 文字の取扱いに関する問題のすべてではないにせよかなりのものが、 文字の弁別、同定に関する見解の相違に起因しています。

[29] 日本では漢字について問題となることが多いですが、 漢字に限らずすべての文字に本質的について回る問題です。

[30] 日本政府漢字政策では、デザイン差と称して漢字字形の揺れの範囲を説明しています。

[31] JIS X 0208 などの JIS符号化文字集合では、 包摂規準と称して同じ面区点位置で表現可能な文字の範囲を記述しています。

[32] UnicodeCJK統合漢字は類似した字形と判断される漢字を同じ符号位置に統合するいわゆる漢字統合によって東アジア諸国の異なる字形漢字を統一的に扱っています。

[33] 古文書等の手書き文章明朝体等の活字テキストデータ翻刻する際は、 一定範囲の字形の違いや揺れは無視して標準的な字体に統一することになります。

[1] 包摂規準

[2] 関連: JIS X 0208, JIS X 0213, CJK統合漢字, 例示字形, CHISE, 翻刻, 縮退, g (コーパス), 比較, 異体字, 異体字シソーラス, 引用による改変, 同定する, 中華フォント, 外字, 非互換変更

[34] 標準的な文字コードの規格や実装にないからと外字が使われる場合でも、 本当にまったく表現できないことはそれほど多くなくて、 既存の文字の標準的な字形とは異なる字形外字として表現されることが多いです。 これは文字コード規格やフォント等の実装で対応可能な文字の弁別の粒度や同一視の基準と、 利用者のそれらが一致していないことの現れと言えます。

[35] 例えば JIS X 0208 が使われる環境で𠮷外字として追加されることが多いのですが、 JIS X 0208 という符号化文字集合ではこれらは包摂されています。

[36] これは別に JIS X 0208という文字を認めていないわけでも、 と表示するべきと主張しているわけでもなく、 ただ文字コード層としてはを区別する必要はないという設計思想だっただけのことです。

[37] 文字コードとは別の技術によりを (必要があれば) 区別すればよい、 という考え方だったはずですが、実際にはそのような技術が開発され普及することはなく、 がないから外字で追加しようという解決策が採られたのです。

[38] 本来なら外字としてよく使われているとわかった時点で包摂規準を改めて、 多くの利用者の認識と一致するようにするべきだったのでしょう。

[39] 文字コード規格が異体字を区別しているからといって、 その文字コードを使ったテキストデータはすべてそれに従わなければならないということを意味しません。

[40] 古文書翻刻では、いろいろな方針がありますが、 常用漢字異体字はすべて常用漢字表字体に統一する、 という方針を採ることがよくあります。 これに従えばは原文の記載がこのどちらであれ、 に統一することになります。

[41] このような統一化の基準は JIS X 0208Unicode の文字統合基準とは明らかに異なっていますが、 だからそのような翻刻データを JIS X 0208Unicode で表現できないということにはなりません。

[42] 文字の同定の程度、区別の粒度がどのくらいであるべきかは、その応用が求める要件によって変わってくるもので、 万能の基準が1つあればいいというものでもありません。

[9] 同定基準【原案】, 2004.10.21

>>3 #page=32

(汎用電子)

[3] 包摂基準書, 平成 24 年 3 月, , https://www.soumu.go.jp/main_content/000157024.pdf

[24] 一旦包摂統合されることに決まったものを改めることを包摂分離統合分離 (disunification) といいます。非互換変更の一種です。

[1] Disunification の事情

[4] ISO/IEC JTC 1/SC 2/WG 2 N2987 http://std.dkuug.dk/jtc1/sc2/wg2/docs/N2987.pdf

[5] しかしどう言ってみたところで非互換変更には違いない。

[6] Wayback Machine, https://web.archive.org/web/20221010072230/https://clrd.ninjal.ac.jp/cmj/doc/04sunaga.pdf

[7] ggg_v0.9.1.pdf, , https://www.chise.org/specs/ggg_v0.9.1.pdf

[14] chpg98-m.dvi - mt-gene.pdf, , https://www.joao-roiz.jp/mtoyo/on-JCS/mt-gene.pdf#page=2

[8] 99asa-ma.dvi - 99asa-ma.pdf, , https://joao-roiz.jp/mtoyo/on-JCS/99asa-ma.pdf

[10] 「六万四千漢字」への批評、あるいは問いかけ, , http://www.teisensha.com/gtmincho.htm

[11] >>10 が言及しているのは:

[12] ゆたかな文字文化を創りあげるために, , http://www.l.u-tokyo.ac.jp/KanjiWEB/01_02.html

テクストは文字の集合

[13] 東京大学総合研究博物館 デジタルミュージアム展, , https://umdb.um.u-tokyo.ac.jp/DPastExh/Publish_db/1997DM/DM_CD/DM_TECH/KAN_PRJ/HOME.HTM#8

[15] Xユーザーの日経 校閲さん: 「【柿・杮】 よく似ていますが「市」の部分が異なります。縦棒が突き抜けない左が「かき」で、突き抜ける右が「こけら」とされます。ただし、JIS規格ではこの2字は包摂されており、左の「柿」のほうで「かき」と「こけら」の両方を表すことになっています。 #そっくり漢字 https://t.co/CJm3cfW1jN」 / X, , https://x.com/nikkei_kotoba/status/1810154339396120817

[16] >>15 部分部分を取り出すと正しいことをいっているのに、全体として誤解しか産まない著しく不適切な投稿。 このような意味の通らない言葉の使い方を避けることこそ「校閲」に期待される役割ではないのか。 これでは

のすべてに対して正しい知識の普及を阻害しており関係者に対する敬意を欠くと言わざるを得ない。

[22] 日経の紙面で区別されるのかも気になるなあw

[23] ところで JIS X 0221 こと UnicodeK字形のどちらもになっててしびれますなあw

[25] IRGN2673.v2 - n2673.pdf, , https://www.unicode.org/irg/docs/n2673.pdf

[26] IRGN2673.v2 - n2673-VNNormalizationGuidelinesV2.pdf, , https://www.unicode.org/irg/docs/n2673-VNNormalizationGuidelinesV2.pdf

[47] IRGN2673 - n2673-VNNormalizationGuidelines.pdf, , https://www.unicode.org/irg/docs/n2673-VNNormalizationGuidelines.pdf