[27] ある文字とある文字が同じ文字かどうかは、簡単なようでいてとても難しい問題です。
[28] 文字の取扱いに関する問題のすべてではないにせよかなりのものが、 文字の弁別、同定に関する見解の相違に起因しています。
[29] 日本では漢字について問題となることが多いですが、 漢字に限らずすべての文字に本質的について回る問題です。
[30] 日本政府の漢字政策では、デザイン差と称して漢字の字形の揺れの範囲を説明しています。
[31] JIS X 0208 などの JIS の符号化文字集合では、 包摂規準と称して同じ面区点位置で表現可能な文字の範囲を記述しています。
[32] Unicode の CJK統合漢字は類似した字形と判断される漢字を同じ符号位置に統合するいわゆる漢字統合によって東アジア諸国の異なる字形の漢字を統一的に扱っています。
[33] 古文書等の手書きの文章を明朝体等の活字やテキストデータに翻刻する際は、 一定範囲の字形の違いや揺れは無視して標準的な字体に統一することになります。
[2] 関連: JIS X 0208, JIS X 0213, CJK統合漢字, 例示字形, CHISE, 翻刻, 縮退, g (コーパス), 比較, 異体字, 異体字シソーラス, 引用による改変, 同定する, 中華フォント, 外字, 非互換変更
[34] 標準的な文字コードの規格や実装にないからと外字が使われる場合でも、 本当にまったく表現できないことはそれほど多くなくて、 既存の文字の標準的な字形とは異なる字形が外字として表現されることが多いです。 これは文字コード規格やフォント等の実装で対応可能な文字の弁別の粒度や同一視の基準と、 利用者のそれらが一致していないことの現れと言えます。
[35] 例えば JIS X 0208 が使われる環境で髙
や𠮷
が外字として追加されることが多いのですが、
JIS X 0208 という符号化文字集合ではこれらは高
や吉
と包摂されています。
[36]
これは別に JIS X 0208 が髙
という文字を認めていないわけでも、
髙
は高
と表示するべきと主張しているわけでもなく、
ただ文字コード層としては高
と髙
を区別する必要はないという設計思想だっただけのことです。
[37]
文字コードとは別の技術により高
と髙
を (必要があれば) 区別すればよい、
という考え方だったはずですが、実際にはそのような技術が開発され普及することはなく、
髙
がないから外字で追加しようという解決策が採られたのです。
[38]
本来なら髙
が外字としてよく使われているとわかった時点で包摂規準を改めて、
多くの利用者の認識と一致するようにするべきだったのでしょう。
[39] 文字コード規格が異体字を区別しているからといって、 その文字コードを使ったテキストデータはすべてそれに従わなければならないということを意味しません。
[40]
古文書の翻刻では、いろいろな方針がありますが、
常用漢字の異体字はすべて常用漢字表の字体に統一する、
という方針を採ることがよくあります。
これに従えば万
と萬
は原文の記載がこのどちらであれ、
万
に統一することになります。
[41] このような統一化の基準は JIS X 0208 や Unicode の文字統合基準とは明らかに異なっていますが、 だからそのような翻刻データを JIS X 0208 や Unicode で表現できないということにはなりません。
[42] 文字の同定の程度、区別の粒度がどのくらいであるべきかは、その応用が求める要件によって変わってくるもので、 万能の基準が1つあればいいというものでもありません。
a
と ɑ
は区別されますが、
それ以外の分野では普通区別されません。>>3 #page=32
(汎用電子)
[3]
[24] 一旦包摂・統合されることに決まったものを改めることを包摂分離・統合分離 (disunification) といいます。非互換変更の一種です。
[1] Disunification の事情
[4] ISO/IEC JTC 1/SC 2/WG 2 N2987 http://std.dkuug.dk/jtc1/sc2/wg2/docs/N2987.pdf
[5] しかしどう言ってみたところで非互換変更には違いない。
[6] Wayback Machine, https://web.archive.org/web/20221010072230/https://clrd.ninjal.ac.jp/cmj/doc/04sunaga.pdf
[7] ggg_v0.9.1.pdf, , https://www.chise.org/specs/ggg_v0.9.1.pdf
[14] chpg98-m.dvi - mt-gene.pdf, , https://www.joao-roiz.jp/mtoyo/on-JCS/mt-gene.pdf#page=2
[8] 99asa-ma.dvi - 99asa-ma.pdf, , https://joao-roiz.jp/mtoyo/on-JCS/99asa-ma.pdf
[10] 「六万四千漢字」への批評、あるいは問いかけ, , http://www.teisensha.com/gtmincho.htm
[12] ゆたかな文字文化を創りあげるために, , http://www.l.u-tokyo.ac.jp/KanjiWEB/01_02.html
テクストは文字の集合
[13] 東京大学総合研究博物館 デジタルミュージアム展, , https://umdb.um.u-tokyo.ac.jp/DPastExh/Publish_db/1997DM/DM_CD/DM_TECH/KAN_PRJ/HOME.HTM#8
[15] Xユーザーの日経 校閲さん: 「【柿・杮】 よく似ていますが「市」の部分が異なります。縦棒が突き抜けない左が「かき」で、突き抜ける右が「こけら」とされます。ただし、JIS規格ではこの2字は包摂されており、左の「柿」のほうで「かき」と「こけら」の両方を表すことになっています。 #そっくり漢字 https://t.co/CJm3cfW1jN」 / X, , https://x.com/nikkei_kotoba/status/1810154339396120817
[16] >>15 部分部分を取り出すと正しいことをいっているのに、全体として誤解しか産まない著しく不適切な投稿。 このような意味の通らない言葉の使い方を避けることこそ「校閲」に期待される役割ではないのか。 これでは
柿
と杮
という文字柿
と杮
を区別する JIS X 0208-1990 + JIS X 0212-1990柿
と杮
を区別する JIS X 0221のすべてに対して正しい知識の普及を阻害しており関係者に対する敬意を欠くと言わざるを得ない。
[22] 日経の紙面で区別されるのかも気になるなあw
[23] ところで JIS X 0221 こと Unicode のK字形は柿
と杮
のどちらも市
になっててしびれますなあw
[25] IRGN2673.v2 - n2673.pdf, , https://www.unicode.org/irg/docs/n2673.pdf
[26] IRGN2673.v2 - n2673-VNNormalizationGuidelinesV2.pdf, , https://www.unicode.org/irg/docs/n2673-VNNormalizationGuidelinesV2.pdf
[47] IRGN2673 - n2673-VNNormalizationGuidelines.pdf, , https://www.unicode.org/irg/docs/n2673-VNNormalizationGuidelines.pdf