包摂規準

[27] ある文字とある文字が同じ文字かどうかは、簡単なようでいてとても難しい問題です。

[28] 文字の取扱いに関する問題のすべてではないにせよかなりのものが、文字の弁別、同定に関する見解の相違に起因しています。

[29] 日本では漢字について問題となることが多いですが、漢字に限らずすべての文字に本質的について回る問題です。

[30] 日本政府の漢字政策では、デザイン差と称して漢字の字形の揺れの範囲を説明しています。

[31] JIS X 0208 などの JIS の符号化文字集合では、包摂規準と称して同じ面区点位置で表現可能な文字の範囲を記述しています。

[32] Unicode の CJK統合漢字は類似した字形と判断される漢字を同じ符号位置に統合するいわゆる漢字統合によって東アジア諸国の異なる字形の漢字を統一的に扱っています。

[33] 古文書等の手書きの文章を明朝体等の活字やテキストデータに翻刻する際は、一定範囲の字形の違いや揺れは無視して標準的な字体に統一することになります。

[1] 包摂規準

使用上の注意事項 (当用漢字字体表)
字体についての解説 (旧常用漢字表)
表外漢字における字体の違いとデザインの違い (表外漢字字体表)
字体についての解説 (平成22年常用漢字表)
常用漢字表の字体・字形に関する指針(報告)(案)
包摂規準 (JIS X 0208:1997)
互換包摂
包摂規準 (JIS X 0213:2000)
包摂規準 (JIS X 0213:2004)
同定基準【原案】
包摂基準書
Procedure for the unification and arrangement of CJK Ideographs (ISO/IEC 10646)
UCV / NUCV
ROK Normalization Rule
UTS #37
榜𡨸漢喃準常用
文字包摂ガイドライン

[34] 標準的な文字コードの規格や実装にないからと外字が使われる場合でも、本当にまったく表現できないことはそれほど多くなくて、既存の文字の標準的な字形とは異なる字形が外字として表現されることが多いです。これは文字コード規格やフォント等の実装で対応可能な文字の弁別の粒度や同一視の基準と、利用者のそれらが一致していないことの現れと言えます。

[35] 例えば JIS X 0208 が使われる環境で髙や𠮷が外字として追加されることが多いのですが、 JIS X 0208 という符号化文字集合ではこれらは高や吉と包摂されています。

[36] これは別に JIS X 0208 が髙という文字を認めていないわけでも、 髙は高と表示するべきと主張しているわけでもなく、ただ文字コード層としては高と髙を区別する必要はないという設計思想だっただけのことです。

[37] 文字コードとは別の技術により高と髙を (必要があれば) 区別すればよい、という考え方だったはずですが、実際にはそのような技術が開発され普及することはなく、 髙がないから外字で追加しようという解決策が採られたのです。

[38] 本来なら髙が外字としてよく使われているとわかった時点で包摂規準を改めて、多くの利用者の認識と一致するようにするべきだったのでしょう。

[39] 文字コード規格が異体字を区別しているからといって、その文字コードを使ったテキストデータはすべてそれに従わなければならないということを意味しません。

[40] 古文書の翻刻では、いろいろな方針がありますが、常用漢字の異体字はすべて常用漢字表の字体に統一する、という方針を採ることがよくあります。これに従えば万と萬は原文の記載がこのどちらであれ、 万に統一することになります。

[41] このような統一化の基準は JIS X 0208 や Unicode の文字統合基準とは明らかに異なっていますが、だからそのような翻刻データを JIS X 0208 や Unicode で表現できないということにはなりません。

[42] 文字の同定の程度、区別の粒度がどのくらいであるべきかは、その応用が求める要件によって変わってくるもので、万能の基準が1つあればいいというものでもありません。

[43] 学術目的に限っても、異体字の研究に用いるデータは比較的細かな差異まで反映されたものが好ましいですが、一般の文献史学のためのデータは常用漢字に統一されていてもあまり困りません。
[44] 自治体の人名データは政府の定める基準に従った正確な表記が求められますが、小売店の会員データベースの人名はそこまでの厳密さを誰も求めていません。
[45] 漢字教育では、発達の程度に応じた漢字の指導が求められています。最終的には社会一般で通用する字形の揺れに適応可能な能力を獲得するべきであるとはいえ、低学年の児童に対しては教科書体の字形を強く意識した指導が好ましいといえるでしょう。
[46] 発音記号では a と ɑ は区別されますが、それ以外の分野では普通区別されません。