[27] 
ある[[文字]]とある[[文字]]が同じ[[文字]]かどうかは、簡単なようでいてとても難しい問題です。

[28] 
[[文字]]の取扱いに関する問題のすべてではないにせよかなりのものが、
[[文字]]の弁別、[[同定]]に関する見解の相違に起因しています。

[29] 
[[日本]]では[[漢字]]について問題となることが多いですが、
[[漢字]]に限らずすべての[[文字]]に本質的について回る問題です。

[30] 
[[日本政府]]の[[漢字政策]]では、[DFN[デザイン差]]と称して[[漢字]]の[[字形]]の揺れの範囲を説明しています。

[31] 
[[JIS X 0208]] などの [[JIS]] の[[符号化文字集合]]では、
[DFN[包摂規準]]と称して同じ[[面区点位置]]で表現可能な[[文字]]の範囲を記述しています。

[32] 
[[Unicode]] の [[CJK統合漢字]]は類似した[[字形]]と判断される[[漢字]]を同じ[[符号位置]]に統合するいわゆる[[漢字統合]]によって[[東アジア]]諸国の異なる[[字形]]の[[漢字]]を統一的に扱っています。

[33] 
[[古文書]]等の[[手書き]]の[[文章]]を[[明朝体]]等の[[活字]]や[[テキストデータ]]に[[翻刻]]する際は、
一定範囲の[[字形]]の違いや揺れは無視して標準的な[[字体]]に統一することになります。



[FIG(middle list)[ [1] [[包摂規準]]
- [CSECTION[使用上の注意事項]] ([CITE[[[当用漢字字体表]]]])
- [CSECTION[字体についての解説]] (旧[CITE[[[常用漢字表]]]])
- [CSECTION[表外漢字における字体の違いとデザインの違い]] ([CITE[[[表外漢字字体表]]]])
- [CSECTION[字体についての解説]] (平成22年[CITE[[[常用漢字表]]]])
- [CITE[[[常用漢字表の字体・字形に関する指針(報告)(案)]]]]
- [[包摂規準]] ([[JIS X 0208:1997]])
- [[互換包摂]]
- [[包摂規準]] ([[JIS X 0213:2000]])
- [[包摂規準]] ([[JIS X 0213:2004]])
- [CITE[[[同定基準【原案】]]]]
- [CITE[[[包摂基準書]]]]
- [CSECTION[[[Procedure for the unification and arrangement of CJK Ideographs]]]] ([[ISO/IEC 10646]])
- [[UCV]] / [[NUCV]]
- [[ROK Normalization Rule]]
- [[UTS #37]]
- [CITE[[[榜𡨸漢喃準常用]]]]
- [CITE[[[文字包摂ガイドライン]]]]

]FIG]

[2] 関連:
[[JIS X 0208]],
[[JIS X 0213]],
[[CJK統合漢字]],
[[例示字形]],
[[CHISE]],
[[翻刻]],
[[縮退]],
[[g (コーパス)]],
[[比較]],
[[異体字]],
[[異体字シソーラス]],
[[引用による改変]],
[[同定する]],
[[中華フォント]],
[[外字]],
[[非互換変更]]


[34] 
標準的な[[文字コード]]の規格や実装にないからと[[外字]]が使われる場合でも、
本当にまったく表現できないことはそれほど多くなくて、
既存の[[文字]]の標準的な[[字形]]とは異なる[[字形]]が[[外字]]として表現されることが多いです。
これは[[文字コード]]規格や[[フォント]]等の実装で対応可能な[[文字]]の弁別の粒度や同一視の基準と、
[[利用者]]のそれらが一致していないことの現れと言えます。

[EG[

[35] 例えば [[JIS X 0208]] が使われる環境で[CH[髙]]や[CH[𠮷]]が[[外字]]として追加されることが多いのですが、
[[JIS X 0208]] という[[符号化文字集合]]ではこれらは[CH[高]]や[CH[吉]]と[[包摂]]されています。

[36] 
これは別に [[JIS X 0208]] が[CH[髙]]という[[文字]]を認めていないわけでも、
[CH[髙]]は[CH[高]]と表示するべきと主張しているわけでもなく、
ただ[[文字コード]]層としては[CH[高]]と[CH[髙]]を区別する必要はないという設計思想だっただけのことです。

[37] 
[[文字コード]]とは別の技術により[CH[高]]と[CH[髙]]を (必要があれば) 区別すればよい、
という考え方だったはずですが、実際にはそのような技術が開発され普及することはなく、
[CH[髙]]がないから[[外字]]で追加しようという解決策が採られたのです。

[38] 
本来なら[CH[髙]]が[[外字]]としてよく使われているとわかった時点で[[包摂規準]]を改めて、
多くの[[利用者]]の認識と一致するようにするべきだったのでしょう。

]EG]

[EG[

[39] 
[[文字コード]]規格が[[異体字]]を区別しているからといって、
その[[文字コード]]を使った[[テキストデータ]]はすべてそれに従わなければならないということを意味しません。

[40] 
[[古文書]]の[[翻刻]]では、いろいろな方針がありますが、
[[常用漢字]]の[[異体字]]はすべて[CITE[常用漢字表]]の[[字体]]に統一する、
という方針を採ることがよくあります。
これに従えば[CH[万]]と[CH[萬]]は原文の記載がこのどちらであれ、
[CH[万]]に統一することになります。

[41] 
このような統一化の基準は [[JIS X 0208]] や [[Unicode]] の文字統合基準とは明らかに異なっていますが、
だからそのような[[翻刻]]データを [[JIS X 0208]] や [[Unicode]]
で表現できないということにはなりません。

]EG]

[42] 
[[文字]]の同定の程度、区別の粒度がどのくらいであるべきかは、その[[応用]]が求める要件によって変わってくるもので、
万能の基準が1つあればいいというものでもありません。

- [43] 学術目的に限っても、
[[異体字]]の研究に用いるデータは比較的細かな差異まで反映されたものが好ましいですが、
一般の[[文献史学]]のためのデータは[[常用漢字]]に統一されていてもあまり困りません。
- [44] [[自治体]]の[[人名]]データは[[政府]]の定める基準に従った正確な表記が求められますが、
[[小売店]]の会員データベースの[[人名]]はそこまでの厳密さを誰も求めていません。
- [45] 
[[漢字教育]]では、発達の程度に応じた[[漢字]]の指導が求められています。
最終的には社会一般で通用する[[字形]]の揺れに適応可能な能力を獲得するべきであるとはいえ、
[[低学年]]の[[児童]]に対しては[[教科書体]]の[[字形]]を強く意識した指導が好ましいといえるでしょう。
- [46] 
[[発音記号]]では [CH[a]] と [CH[ɑ]] は区別されますが、
それ以外の分野では普通区別されません。


[9] 
[DFN[[CITE[[L[同定基準【原案】]]]]]],
[L[2004.10.21]]

>>3 #page=32

([[汎用電子]])

[3] 
[DFN[[CITE[[L[包摂基準書]]]]]],
[L[平成 24 年 3 月]], [TIME[2020-03-18T18:19:12.000Z]], [TIME[2020-11-15T07:24:27.075Z]] <https://www.soumu.go.jp/main_content/000157024.pdf>

[24] 
一旦[[包摂]]・[[統合]]されることに決まったものを改めることを[DFN[包摂分離]]・[DFN[統合分離]]
([DFN[disunification]])
といいます。[[非互換変更]]の一種です。

- [[JIS X 0208:1997]] → [[JIS X 0213:2000]] 
- [[JIS X 0213:2000]] → [[JIS X 0213:2004]]
- [[Unicode]] の改正 (しばしばある)


[1]
Disunification の事情

[4] ISO/IEC JTC 1/SC 2/WG 2 N2987
<http://std.dkuug.dk/jtc1/sc2/wg2/docs/N2987.pdf>

[5] 
しかしどう言ってみたところで[[非互換変更]]には違いない。



[6] [CITE[Wayback Machine]], [TIME[2022-10-10T07:24:11.000Z]] <https://web.archive.org/web/20221010072230/https://clrd.ninjal.ac.jp/cmj/doc/04sunaga.pdf>

-[7] [CITE[ggg_v0.9.1.pdf]], [TIME[2016-03-13T05:46:55.000Z]], [TIME[2022-10-10T07:28:02.846Z]] <https://www.chise.org/specs/ggg_v0.9.1.pdf>
- [48] 
[CITE@ja[chise-format.pdf]], [TIME[2017-08-21T17:18:54.000Z]], [TIME[2026-01-24T06:11:28.413Z]] <https://www.chise.org/specs/chise-format.pdf>

[14] [CITE@ja[chpg98-m.dvi - mt-gene.pdf]], [TIME[2000-03-13T16:27:49.000Z]], [TIME[2024-06-07T02:36:02.731Z]] <https://www.joao-roiz.jp/mtoyo/on-JCS/mt-gene.pdf#page=2>


[8] [CITE[99asa-ma.dvi - 99asa-ma.pdf]], [TIME[2001-03-06T01:47:12.000Z]], [TIME[2023-04-11T03:36:32.923Z]] <https://joao-roiz.jp/mtoyo/on-JCS/99asa-ma.pdf>

[10] [CITE[「六万四千漢字」への批評、あるいは問いかけ]], [TIME[2018-05-29T21:57:17.000Z]], [TIME[2024-06-07T02:30:13.510Z]] <http://www.teisensha.com/gtmincho.htm>

[11] >>10 が言及しているのは:

[12] [CITE[ゆたかな文字文化を創りあげるために]], [TIME[2000-12-18T03:43:38.000Z]], [TIME[2024-06-07T02:31:28.512Z]] <http://www.l.u-tokyo.ac.jp/KanjiWEB/01_02.html>

>テクストは文字の集合

[13] [CITE[東京大学総合研究博物館 デジタルミュージアム展]], [TIME[2023-10-13T01:52:54.000Z]], [TIME[2024-06-07T02:31:56.699Z]] <https://umdb.um.u-tokyo.ac.jp/DPastExh/Publish_db/1997DM/DM_CD/DM_TECH/KAN_PRJ/HOME.HTM#8>


[15] 
[CITE@ja[Xユーザーの日経 校閲さん: 「【柿・杮】 よく似ていますが「市」の部分が異なります。縦棒が突き抜けない左が「かき」で、突き抜ける右が「こけら」とされます。ただし、JIS規格ではこの2字は包摂されており、左の「柿」のほうで「かき」と「こけら」の両方を表すことになっています。 #そっくり漢字 https://t.co/CJm3cfW1jN」 / X]], [TIME[午後0:30 · 2024年7月8日][2024-07-08T03:30:00.000Z]], [TIME[2024-07-09T02:25:21.000Z]] <https://x.com/nikkei_kotoba/status/1810154339396120817>

[16] >>15 部分部分を取り出すと正しいことをいっているのに、全体として誤解しか産まない著しく不適切な投稿。
このような意味の通らない言葉の使い方を避けることこそ「校閲」に期待される役割ではないのか。
これでは

- [21] [CH[柿]]と[CH[杮]]という文字
- [17] [[包摂]]という概念
- [18] [[包摂規準]]を整理明確化した [[JIS X 0208:1997]]
- [19] 「かき」と「こけら」の歴史的関係を遡って調査した [[JIS X 0208:1997]]
- [20] [CH[柿]]と[CH[杮]]を区別する [[JIS X 0208-1990]] + [[JIS X 0212-1990]]
- [20] [CH[柿]]と[CH[杮]]を区別する [[JIS X 0221]]

のすべてに対して正しい知識の普及を阻害しており関係者に対する敬意を欠くと言わざるを得ない。

[22] 日経の紙面で区別されるのかも気になるなあw

[23] ところで [[JIS X 0221]] こと [[Unicode]] の[[K字形]]は[CH[柿]]と[CH[杮]]のどちらも[CH[市]]になっててしびれますなあw





[25] 
[CITE@ja[IRGN2673.v2 - n2673.pdf]], [TIME[2024-07-11T21:00:14.000Z]], [TIME[2024-07-25T05:15:20.583Z]] <https://www.unicode.org/irg/docs/n2673.pdf>

[26] [CITE@ja[IRGN2673.v2 - n2673-VNNormalizationGuidelinesV2.pdf]], [TIME[2024-08-25T16:41:59.000Z]], [TIME[2024-09-06T05:54:00.698Z]] <https://www.unicode.org/irg/docs/n2673-VNNormalizationGuidelinesV2.pdf>

[47] 
[CITE@ja[IRGN2673 - n2673-VNNormalizationGuidelines.pdf]], [TIME[2024-09-11T12:14:34.000Z]], [TIME[2024-11-19T03:46:03.348Z]] <https://www.unicode.org/irg/docs/n2673-VNNormalizationGuidelines.pdf>
