[21] 
[DFN[[CITE[大漢和辞典]]]]は、[[漢和辞典]]です。

* 版による違い

[59] [CITE[諸橋大漢和辞典 初版縮写版→修訂版間の差]], [TIME[2024-09-02T23:20:58.000Z]], [TIME[2010-11-22T21:18:10.768Z]] <https://web.archive.org/web/20101122211631/http://hp.vector.co.jp/authors/VA000964/html/daikanwa.htm>

[60] [CITE@ja[Xユーザーのののまるさん: 「今手元の大漢和見たら旧版のせいか「曲」の上に突き出さない字形になってた どのみち「匆」の異体字ですな。」 / X]], [TIME[午後9:25 · 2024年9月2日][2024-09-02T12:25:15.000Z]], [TIME[2024-09-02T22:58:01.000Z]] <https://x.com/nonomaru116/status/1830582762639904873>

4695番


- [61] 
[CITE@ja[Xユーザーのののまるさん: 「そういえばゆうべ、大漢和のこんなやらかし見つけてしまったのだけど、新しい版では直っているのかな? https://t.co/zKXcbpBLtW」 / X]], [TIME[午前10:21 · 2025年3月15日][2025-03-15T01:21:33.000Z]], [TIME[2025-03-16T10:45:47.000Z]] <https://x.com/nonomaru116/status/1900718979888673209>
-- [62] 
[CITE@ja[Xユーザーの白玉庵さん: 「@nonomaru116 修訂第二版では直ってました https://t.co/3Va6rHv1GG」 / X]], [TIME[午後7:17 · 2025年3月16日][2025-03-16T10:17:09.000Z]], [TIME[2025-03-16T10:45:47.000Z]] <https://x.com/Hakugyokuan/status/1901216156847124728>


38436

* 検字番号

[20] [CITE[諸橋大漢和辞典の漢字番号(いわゆる“諸橋コード”)について]], [TIME[2023-07-06T08:46:56.000Z]] <https://web.archive.org/web/20000503104303if_/http://www.zinbun.kyoto-u.ac.jp:80/~ekanji/daikanwa.txt>

[49] 
補巻の番号を[[文字情報基盤]]では「補」を頭につけて区別しています。

[50] 
[[Unihan]] は「H」を頭につけて区別しています。


-*-*-

- [1] [CITE@ja[UCS-GB-[[大漢和]]検字番号等変換表]], [TIME[2022-10-14T06:42:11.000Z]] <https://www.nii.ac.jp/CAT-ILL/INFO/newcat/cjkdic/cjkdic.html>
-- [6] 消滅確認 [TIME[2023-07-01T05:37:44.900Z]]
-- [7] [CITE[UCS-GB-大漢和検字番号等変換表]], [TIME[2023-07-01T05:37:34.000Z]], [TIME[2000-12-05T00:10:39.059Z]] <https://web.archive.org/web/20001205001000/http://www.nii.ac.jp/CAT-ILL/INFO/newcat/cjkdic/cjkdic.html>
--- [9] リンク先一部未所蔵
-- [8] [CITE@ja[UCS-GB-大漢和検字番号等変換表]], [TIME[2023-07-01T05:40:01.000Z]] <https://warp.ndl.go.jp/info:ndljp/pid/12098442/www.nii.ac.jp/CAT-ILL/INFO/newcat/cjkdic/cjkdic.html>
--- [10] リンク先一部未所蔵


[2] >>1

>本表の使用は,目録所在情報サービス参加機関の図書館システム支援に限定します。

なんで

[11] 
>>7 >>8 どちらも「Update: 2000/04/28」ですが、
見比べると途中のある時点で一分内容が削除されています。

[12] >>7

>D形式は,上記フィールドとデータを":"(コロン)で繋ぎ, 1レコード終了後空改行が入る形式です。
>データがなかった場合,当該フィールドは"......"(半角ピリオド6つ)が入ります。
>D形式に関しては, 当研究所宮澤彰教授の [ASIS[page][リンク]] を参照してください。

この3行目の[DFN[D形式]]の参照がなくなっています。

[13] その肝心の[[D形式]]の説明は [[Internet Archive]] にも [[WARP]] にも所蔵されていません。


- [14] [CITE@ja[UCS-GB-大漢和検字番号等変換表]], [TIME[2023-06-26T07:43:57.000Z]], [TIME[2023-07-01T05:49:32.208Z]] <https://catill.bitbucket.io/cjkdic/cjkdic.html>

[15] >>14 が移転先。なぜ移転前サーバーから[[リダイレクト]]しないのか。

[16] >>14 も「Update: 2000/04/28」だが提供ファイルは減っている。

[17] 天下の[[国立情報学研究所]]がこういう雑な仕事してるの悲しくなるなあ。

[18] 国費で制作、維持しているデータですよね?
[[CC]] か[[政府標準利用規約]]で提供してくれればいいのになあ。

[19] そもそも事実関係を書いただけなので権利は発生しないと思うが...


[58] [CITE[目録情報の基準]], [TIME[2023-11-25T03:39:34.000Z]], [TIME[2001-01-25T01:49:55.117Z]] <https://web.archive.org/web/20010125014800/http://www.nii.ac.jp/CAT-ILL/MAN2/KIJUN3/kijun3.11.2.html>

>なお, 大漢和辞典における「'」, 又は「"」のついた検字番号は, 数字のあとに, それぞれ「'」(アポストロフィ), 又は「"」(引用符)を付けて表す。 

-*-*-

[3] [CITE@ja-jp[[[諸橋コード]] ‐ 通信用語の基礎知識]], [TIME[2023-07-01T05:31:54.000Z]] <https://www.wdic.org/w/WDIC/%E8%AB%B8%E6%A9%8B%E3%82%B3%E3%83%BC%E3%83%89>

>
-   e漢字 ‐ 49965〜50476
-    今昔文字鏡 ‐ 文字鏡番号50101〜50614
>
e漢字は「修訂第一版」を採用している。
>
今昔文字鏡は「修訂第二版」を採用している。修訂第二版には'または'__&&'&&__付き文字が516字あるが、うち'無しと重複する2字を除いた514文字分が附番されている。
>
TRONコードでは言語面番号8〜9番が大漢和辞典文字専用の言語面となっているが、'や'__&&'&&__にも連続して番号を振っているため、文字番号と諸橋コードは一致しない。

[4] [CITE@ja[グループ-ノート:諸橋大漢和 - GlyphWiki]], [TIME[2023-07-01T05:33:30.000Z]] <https://glyphwiki.org/wiki/Group-talk:%e8%ab%b8%e6%a9%8b%e5%a4%a7%e6%bc%a2%e5%92%8c>

[25] 
[CITE[[[今昔文字鏡]]]]
は続きの領域に独自の[[文字]]を割り当てていました。

[26] 
[[Unicode]] の [[CJK統合漢字]]の[[出典J]]の[[JK]]はなぜかその[[今昔文字鏡]]の番号と一致しています。
[SEE[ [[JK]] ]]

[27] 
[[ISO/IEC 10036]] の[[グリフ]]識別子には[CITE[今昔文字鏡]]が登録されていて、
[[今昔文字鏡]]の番号 + 10000000 が[[グリフ]]識別子になっています。
つまり[CITE[大漢和辞典]] + 10000000 でもあります。

;; [28] が厳密には[CITE[大漢和辞典]]と[CITE[今昔文字鏡]]は一致していないとされます。
[SEE[ [[今昔文字鏡]] ]]



** [CODE[&M]]

[45] [[SGML]] で、または[[SGML]]風に、
[DFN[[CODE[&M]]]]
から始まる[[文字参照]]構文が使われました。

[44] [CITE[ほら貝:文字コード]], [TIME[2016-08-02T01:43:50.000Z]], [TIME[2023-07-29T02:41:49.511Z]] <http://www.horagai.com/www/moji/int/sat.htm>

>石井 SATは、台湾で『大正大蔵経』の入力を進めているCBETA(中華電子佛典協會)と全面的に協力しあってますが、外字表記についても協議を重ね、今後は、諸橋番号12345番ならハイフン無しの「&M012345;」という固定長6桁の形にして、双方とも共通の表記を使うことになっています。ファイルの先頭のヘッダも、基本的な部分は一緒にする予定です。他の国々の東洋学研究者も、われわれの統一形式を採用する人が増えるでしょう。


;; [46] [CODE[&M]] は[[今昔文字鏡]]でも使われました。

[47] [CITE@ja[SAT: Technical Infomation '''['''gaiji''']''']], [TIME[2023-07-29T03:57:29.000Z]], [TIME[2007-01-08T08:59:24.157Z]] <https://web.archive.org/web/20070108085358/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/gaiji.html>


* 国立国語研究所の符号

[64] [CITE[ほら貝:文字コード]], [TIME[2016-08-02T01:43:50.000Z]], [TIME[2025-10-04T11:34:04.187Z]] <http://www.horagai.com/www/moji/int/saito.htm>

>[SNIP[]]この連絡会に林大先生が参加されていまして、国立国語研究所で新聞の語彙調査のためにコンピュータをいれるにあたり、連絡会を通じてコンピュータがわかる人間を探したようです。たまたま私に白羽の矢が立って、国研にはいることになりました。
> 1965年時点ではまだ学部の4年生だったのですが、10月1日付で辞令が出て、学生のまま所員になり、翌年の3月までに芥川龍之介の「蜘蛛の糸」の語彙総索引をつくるプログラムと新聞記事をサンプリングするプログラムを作りました。このテスト版を動かして問題点を洗いだし、新聞の語彙調査になだれこんでいきます。

>
斎藤 そうです。入出力には沖電気の漢字テレタイプライタというものを使っていたのですが、600のキーのある巨大なキーボードで、一つのキーに四つの漢字が割りあててありました。ペダルが左右にありまして、ペダルを踏まない状態でキーを押すと、四つの内、一番使用頻度の高い字、右のペダルだと二番目に使用頻度の高い字、左のペダルだと三番目に使用頻度の高い字、両足のペダルを踏むと使用頻度の一番低い字が入力されました。つまり、600×4で2400字が入力できたわけです。数字や記号、かななど非漢字がありましたから、漢字は2111字だったと思います。

>
斎藤 それは最初から織りこみ済みです。理論的には20万字の表外字を管理できる仕組をシステムに組みこんでありますので。
>[SNIP[]]これは、所員の松本が考えたものですが、『大漢和辞典』の検字番号を表外字として使うものです。表外字の符号化には『大漢和辞典』そのものをコードブックに使ってしまったのです。

>
[PRE[
斎藤 そうです。「◇」を表外字であることを示す識別符号にし、その後ろに漢字二字をつづけることによって、表外字一字をあらわします。
 大漢和辞典で部首「人」をもつ漢字の検字番号は、344番からはじまりますが、部首の基準番号450単位に、300番、750番、1250番と決め、 これに9番目、10番目、11番目の盤面漢字、「月」、「建」 、「見」を当てます。同様に、表外字の2文字目にも、基準番号を引いた値に対応する盤面漢字を当てます。
 例えば、「倆」の検字番号は751ですが、基準番号750に対応する漢字「建」と差「1」に対応する盤面漢字「計」を当て、「建+計」となります。
倆 = ◇建計
│  ││└── 部首内の番号を示す符号
│  │└─── 部首を示す符号
│  └──── 外字であることを示す符号
└─────── 外字
]PRE]

>
斎藤 印字できるようになったのは、NECと国研が共同開発した高速漢字プリンタが1975年に完成してからで、それまでは符号列の形でしか出力できませんでした。外字活字を自分で鋳造するなんていうことは不可能でした。しかし、字と符号列の関係をきちっと定義したコードブックさえあれば、最終的に字の確認はできますし、統計をとることも可能です。すぐに字の形で見えるかどうかという問題だけで、理論コードの上では内字も外字もないのです。

>
斎藤 印字する際にはNECのコードに変換しましたが、理論コードは維持しました。めんどくさいからやめるべきだとおっしゃる先生も所内にいらっしゃいましたが、しかし、結果的に廃止しなくて正解でした。高速漢字プリンタの後でJIS X 0208ができましたし、0208は1983年に例の改正をやっています。国研では『大漢和』をもとにした理論コードを絶対規範にしていたおかげで、コード系の変化に影響されずにすみました。

>
斎藤 現在は「構造化4バイトコード」という形に進化しています。最初の3バイトで『大漢和』の検字番号をあらわし、表外字の見出しに使っています。また、1バイトは枝番として、新たに追加された異体字をあらわします。字体のバリエーションを最後のバイトに局所化することによって、見出し字とコードの関係を安定させることができます。

> 実際はこれだけではなく、既存の2バイト漢字コードを識別符号で統合したコードと、内部処理用コードという三種類のコードを同一構造にかさねています。

>
斎藤 漢字データベースに発展し、すこしづつ進歩しています。最初は三文字の漢字列と『大漢和』の見出し字の二項目だけでコードブックを作りましたが、『新字源』や『大字源』などの漢和辞典の情報を付加する形で拡張していき、現在、41項目の情報がはいっています。部首や画数はもちろんですが、常用漢字であるか人名用漢字であるか、過去の用字用語調査でえられた出現度数、JISの区点番号、JISの改訂履歴などもはいっています。さらに、用字用語調査の用例を呼びだせます。こうしたデータは私だけが作ったのではなく、国研の各セクションで蓄積したデータを集約したものです。




* Unicode との対応

- [30] [[漢字データベースプロジェクト]]
-- [35] 
[CITE@ja[大漢和辞典データベース]], [TIME[2014-07-31T06:16:06.000Z]], [TIME[2023-07-23T13:52:54.126Z]] <https://kanji-database.sourceforge.net/dict/daikanwa/index.html>

[36] ダッシュ付き、二重ダッシュ付き、補巻あり。
版による違いの情報あり。

-*-*-

[23] [[文字情報基盤]]

[34] 
[[文字情報基盤]]のデータにはダッシュ付きの値が入っていません。

[37] 
>>34 データがないのではなく「ダッシュが」入っていないようで(絶望)

[38] 
それどころか補巻の番号も本体と区別なく入ってるぞ...

- 
[39] 
[CITE[大漢和辞典 UCS符号位置対応表]] バージョン: 0.1.0,
[[武藤圭祐]],
作成日: 2016-08-30,
[TIME[2020-01-23T07:05:37.000Z]], [TIME[2023-07-24T07:46:15.121Z]] <https://moji.or.jp/wp-content/mojikiban/lab/xb3428/daikanwa-ucs.txt>


[40] 
[[文字情報基盤]]本体ではなく「[[モジラボ]]」で公開されている >>39
の方はダッシュ、二重ダッシュ、補巻が正常に区別されています。

[41] 
ただこちらは古い版なので、作成日より後に [[Unicode]] に入った[[文字]]が
[[CJK統合漢字]]拡張Fの番号か [[IDS]] になっています。
また、
対応先が[[MJ文字図形]]でなく [[UCS]] [[符号位置]]です
([[MJ文字図形]]ほど[[粒度][包摂規準]]が細かくありません)。

[43] 
このファイルは[[クリエイティブ・コモンズ 表示 4.0 国際 ライセンス]]で提供されています
[SRC[>>39]]。


[FIG(data)[ [42] [[文字関係]]

:key: [DFN[[CODE[mj:daikanwa-ucs]]]]
:desc:
[CODE[daikanwa-ucs.txt]] の [[UCS]] [[符号位置]]。

]FIG]

[FIG(data)[ [48] [[文字関係]]

:key: [DFN[[CODE[mj:ids:contains]]]]
:desc:
[CODE[daikanwa-ucs.txt]] の[CITE[大漢和辞典]]文字から [[IDS]] の構成[[漢字]]へ。

]FIG]

[FIG(data)[ [51] [[文字関係]]

:key: [DFN[[CODE[unihan3.0:kMorohashi]]]]
:desc:
[[Unihan]] 
[CODE[kMorohashi]]
([[Unicode 3.0]])。

]FIG]
[FIG(data)[ [52] [[文字関係]]

:key: [DFN[[CODE[unihan3.0:kAlternateMorohashi]]]]
:desc:
[[Unihan]] 
[CODE[kAlternateMorohashi]]
([[Unicode 3.0]])。

]FIG]
[FIG(data)[ [53] [[文字関係]]

:key: [DFN[[CODE[unihan15:kMorohashi]]]]
:desc:
[[Unihan]] 
[CODE[kMorohashi]]
([[Unicode]] 15.0)。

]FIG]
[FIG(data)[ [54] [[文字関係]]

:key: [DFN[[CODE[unihan15:kIRGDaiKanwaZiten]]]]
:desc:
[[Unihan]] 
[CODE[kIRGDaiKanwaZiten]]
([[Unicode]] 15.0)。

]FIG]
[FIG(data)[ [55] [[文字関係]]

:key: [DFN[[CODE[unihan:kMorohashi]]]]
:desc:
[[Unihan]] 
[CODE[kMorohashi]]。

]FIG]


-*-*-

[22] [CITE@en-us[UAX #38: Unicode Han Database (Unihan)]], [TIME[2022-09-12T17:16:37.000Z]], [TIME[2023-07-23T07:26:39.683Z]] <https://www.unicode.org/reports/tr38/#kMorohashi>

>The edition used is the revised edition, published in Tokyo by Taishūkan Shoten, 1986.

[24] 昔は [DFN[[CODE[kAlternateMorohashi]]]] もありました。

[29] [[Unihan]] のデータは品質がよくないという噂。

[31] 
古い [[Unihan]] だと値が [CODE[00000]] や [CODE[99999]] のものがあります。
ダッシュ付きの値がありません。

[32] 
最近の [[Unihan]] だとそのような値は入っていません。
ダッシュ付きの値もあります。二重ダッシュ付きの値はありません。

[33] 
最近といってもほとんどは [[URO]] で、それ以後の追加漢字にはほぼ
[CODE[kMorohashi]] が無いです。

[56] 
というのが [[Unicode]] 15.0 までの状況。

[57] 
[[Unicode]] 15.1 からは[[文字情報基盤]]ベースの情報に差し替えれれています。
[[文字情報基盤]]の一般公開版の壊れたデータではなく、
オリジナルデータがベースになっているようです。

* IDSデータ

[SEE[ [[IDS]] ]]

* メモ

[5] [CITE@ja[大漢和辞典 - Wikipedia]], [TIME[2023-06-16T14:18:46.000Z]], [TIME[2023-07-01T05:33:40.413Z]] <https://ja.wikipedia.org/wiki/%E5%A4%A7%E6%BC%A2%E5%92%8C%E8%BE%9E%E5%85%B8>

[63] 
[CITE@ja-JP[64画の漢字「𪚥」が「テツ」と誤読されるようになった経緯|nkay]], [TIME[2025-04-10T02:13:25.000Z]] <https://note.com/nkay/n/n6d985423a1ae?sub_rt=share_pb>
