mj:ids:contains

大漢和辞典

[21] 大漢和辞典は、漢和辞典です。

版による違い

[59] 諸橋大漢和辞典 初版縮写版→修訂版間の差, , https://web.archive.org/web/20101122211631/http://hp.vector.co.jp/authors/VA000964/html/daikanwa.htm

[60] Xユーザーのののまるさん: 「今手元の大漢和見たら旧版のせいか「曲」の上に突き出さない字形になってた どのみち「匆」の異体字ですな。」 / X, , https://x.com/nonomaru116/status/1830582762639904873

4695番

検字番号

[20] 諸橋大漢和辞典の漢字番号(いわゆる“諸橋コード”)について, https://web.archive.org/web/20000503104303if_/http://www.zinbun.kyoto-u.ac.jp:80/~ekanji/daikanwa.txt

[49] 補巻の番号を文字情報基盤では「補」を頭につけて区別しています。

[50] Unihan は「H」を頭につけて区別しています。


[2] >>1

本表の使用は,目録所在情報サービス参加機関の図書館システム支援に限定します。

なんで

[11] >>7 >>8 どちらも「Update: 2000/04/28」ですが、 見比べると途中のある時点で一分内容が削除されています。

[12] >>7

D形式は,上記フィールドとデータを":"(コロン)で繋ぎ, 1レコード終了後空改行が入る形式です。

データがなかった場合,当該フィールドは"......"(半角ピリオド6つ)が入ります。

D形式に関しては, 当研究所宮澤彰教授の pageリンク を参照してください。

この3行目のD形式の参照がなくなっています。

[13] その肝心のD形式の説明は Internet Archive にも WARP にも所蔵されていません。

[15] >>14 が移転先。なぜ移転前サーバーからリダイレクトしないのか。

[16] >>14 も「Update: 2000/04/28」だが提供ファイルは減っている。

[17] 天下の国立情報学研究所がこういう雑な仕事してるの悲しくなるなあ。

[18] 国費で制作、維持しているデータですよね? CC政府標準利用規約で提供してくれればいいのになあ。

[19] そもそも事実関係を書いただけなので権利は発生しないと思うが...

[58] 目録情報の基準, , https://web.archive.org/web/20010125014800/http://www.nii.ac.jp/CAT-ILL/MAN2/KIJUN3/kijun3.11.2.html

なお, 大漢和辞典における「'」, 又は「"」のついた検字番号は, 数字のあとに, それぞれ「'」(アポストロフィ), 又は「"」(引用符)を付けて表す。


[3] 諸橋コード ‐ 通信用語の基礎知識, https://www.wdic.org/w/WDIC/%E8%AB%B8%E6%A9%8B%E3%82%B3%E3%83%BC%E3%83%89

  • e漢字 ‐ 49965〜50476
  • 今昔文字鏡 ‐ 文字鏡番号50101〜50614

e漢字は「修訂第一版」を採用している。

今昔文字鏡は「修訂第二版」を採用している。修訂第二版には'または''付き文字が516字あるが、うち'無しと重複する2字を除いた514文字分が附番されている。

TRONコードでは言語面番号8〜9番が大漢和辞典文字専用の言語面となっているが、'や''にも連続して番号を振っているため、文字番号と諸橋コードは一致しない。

[4] グループ-ノート:諸橋大漢和 - GlyphWiki, https://glyphwiki.org/wiki/Group-talk:%e8%ab%b8%e6%a9%8b%e5%a4%a7%e6%bc%a2%e5%92%8c

[25] 今昔文字鏡 は続きの領域に独自の文字を割り当てていました。

[26] UnicodeCJK統合漢字出典JJKはなぜかその今昔文字鏡の番号と一致しています。 JK

[27] ISO/IEC 10036グリフ識別子には今昔文字鏡が登録されていて、 今昔文字鏡の番号 + 10000000 がグリフ識別子になっています。 つまり大漢和辞典 + 10000000 でもあります。

[28] が厳密には大漢和辞典今昔文字鏡は一致していないとされます。 今昔文字鏡

&M

[45] SGML で、またはSGML風に、 &M から始まる文字参照構文が使われました。

[44] ほら貝:文字コード, , http://www.horagai.com/www/moji/int/sat.htm

石井 SATは、台湾で『大正大蔵経』の入力を進めているCBETA(中華電子佛典協會)と全面的に協力しあってますが、外字表記についても協議を重ね、今後は、諸橋番号12345番ならハイフン無しの「&M012345;」という固定長6桁の形にして、双方とも共通の表記を使うことになっています。ファイルの先頭のヘッダも、基本的な部分は一緒にする予定です。他の国々の東洋学研究者も、われわれの統一形式を採用する人が増えるでしょう。

[46] &M今昔文字鏡でも使われました。

[47] SAT: Technical Infomation [gaiji], , https://web.archive.org/web/20070108085358/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/gaiji.html

Unicode との対応

[36] ダッシュ付き、二重ダッシュ付き、補巻あり。 版による違いの情報あり。


[23] 文字情報基盤

[34] 文字情報基盤のデータにはダッシュ付きの値が入っていません。

[37] >>34 データがないのではなく「ダッシュが」入っていないようで(絶望)

[38] それどころか補巻の番号も本体と区別なく入ってるぞ...

[40] 文字情報基盤本体ではなく「モジラボ」で公開されている >>39 の方はダッシュ、二重ダッシュ、補巻が正常に区別されています。

[41] ただこちらは古い版なので、作成日より後に Unicode に入った文字CJK統合漢字拡張Fの番号か IDS になっています。 また、 対応先がMJ文字図形でなく UCS 符号位置です (MJ文字図形ほど粒度が細かくありません)。

[43] このファイルはクリエイティブ・コモンズ 表示 4.0 国際 ライセンスで提供されています >>39

[42] 文字関係
key
mj:daikanwa-ucs
desc
daikanwa-ucs.txtUCS 符号位置
[48] 文字関係
key
mj:ids:contains
desc
daikanwa-ucs.txt大漢和辞典文字から IDS の構成漢字へ。
[51] 文字関係
key
unihan3.0:kMorohashi
desc
Unihan kMorohashi (Unicode 3.0)。
[52] 文字関係
key
unihan3.0:kAlternateMorohashi
desc
Unihan kAlternateMorohashi (Unicode 3.0)。
[53] 文字関係
key
unihan15:kMorohashi
desc
Unihan kMorohashi (Unicode 15.0)。
[54] 文字関係
key
unihan15:kIRGDaiKanwaZiten
desc
Unihan kIRGDaiKanwaZiten (Unicode 15.0)。
[55] 文字関係
key
unihan:kMorohashi
desc
Unihan kMorohashi

[22] UAX #38: Unicode Han Database (Unihan), , https://www.unicode.org/reports/tr38/#kMorohashi

The edition used is the revised edition, published in Tokyo by Taishūkan Shoten, 1986.

[24] 昔は kAlternateMorohashi もありました。

[29] Unihan のデータは品質がよくないという噂。

[31] 古い Unihan だと値が 0000099999 のものがあります。 ダッシュ付きの値がありません。

[32] 最近の Unihan だとそのような値は入っていません。 ダッシュ付きの値もあります。二重ダッシュ付きの値はありません。

[33] 最近といってもほとんどは URO で、それ以後の追加漢字にはほぼ kMorohashi が無いです。

[56] というのが Unicode 15.0 までの状況。

[57] Unicode 15.1 からは文字情報基盤ベースの情報に差し替えれれています。 文字情報基盤の一般公開版の壊れたデータではなく、 オリジナルデータがベースになっているようです。

IDSデータ

IDS

メモ

[5] 大漢和辞典 - Wikipedia, , https://ja.wikipedia.org/wiki/%E5%A4%A7%E6%BC%A2%E5%92%8C%E8%BE%9E%E5%85%B8