e漢字 ‐ 49965〜50476
今昔文字鏡 ‐ 文字鏡番号50101〜50614
e漢字は「修訂第一版」を採用している。
今昔文字鏡は「修訂第二版」を採用している。修訂第二版には'または''付き文字が516字あるが、うち'無しと重複する2字を除いた514文字分が附番されている。
TRONコードでは言語面番号8〜9番が大漢和辞典文字専用の言語面となっているが、'や''にも連続して番号を振っているため、文字番号と諸橋コードは一致しない。

[4] グループ-ノート:諸橋大漢和 - GlyphWiki, 2023-07-01T05:33:30.000Z https://glyphwiki.org/wiki/Group-talk:%e8%ab%b8%e6%a9%8b%e5%a4%a7%e6%bc%a2%e5%92%8c

[25] 今昔文字鏡は続きの領域に独自の文字を割り当てていました。

[26] Unicode の CJK統合漢字の出典JのJKはなぜかその今昔文字鏡の番号と一致しています。 JK

[27] ISO/IEC 10036 のグリフ識別子には今昔文字鏡が登録されていて、今昔文字鏡の番号 + 10000000 がグリフ識別子になっています。つまり大漢和辞典 + 10000000 でもあります。

[28] が厳密には大漢和辞典と今昔文字鏡は一致していないとされます。今昔文字鏡

`&M`

[45] SGML で、またはSGML風に、 &M から始まる文字参照構文が使われました。

[44] ほら貝:文字コード, 2016-08-02T01:43:50.000Z, 2023-07-29T02:41:49.511Z http://www.horagai.com/www/moji/int/sat.htm

石井 SATは、台湾で『大正大蔵経』の入力を進めているCBETA(中華電子佛典協會)と全面的に協力しあってますが、外字表記についても協議を重ね、今後は、諸橋番号12345番ならハイフン無しの「&M012345;」という固定長6桁の形にして、双方とも共通の表記を使うことになっています。ファイルの先頭のヘッダも、基本的な部分は一緒にする予定です。他の国々の東洋学研究者も、われわれの統一形式を採用する人が増えるでしょう。

[46] &M は今昔文字鏡でも使われました。

[47] SAT: Technical Infomation [gaiji], 2023-07-29T03:57:29.000Z, 2007-01-08T08:59:24.157Z https://web.archive.org/web/20070108085358/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/gaiji.html

[65] 解析:木簡・くずし字解読システム, 2026-03-25T05:01:12.000Z, 2026-04-17T15:23:33.499Z https://aimojizo.nabunken.go.jp/doc/legend.html

【東京大学史料編纂所】
「&#m+大漢和辞典の文字コード」にて表示します(例:「&#m12646;」)。

国立国語研究所の符号

[64] ほら貝:文字コード, 2016-08-02T01:43:50.000Z, 2025-10-04T11:34:04.187Z http://www.horagai.com/www/moji/int/saito.htm

この連絡会に林大先生が参加されていまして、国立国語研究所で新聞の語彙調査のためにコンピュータをいれるにあたり、連絡会を通じてコンピュータがわかる人間を探したようです。たまたま私に白羽の矢が立って、国研にはいることになりました。
1965年時点ではまだ学部の4年生だったのですが、10月1日付で辞令が出て、学生のまま所員になり、翌年の3月までに芥川龍之介の「蜘蛛の糸」の語彙総索引をつくるプログラムと新聞記事をサンプリングするプログラムを作りました。このテスト版を動かして問題点を洗いだし、新聞の語彙調査になだれこんでいきます。

斎藤そうです。入出力には沖電気の漢字テレタイプライタというものを使っていたのですが、600のキーのある巨大なキーボードで、一つのキーに四つの漢字が割りあててありました。ペダルが左右にありまして、ペダルを踏まない状態でキーを押すと、四つの内、一番使用頻度の高い字、右のペダルだと二番目に使用頻度の高い字、左のペダルだと三番目に使用頻度の高い字、両足のペダルを踏むと使用頻度の一番低い字が入力されました。つまり、600×4で2400字が入力できたわけです。数字や記号、かななど非漢字がありましたから、漢字は2111字だったと思います。

斎藤それは最初から織りこみ済みです。理論的には20万字の表外字を管理できる仕組をシステムに組みこんでありますので。
これは、所員の松本が考えたものですが、『大漢和辞典』の検字番号を表外字として使うものです。表外字の符号化には『大漢和辞典』そのものをコードブックに使ってしまったのです。

斎藤 そうです。「◇」を表外字であることを示す識別符号にし、その後ろに漢字二字をつづけることによって、表外字一字をあらわします。
 大漢和辞典で部首「人」をもつ漢字の検字番号は、344番からはじまりますが、部首の基準番号450単位に、300番、750番、1250番と決め、 これに9番目、10番目、11番目の盤面漢字、「月」、「建」 、「見」を当てます。同様に、表外字の2文字目にも、基準番号を引いた値に対応する盤面漢字を当てます。
 例えば、「倆」の検字番号は751ですが、基準番号750に対応する漢字「建」と差「1」に対応する盤面漢字「計」を当て、「建+計」となります。
倆 = ◇建計
│  ││└── 部首内の番号を示す符号
│  │└─── 部首を示す符号
│  └──── 外字であることを示す符号
└─────── 外字

斎藤印字できるようになったのは、NECと国研が共同開発した高速漢字プリンタが1975年に完成してからで、それまでは符号列の形でしか出力できませんでした。外字活字を自分で鋳造するなんていうことは不可能でした。しかし、字と符号列の関係をきちっと定義したコードブックさえあれば、最終的に字の確認はできますし、統計をとることも可能です。すぐに字の形で見えるかどうかという問題だけで、理論コードの上では内字も外字もないのです。

斎藤印字する際にはNECのコードに変換しましたが、理論コードは維持しました。めんどくさいからやめるべきだとおっしゃる先生も所内にいらっしゃいましたが、しかし、結果的に廃止しなくて正解でした。高速漢字プリンタの後でJIS X 0208ができましたし、0208は1983年に例の改正をやっています。国研では『大漢和』をもとにした理論コードを絶対規範にしていたおかげで、コード系の変化に影響されずにすみました。

斎藤現在は「構造化4バイトコード」という形に進化しています。最初の3バイトで『大漢和』の検字番号をあらわし、表外字の見出しに使っています。また、1バイトは枝番として、新たに追加された異体字をあらわします。字体のバリエーションを最後のバイトに局所化することによって、見出し字とコードの関係を安定させることができます。

実際はこれだけではなく、既存の2バイト漢字コードを識別符号で統合したコードと、内部処理用コードという三種類のコードを同一構造にかさねています。

斎藤漢字データベースに発展し、すこしづつ進歩しています。最初は三文字の漢字列と『大漢和』の見出し字の二項目だけでコードブックを作りましたが、『新字源』や『大字源』などの漢和辞典の情報を付加する形で拡張していき、現在、41項目の情報がはいっています。部首や画数はもちろんですが、常用漢字であるか人名用漢字であるか、過去の用字用語調査でえられた出現度数、JISの区点番号、JISの改訂履歴などもはいっています。さらに、用字用語調査の用例を呼びだせます。こうしたデータは私だけが作ったのではなく、国研の各セクションで蓄積したデータを集約したものです。