SAT外字

SAT

[2] 大正新脩大藏經テキストデータベース ホーム, , https://21dzk.l.u-tokyo.ac.jp/SAT/

ファイル形式

[18] Sat: Technical Infomation [format], , https://web.archive.org/web/20070503044235/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/format.html

文字表現

[19] Sat: Technical Infomation [code], , https://web.archive.org/web/20070509090637/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/code.html

外字

[22] &M で始まる文字参照構文を使っていました。

[21] SAT: Technical Infomation [gaiji], , https://web.archive.org/web/20070108085358/http://www.l.u-tokyo.ac.jp/~sat/japan/tech/gaiji.html

[20] 当初は大漢和辞典 + 今昔文字鏡 今昔文字鏡

[24] 今昔文字鏡にない文字&MT で始まる文字参照が使われています。 >>23

[38] >>37 &MT01391; の用例一覧を検索

[25] >>23 この当時の番号は後の出典Sの番号と同じ体系

[41] &T も使われていました。

[39] >>40 &T003334; の用例検索。

[49] この &TGT書体の文字番号です。

[26] >>21

梵字はサンスクリットのローマ字表記を、実体参照形式で表現しています。

[30] INBUDS Technical Notes, , https://web.archive.org/web/20030406153700/http://www.inbuds.net/jpn/tech.html

[31] >>30&M 方式を SAT サイト同様に説明し、

この方式は、他の多くのデータベースでも採用されています。

としている。

[32] SATINBUDS は別だが関係は深そうで、 参加人物も重なっている。

[33] >>30

文字コードで表現できないダイアクリティカルマーク付きアルファベットや特殊な記号は、TeXの形式に倣い、下記のような代替表記で表現しています。

\={a} ā

[27] INBUDS Update, , https://www.inbuds.net/jpn/update.html

2012/12/19&Mから始まる外字代替表記をUnicode文字に変更

[36] 関連: 梵字

[44] https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=89421&item_no=1&attribute_id=1&file_no=1

[45] >>4 GT書体を使い、ないものは GT ベースで作字していたと。

[46] advpub_2023_026.pdf, https://www.jstage.jst.go.jp/article/jsik/advpub/0/advpub_2023_026/_pdf

[47] 『電脳社会の日本語』:ほら貝, , http://www.horagai.com/www/moji/nihon/correct.htm

112010は文字鏡文字セットにおける「文字画像」の文字番号の末尾に予備用の0を付加したものである。

石井公成様から御指摘いただきました。末尾に0をつけるのはSATの方式でしたが、文字鏡の文字番号が十万台(六桁)にはいったのを機に、CBETAと協議の結果、五桁の番号の場合、「&M011201;」のように頭に0をつけて六桁固定長にすることになったということです。

CJK統合漢字の出典S

[10] SAT漢字UnicodeCJK統合漢字出典S としても使われています。

[1] SAT大正蔵漢字 in Unicode10.0, , https://21dzk.l.u-tokyo.ac.jp/SAT/unicode/satunicode.html

[12] 大正新脩大藏經テキストデータベース ホーム, , https://21dzk.l.u-tokyo.ac.jp/SAT/unicode13.html

[4] グループ:knagasaki_unicode10sat - GlyphWiki, https://glyphwiki.org/wiki/Group:knagasaki_unicode10sat

[6] >>4>>1 で配布されているフォントと同じようなものに見えますが、同じかはわかりません。 (ファイルとしては違っています。 GlyphWiki が生成するフォントの構造が少し変わっています。 グリフデータが違うかは知りません。)

[5] グループ:n747_satu13 - GlyphWiki, https://glyphwiki.org/wiki/Group:n747_satu13

[7] >>5>>4 に更に Unicode 13 分を追加したものです。

[13] >>12 で配布されているフォントと同じものか?

[35] >>4 >>5 にすべてのSAT外字が収録されているわけではなく、 IRG未提案のものや既存Unicode文字に対応するものは入っていません。 (そのようなものでも GlyphWiki 自体にはデータがあります。すべて入っているのかは不明。)

[9] Microsoft Word - IRGN2515PnP15 - n5178-IRGN2515PnP15Confirmed.pdf, , https://www.unicode.org/wg2/docs/n5178-IRGN2515PnP15Confirmed.pdf#page=29

[28] >>4 >>5sat_g908631 のようなグリフ名を使っています (GlyphWikiグリフ名の規則で sat_ユーザー名 sat の意味)。 8631番の外字で、 Unihan では SAT-08631 のような表記になります。

[29] GlyphWiki には z-sat08631 というグリフ名のものも別にあります。 z- はCJK統合漢字で一時出典Zとされていた名残り。

[34] 90万を足しているのは大漢和辞典今昔文字鏡とかぶらないようにしたのかも? (説明を発見できず)

[48] 大漢和辞典というよりGTフォントの番号かも?

[42] SAT_evidence_file.pdf, , https://21dzk.l.u-tokyo.ac.jp/SAT/ext_f/SAT_evidence_file.pdf

[107] 文字関係
key
unihan:kIRG_SSource
desc
Unihan kIRG_SSource

[43] GlyphWiki を使っているなら GlyphWiki のグリフデータから CJK統合漢字字形を再生成できるのでは、 と思いきや、そう簡単でもなさそうです。 グリフソースデータには他のグリフの参照が含まれています。 版番号付き参照されているものはいいのですが、 そうでないものは最新版が使われるので、 グリフ図形データ生成の時点の最新版がどれだったか調べる必要があります。 ところが GlyphWiki で配布されているグリフデータファイルには日時が入っていないので、 ある時点の最新がどの版だったかわかりません (各グリフの履歴ページには日時もありますが)。 また、配布されているグリフデータファイルは各グリフの最新の版のみが含まれるものと、 すべての版が含まれるものがあります。最新の版のみのものには、 既に削除されたグリフそーすデータが入っていません。 削除されたグリフソースデータの過去の版を参照しているグリフソースデータがあるので、 すべての版が含まれる方を使う必要があります。

文字列表現

書字方向

関連

[8] 関連記事: CJK統合漢字, GlyphWiki, 出典U

メモ

[11] SATWebサイトは難易度高すぎなんだよなあ、もうちょっと見やすくなればいいのだけど。

[3] 文学通信リポジトリ, 文学通信編集部, http://repository.bungaku-report.com/htdocs/index.php?action=pages_view_main&active_action=repository_view_main_item_snippet&index_id=14&pn=1&count=50&order=7&lang=japanese&page_id=3&block_id=8

[17] siryou2.pdf, , https://www.kantei.go.jp/jp/singi/titeki2/digitalarchive_kyougikai/meta_data/dai3/siryou2.pdf