コーパスのタグセット

[3] 日本語研究用コーパス各種のXML文書では、一連の似たような、しかし少しずつ違う語彙が使われています。

文書型

洒落本コーパス

文書構造では,洒落本テキストの実態に合わせ,書籍という形状的単位ではなく,見出しに相当する単位を一記事と見た。また会話や割書きや引用を切り出し,その下位要素として文を配置した。「文」という単位は,「△は「○○。○○。」と言った。」のように,会話文の中の一文としての「文」を,引用を包括する大きな単位としての文が包む,というように本来重層的である。しかし本コーパスを近世口語資料としてみれば,会話文の利用が主体となることが想定され,会話文の中の単位としての「文」を切り出すことがより重要である。それに加え,データの複雑化を避ける意味もあり,引用をまたがない細かい単位としての文のみを設定することとした。

[27] >>25 #page=7

表 2 「洒落本コーパス 0.5」のタグセット
要素(タグ)名説明
<text> 1 作品全体
<front> 前付相当の箇所(序文等)
<body> 主本文相当の箇所
<back> 後付相当の箇所(跋文,刊記等)
<article> 1 記事の範囲(「回」相当)
<titleBlock> 記事とは認められない,<text> 直下レベルでの表題周り
<p> 段落を表す。タイトルや署名等を除く主本文
<block> 記事中のタイトルなど,主本文とは切り分けたい段落要素
<q> @type=“会話” (<speech>) ひとまとまりの会話文。ひまわり用に <speech> を <q> に統合。本要素に話者情報を付与。
@type=“引用” (<quotation>) 文献等からの引用や手紙など。ひまわり用に <quotation> を <q> に統合。
@type=“割書” (<warigaki>) 割書き箇所。ひまわり用に <warigaki> を <q> に統合。
<s> 文
<verse> 謡などの節付け箇所や和歌など韻文であることが明確な箇所
<delivery> 会話文の様式等を指定する記述
<speaker> 話者の表示
<corrSpan> 振り仮名等により文字列の置き換えを行った短単位以上の箇所
<hi> 小書き・傍線・囲みなどの文字列に対する装飾
<SUW> 語(短単位)
<lRuby> 本行の左側に振られた振り仮名等の文字列
<r> (<ruby>) 本行の右側に振られた振り仮名文字列。ひまわり用に <ruby> を <r> に。
<add> 本文の補入箇所
<kanbun> 訓み下す際文字位置を置き換えた漢文等の箇所
<vMark> 底本原文が濁点無表記であった箇所
<odoriji> 底本原文が 1 字分の踊り字であった箇所
<corr> 誤字・脱字・衍字等の本文の修正
<g> 外字・絵文字等準拠する文字セットでは表示できない文字
<char> 1 字を表す単位,@script=“カタカナ”で,カタカナ表記箇所に使用
<info> 本文テキストに割って入れられなかった記号,丁付情報等
<pb><lb> 底本の改ページ位置・改行位置
<opb> 原本画像の丁や画像リンクとの対応

[28] >>25 #page=8

市村・河瀬・小木曽(2012)では,会話・引用箇所・割書きについて,<speech>,<quotation>, <warigaki> と,要素を分けて設定していたが,本仕様では,本文中の性質の異なるテキスト要素を <q> でマークし,会話文を表す「会話」と,文献引用等を表す「引用」,地の文や注記に相当する「割書」の 3 種を属性として書き分けた。なお,無表示の物は「割書」ではない本文である。割書き内の会話文は認定していない。

[25] 洒落本コーパス構築の試行, 市村太郎, 村山実和子, 2017-01, 2023-11-26T07:48:43.000Z https://repository.ninjal.ac.jp/records/868

「人情本コーパス」のタグセット

[1] NINJAL Research Papers No.12 - papers1201.pdf, 2022-05-24T12:05:07.000Z https://repository.ninjal.ac.jp/index.php?action=pages_view_main&active_action=repository_action_common_download&item_id=866&item_no=1&attribute_id=54&file_no=1&page_id=13&block_id=21#page=8
- [16] 移転確認 2023-11-26T07:02:58.500Z
- [17] 「人情本コーパス」の設計と構築, 藤本灯, 北﨑勇帆, 市村太郎, 岡部嘉幸, 小木曽智信, 高田智和, 2023-11-26T07:02:50.000Z https://repository.ninjal.ac.jp/records/866

[9] >>1 「洒落本コーパス」に対する追加 #page=6

[10] goji 要素 (合字)
[11] corr 要素 (本文修正箇所)
- [12] revision 属性、と本文に説明されているが例示になし
- [13] 例示には <corr type="revision" source="東大本">...</corr>
[14] corpus 要素 (コーパス全体)
- [15] 子供に text 要素 (1巻分) 複数個

[18] 全体 >>1 #page=8

表 1 「人情本コーパス」のタグセット
階層タグ説明
文以上 1 corpus コーパス全体
2 text テキスト一冊のまとまり
3 front 序文
body 本文
back 跋文
4 article 記事
titleBlock 全体のタイトルの記述
5 p 本文のひとかたまり
block 内題などのブロック要素
6 speech 会話文
warigaki 割書き
quotation 字下げ,手紙など
文 7 s 一文
文未満 8 speaker 話者
hi 囲み,傍線
r ルビ
lr 左ルビ
odoriji 踊り字
vMark 濁点無表記箇所
goji 合字
corr 本文修正箇所
unclear 原本の不鮮明箇所
gap 判読不明箇所
位置情報 pb 頁開始位置
lb 行開始位置

[19] ひまわり版「人情本コーパス」 ver.0.2 (『日本語歴史コーパス江戸時代編』) 仕様書, 藤本灯, 北﨑勇帆, 福山雅深, 2017 年 11 月 1 日, 2022-03-29T01:34:33.000Z, 2023-11-26T07:09:02.592Z https://clrd.ninjal.ac.jp/chj/doc/ninjobon0.2-doc.pdf
- [2] ひまわり版「人情本コーパス」仕様書, akari, 2022-05-24T12:05:22.000Z https://webcache.googleusercontent.com/search?q=cache:AiObS341mhIJ:https://clrd.ninjal.ac.jp/chj/doc/ninjobon0.2-doc.pdf

[6] >>2 は >>1 に g, char が追加されている。

[20] >>19 #page=6

表 1:タグセット
タグ説明属性
corpus コーパス全体
text テキスト一冊のまとまり title, volume, year, year_w url, vol
front 序文
body 本文
back 跋文
article 記事 type
titleBlock 全体のタイトルの記述
p 本文のひとかたまり
block 内題などのブロック要素
speech 会話文 source
warigaki 割書き
quotation 字下げ、手紙など
s 一文
speaker 話者
hi 囲み、傍線 rend
r ルビ rt
lr 左ルビ rt
odoriji 踊り字 originalText
vMark 濁点無表記箇所
goji 合字
g 外字などの特殊文字 type
char カタカナなど script
corr 本文修正箇所 type, subType, originalText
unclear 原本の不鮮明箇所
gap 判読不明箇所
pb 頁開始位置 n,num
lb 行開始位置

[7] >>4 は >>2 に kana (属性 jibo, 要素内容が平仮名, 属性値が変体仮名の字母), rb (連綿切れ目を表す空要素) が追加されている。

[5] 「人情本コーパス」のタグセットは「洒落本コーパス」のタグセットに「概ね準拠」している。 >>4 p.223

[33] 漢字字體史研究二字体と漢字情報, 2016年11月7日初版発行
- [34] 漢字字体史研究二: 字体と漢字情報 | 晴通, 石塚, 智和, 高田, 基, 馬場, 詔一, 横山 |本 | 通販, 2022-05-24T11:23:31.000Z https://www.amazon.co.jp/exec/obidos/ASIN/4585280294/wakaba1-22/
- [4] 「人情本コーパス」の表記情報アノテーション, 藤本灯, 高田智和, pp.222-243

「表記・図版情報付き版本コーパス」の「表記情報用拡張仕様」「図版情報用拡張仕様」

[21] 表記・図版情報付き版本コーパスは、人情本コーパスのタグセットに、表記情報用拡張仕様と図版情報用拡張仕様を追加した XML文書型を採用しています。 >>8

[22] >>8 #page=2

表 2 人情本コーパスのタグセット(抜粋)
情報種別タグ(要素) 説明
構造 corpus コーパス全体
text テキスト1冊のまとまり
body 本文
p 本文のひとかたまり
s 文
speech 会話文
quotation 引用、手紙など
speaker 話者
版面 pb 頁開始位置
lb 行開始位置
warigaki 割書き
r 右ルビ
文字 goji 合字
g 外字などの特殊文字
unclear 原本の不鮮明箇所
校訂 odoriji 踊り字展開箇所
vMark 濁点無表記箇所
corr 本文修正箇所
形態論 SUW 短単位

情報種別	タグ(要素)	説明
構造	corpus	コーパス全体
	text	テキスト1冊のまとまり
	body	本文
	p	本文のひとかたまり
	s	文
	speech	会話文
	quotation	引用、手紙など
	speaker	話者
版面	pb	頁開始位置
	lb	行開始位置
	warigaki	割書き
	r	右ルビ
文字	goji	合字
	g	外字などの特殊文字
	unclear	原本の不鮮明箇所
校訂	odoriji	踊り字展開箇所
	vMark	濁点無表記箇所
	corr	本文修正箇所
形態論	SUW	短単位

[23] 表記情報用拡張仕様 >>8 #page=3

rb 要素:連綿文字列の切れ目を示す.
kana 要素:現行仮名と異体の仮名(変体仮名) を表す.属性として,字母の情報(jibo)と文字コードの情報(ref)を持つ.
choice 要素:テキスト中の同じ場所で,異なる符号化記述をまとめる.原文(sic 要素) と校訂本文(corr 要素),本行文字列(r 要素)とルビ文字列(rt 要素)

[24] 図版情報用拡張仕様 >>8 #page=3

figure 要素:図版とそれに付随する要素を示す.
graphic 要素:図版の URL を示す.
head 要素:図版のタイトル相当の文書要素を示す.
caption 要素:図版に付随する文書要素(タイトル以外)を示す.
figDesc 要素:subject 要素(対象),sex要素 (性別), name 要素(名前),hair 要素(髪型),clothes(着物), additional 要素(付随して描かれているもの.内部を item 要素で記述)により,図の内容を記述する.

[8] 文字情報と図版情報を有する近世版本コーパスの構築とその応用, 間淵洋子, 2018 年 12 月, 2022-05-24T12:19:38.000Z https://ipsj.ixsq.nii.ac.jp/ej/index.php?action=pages_view_main&active_action=repository_action_common_download&item_id=192450&item_no=1&attribute_id=1&file_no=1&page_id=13&block_id=8

「明六雑誌コーパス」の「XML タグセット」

[30] >>29 #page=4

表 1 XML タグセット
タグ名説明詳説する節番号
magazine 雑誌 1 号分を表す。 4.1.
front 雑誌中で前付けに相当する文書要素を表す。 4.2.
body 雑誌中で中心本文に相当する文書要素を表す。 4.3.
article 1 記事を表す。 4.4.
titleBlock 前付け・中心本文の中にあり、記事とは認められない文書要素を表す。 4.5.
p 記事中の段落に相当する文書要素を表す。 4.6.
block 記事中にあり、段落とは見なせない文書要素(記事タイトル・記事著者・小見出し等)を表す。 4.7.
figureBlock 図表を表す。 4.8.
warigaki 割書された文字列を表す。 4.9.
quotation 発話部分や他の文献からの引用を表す。 4.10.
superS 引用や割書を含むため、複数の s 要素に分割された文を表す。 4.11.
s 文を表す。 4.12.
odoriji 踊字で表記されていたことを表す。 4.13.
span 漢字片仮名交じり文の片仮名を平仮名に変換したテキストを作成する際、片仮名のまま残した文字列を表す。 4.14.
gap 抹消・破損等で判読できない文字列の存在を表す。 4.15.
pb 原本での改ページ位置を表す。 4.16.
lb 原本での改行位置を表す。 4.17.
SUW 語(短単位)を表す。 4.18.
ruby 本行の右側に振られたルビを表す。 4.19.
lRuby 本行の左側に振られたルビを表す。 4.20.
corr 誤植を校訂したことを表す。 4.21.
unclear 不鮮明ではあるが字体が推定できる文字を表す。 4.22.
vMark 濁点無表記の文字を表す。 4.23.
g 外字・敬意欠字等の特殊な文字を表す。 4.24.
kanbun 漢文によって書かれた文章に返読・補読を行ったことを表す。 4.25.

[29] 『明六雑誌コーパス』の仕様, 近藤明日子, 田中牧郎, 2023-11-26T08:07:49.000Z https://web.archive.org/web/20171116111759/http://pj.ninjal.ac.jp/corpus_center/cmj/doc/07kondo.pdf

「国民之友コーパス」の「XML タグセット」

[35] >>32 #page=9

表1 XML タグセット
タグ名説明詳説する節番号
magazine 雑誌1 号分を表す。 4.2(p.6~)
front 雑誌中で前付けに相当する文書要素を表す。 4.3(p.7~)
body 雑誌中で中心本文に相当する文書要素を表す。 4.4(p.7~)
back 雑誌中で後付けに相当する文書要素を表す。 4.5(p.8~)
article 記事を表す。 4.6(p.9~)
titleBlock 記事と同位の文書要素で、記事とは見なせないものを表す。 4.7(p.10~)
p 段落に相当する文書要素を表す。 4.8(p.10~)
block 段落と同位の文書要素で、段落とは見なせないものを表す。 4.9(p.11~)
figureBlock 図表の存在を表す。 4.10(p.12~)
rejectedBlock 非日本語(外国語・漢文)からなる段落の存在を表す。 4.11(p.12~)
warigaki 割書されている文字列を表す。 4.12(p.13~)
quotation 上位要素とは発話者や発話場面の異なる文書要素が引用されている部分を表す。 4.13(p.13~)
superS 引用や割書を含むため、複数のs 要素からなると見なされる文を表す。 4.14(p.14~)
s 文を表す。 4.15(p.15~)
odoriji 踊り字で表記されている箇所を表す。 4.16(p.16~)
span 特にマークアップする必要のある文中の文字列を表す。 4.17(p.17~)
pb 原本での改ページ位置を表す。 4.18(p.18~)
cb 原本での改段位置を表す。 4.19(p.18~)
lb 原本での改行位置を表す。 4.20(p.19~)
br 論理改行を表す。 4.21(p.19~)
SUW 語(短単位)を表す。 4.22(p.19~)
ruby 本行の右側に振られているルビを表す。 4.23(p.21~)
lRuby 本行の左側に振られているルビを表す。 4.24(p.22~)
corr 原文の文字に修正を施し、異なる文字としたものを表す 4.25(p.23~)
unclear 不鮮明ではあるが字体が推定できる文字を表す。 4.26(p.25~)
vMark 濁音を表記するにもかかわらず、原文では濁点のない仮名が使われていることを表す。 4.27(p.25~)
g 外字・敬意欠字を表す。 4.28(p.26~)

タグ名	説明	詳説する節番号
magazine	雑誌1 号分を表す。	4.2(p.6~)
front	雑誌中で前付けに相当する文書要素を表す。	4.3(p.7~)
body	雑誌中で中心本文に相当する文書要素を表す。	4.4(p.7~)
back	雑誌中で後付けに相当する文書要素を表す。	4.5(p.8~)
article	記事を表す。	4.6(p.9~)
titleBlock	記事と同位の文書要素で、記事とは見なせないものを表す。	4.7(p.10~)
p	段落に相当する文書要素を表す。	4.8(p.10~)
block	段落と同位の文書要素で、段落とは見なせないものを表す。	4.9(p.11~)
figureBlock	図表の存在を表す。	4.10(p.12~)
rejectedBlock	非日本語(外国語・漢文)からなる段落の存在を表す。	4.11(p.12~)
warigaki	割書されている文字列を表す。	4.12(p.13~)
quotation	上位要素とは発話者や発話場面の異なる文書要素が引用されている部分を表す。	4.13(p.13~)
superS	引用や割書を含むため、複数のs 要素からなると見なされる文を表す。	4.14(p.14~)
s	文を表す。	4.15(p.15~)
odoriji	踊り字で表記されている箇所を表す。	4.16(p.16~)
span	特にマークアップする必要のある文中の文字列を表す。	4.17(p.17~)
pb	原本での改ページ位置を表す。	4.18(p.18~)
cb	原本での改段位置を表す。	4.19(p.18~)
lb	原本での改行位置を表す。	4.20(p.19~)
br	論理改行を表す。	4.21(p.19~)
SUW	語(短単位)を表す。	4.22(p.19~)
ruby	本行の右側に振られているルビを表す。	4.23(p.21~)
lRuby	本行の左側に振られているルビを表す。	4.24(p.22~)
corr	原文の文字に修正を施し、異なる文字としたものを表す	4.25(p.23~)
unclear	不鮮明ではあるが字体が推定できる文字を表す。	4.26(p.25~)
vMark	濁音を表記するにもかかわらず、原文では濁点のない仮名が使われていることを表す。	4.27(p.25~)
g	外字・敬意欠字を表す。	4.28(p.26~)

[31] 国立国語研究所学術情報リポジトリ, 2023-11-26T08:12:17.000Z https://repository.ninjal.ac.jp/records/3302
- [32] 『国民之友コーパス』解説書第1.1 版, 近藤明日子, 2014, kokumin_manual_v1_1.pdf

XMLタグセット